日本語テキスト処理基礎講座2023
②Excelの利用†
表形式データの基本~見た目と構造の話†
ネ申Excel問題*1†
どっちが「きれいなデータ」だろうか?†
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
ちゃんとしたデータを作るために†
- ちゃんとしたデータ=機械処理に適したデータとして大事なのは構造。見た目は気にしないで後回しでよい。後でどうにでもなる。
- テキスト、スプレッドシート(Excel)、一般の文書(Word)、マークアップ(XML)などのデータ設計のあらゆることに共通した課題
- 研究所から発信するデータはちゃんとしたデータにしてほしい
よりちゃんとしたデータにむけて†
テキストデータとExcel†
並べ替えとフィルタ†
- 並べ替え(sort)
- テキストフィルタ(≒grep)
- 重複の削除(uniq)
ピボットテーブル†
文字列関数†
VLOOKUP†
テキストエディタと組み合わせて利用する†
例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで整形した後、Excelに貼り付ける
- 前後文脈の整理(キーが現れた文以外を消す)
- 値の一部を取り出す
Excelから関係データベースへ†
- ちゃんとしたデータを作ると関係データベース(RDB)で扱いたくなります。
- 関係データベースを知るとVLOOKUPが厭になります。
- 関係データベースが使いたくなったら最初はAccessなどでデータ管理して、SQLを覚えていってください。