#author("2023-07-25T15:04:03+09:00;2023-07-25T13:49:08+09:00","default:ogiwiki","ogiwiki")
#author("2023-07-25T15:07:31+09:00","default:ogiwiki","ogiwiki")
[[日本語テキスト処理基礎講座2023]]


*②Excelの利用 [#x9b7df21]

**表形式データの基本~見た目と構造の話 [#ta74492e]


***ネ申Excel問題((10年前のリンク。多少は改善されたがまだまだ)) [#x8e16801]
-https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf
--世にはびこる紙至上主義的な機械可読性を軽んじた表データの問題


***どっちが「きれいなデータ」だろうか? [#zd1d6333]

 太陽コーパス              近代語    書き言葉
 日本語話し言葉コーパス     現代語        話し言葉
 現代日本語書き言葉均衡コーパス  現代語    書き言葉
 日本語歴史コーパス       古代~近代語 書き言葉

 太陽コーパス	近代語	書き言葉
 日本語話し言葉コーパス	現代語	話し言葉
 現代日本語書き言葉均衡コーパス	現代語	書き言葉
 日本語歴史コーパス	古代~近代語	書き言葉

***ちゃんとしたデータを作るために [#jbc3b44b]
-ちゃんとしたデータ=機械処理に適したデータとして大事なのは構造。見た目は気にしないで後回しでよい。後でどうにでもなる。
-テキスト、スプレッドシート(Excel)、一般の文書(Word)、マークアップ(XML)などのデータ設計のあらゆることに共通した課題

-研究所から発信するデータはちゃんとしたデータにしてほしい


***よりちゃんとしたデータにむけて [#ae18a57f]
-[[授業資料/表の正規化]]

**基本 [#a0b117e3]
***テキストデータとExcel [#ve1dc933]
-TXT, CSV, TSV
--Excelとテキストデータの文字コード
-xls, xlsx

-おすすめ:VSCode拡張Rainbow CSV
--https://marketplace.visualstudio.com/items?itemName=mechatroner.rainbow-csv

***並べ替えとフィルタ [#pf10ef38]
-並べ替え(sort)
-テキストフィルタ(≒grep)
-重複の削除(uniq)

**ピボットテーブル [#b415c92c]
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp/bccwj-nt/]]の検索結果データを例に
-サンプルデータ:美しい+X
//--https://www.dropbox.com/scl/fi/xofkfnanvl5fjtjija555/kwic-11083586.csv?rlkey=7t7039o3xmgyi3dmd32hyjpxj&dl=1
 前方共起: 語彙素="美しい" ON 1 WORDS FROM キー

-ちゃんとしたデータはピボットテーブルで処理できる
--表に集計や余計なコメントは入れない


**文字列関数 [#la2f0926]
-[[授業資料/EXCELの文字列関数]]

**VLOOKUP [#v5e7727e]

-[[授業資料/VLOOKUP関数]]


--参考リンク http://honeshabri.hatenablog.com/entry/vlookup

-サンプルデータ:割合+が+adj
//--https://www.dropbox.com/scl/fi/p75m6p9cyt2b5kihrskkq/kwic-11083976.csv?rlkey=gr9uuowf2beu50jwb0i1eth0k&dl=1
 キー: 品詞 LIKE "形容詞%"
 AND 前方共起: 語彙素="割合" ON 2 WORDS FROM キー
 AND 前方共起: 語彙素="が" ON 1 WORDS FROM キー

--参考リンク http://honeshabri.hatenablog.com/entry/vlookup


**テキストエディタと組み合わせて利用する [#yd260b65]
例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで整形した後、Excelに貼り付ける
-前後文脈の整理(キーが現れた文以外を消す)
--前文脈:.+#((を空文字列に置換。以下同じ))  後文脈:#.+
-値の一部を取り出す
--品詞大分類:-.+ ジャンル大分類:/.+


**Excelから関係データベースへ [#a904b7e7]
-ちゃんとしたデータを作ると関係データベース(RDB)で扱いたくなります。
-関係データベースを知るとVLOOKUPが厭になります。
-関係データベースが使いたくなったら最初はAccessなどでデータ管理して、SQLを覚えていってください。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS