日本語テキスト処理基礎講座2023/②Excelの利用
をテンプレートにして作成
開始行:
[[日本語テキスト処理基礎講座2023]]
*②Excelの利用 [#x9b7df21]
**表形式データの基本~見た目と構造の話 [#ta74492e]
***ネ申Excel問題((10年前のリンク。多少は改善されたがまだ...
-https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf
--世にはびこる紙至上主義的な機械可読性を軽んじた表データ...
***どっちが「きれいなデータ」だろうか? [#zd1d6333]
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
***ちゃんとしたデータを作るために [#jbc3b44b]
-ちゃんとしたデータ=機械処理に適したデータとして大事なの...
-テキスト、スプレッドシート(Excel)、一般の文書(Word)...
-研究所から発信するデータはちゃんとしたデータにしてほしい
***よりちゃんとしたデータにむけて [#ae18a57f]
-[[授業資料/表の正規化]]
**基本 [#a0b117e3]
***テキストデータとExcel [#ve1dc933]
-TXT, CSV, TSV
--Excelとテキストデータの文字コード
-xls, xlsx
-おすすめ:VSCode拡張Rainbow CSV
--https://marketplace.visualstudio.com/items?itemName=mec...
***並べ替えとフィルタ [#pf10ef38]
-並べ替え(sort)
-テキストフィルタ(≒grep)
-重複の削除(uniq)
**ピボットテーブル [#b415c92c]
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp/bccwj-nt/]]...
-サンプルデータ:美しい+X
//--https://www.dropbox.com/scl/fi/xofkfnanvl5fjtjija555/...
前方共起: 語彙素="美しい" ON 1 WORDS FROM キー
-ちゃんとしたデータはピボットテーブルで処理できる
--表に集計や余計なコメントは入れない
**文字列関数 [#la2f0926]
-[[授業資料/EXCELの文字列関数]]
**VLOOKUP [#v5e7727e]
-[[授業資料/VLOOKUP関数]]
-サンプルデータ:割合+が+adj
//--https://www.dropbox.com/scl/fi/p75m6p9cyt2b5kihrskkq/...
キー: 品詞 LIKE "形容詞%"
AND 前方共起: 語彙素="割合" ON 2 WORDS FROM キー
AND 前方共起: 語彙素="が" ON 1 WORDS FROM キー
--参考リンク http://honeshabri.hatenablog.com/entry/vlookup
**テキストエディタと組み合わせて利用する [#yd260b65]
例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで...
-前後文脈の整理(キーが現れた文以外を消す)
--前文脈:.+#((を空文字列に置換。以下同じ)) 後文脈:#.+
-値の一部を取り出す
--品詞大分類:-.+ ジャンル大分類:/.+
**Excelから関係データベースへ [#a904b7e7]
-ちゃんとしたデータを作ると関係データベース(RDB)で扱い...
-関係データベースを知るとVLOOKUPが厭になります。
-関係データベースが使いたくなったら最初はAccessなどでデー...
終了行:
[[日本語テキスト処理基礎講座2023]]
*②Excelの利用 [#x9b7df21]
**表形式データの基本~見た目と構造の話 [#ta74492e]
***ネ申Excel問題((10年前のリンク。多少は改善されたがまだ...
-https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf
--世にはびこる紙至上主義的な機械可読性を軽んじた表データ...
***どっちが「きれいなデータ」だろうか? [#zd1d6333]
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
***ちゃんとしたデータを作るために [#jbc3b44b]
-ちゃんとしたデータ=機械処理に適したデータとして大事なの...
-テキスト、スプレッドシート(Excel)、一般の文書(Word)...
-研究所から発信するデータはちゃんとしたデータにしてほしい
***よりちゃんとしたデータにむけて [#ae18a57f]
-[[授業資料/表の正規化]]
**基本 [#a0b117e3]
***テキストデータとExcel [#ve1dc933]
-TXT, CSV, TSV
--Excelとテキストデータの文字コード
-xls, xlsx
-おすすめ:VSCode拡張Rainbow CSV
--https://marketplace.visualstudio.com/items?itemName=mec...
***並べ替えとフィルタ [#pf10ef38]
-並べ替え(sort)
-テキストフィルタ(≒grep)
-重複の削除(uniq)
**ピボットテーブル [#b415c92c]
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp/bccwj-nt/]]...
-サンプルデータ:美しい+X
//--https://www.dropbox.com/scl/fi/xofkfnanvl5fjtjija555/...
前方共起: 語彙素="美しい" ON 1 WORDS FROM キー
-ちゃんとしたデータはピボットテーブルで処理できる
--表に集計や余計なコメントは入れない
**文字列関数 [#la2f0926]
-[[授業資料/EXCELの文字列関数]]
**VLOOKUP [#v5e7727e]
-[[授業資料/VLOOKUP関数]]
-サンプルデータ:割合+が+adj
//--https://www.dropbox.com/scl/fi/p75m6p9cyt2b5kihrskkq/...
キー: 品詞 LIKE "形容詞%"
AND 前方共起: 語彙素="割合" ON 2 WORDS FROM キー
AND 前方共起: 語彙素="が" ON 1 WORDS FROM キー
--参考リンク http://honeshabri.hatenablog.com/entry/vlookup
**テキストエディタと組み合わせて利用する [#yd260b65]
例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで...
-前後文脈の整理(キーが現れた文以外を消す)
--前文脈:.+#((を空文字列に置換。以下同じ)) 後文脈:#.+
-値の一部を取り出す
--品詞大分類:-.+ ジャンル大分類:/.+
**Excelから関係データベースへ [#a904b7e7]
-ちゃんとしたデータを作ると関係データベース(RDB)で扱い...
-関係データベースを知るとVLOOKUPが厭になります。
-関係データベースが使いたくなったら最初はAccessなどでデー...
ページ名: