#author("2024-05-19T19:32:27+09:00","default:ogiwiki","ogiwiki") [[総研大2024]] **2024/05/20 [#t32b08bc] ***紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化 [#s7dfd61c] +(紙の)本文 +(紙の)総索引(コンコーダンス) +電子テキスト:テキスト (199x年代~) --[[授業資料/テキストデータ紹介]] +構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~) --[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など +単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~) --[[現代日本語書き言葉均衡コーパス(BCCWJ)>https://ccd.ninjal.ac.jp/bccwj/]]など --[[日本語歴史コーパス(CHJ)>https://ccd.ninjal.ac.jp/chj/]]など ***コーパスのファイル形式とアプリケーション [#v16f2d86] -ファイル形式と実例 ++電子テキスト:プレーンテキスト ++構造化テキスト:XMLファイル ++単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル --(発展)XMLの限界とスタンドオフアノテーション -それぞれの利用アプリケーション ++電子テキスト:テキストエディタ+grepなど ++構造化テキスト:全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]、XMLエディタ(Oxygen, VSCode)、XPath・XSLT ++単語情報付きデータ:中納言(オンライン)/[[Chaki.Net>https://ja.osdn.net/projects/chaki/]](PC上) **テキストエディタ [#w98ab816] -VisualStudio codeのインストールと設定 --拡張機能 Japanese Language Packの追加 ---参考:https://web.yokkaichi-u.ac.jp/yucc/archives/1542 --ファイルオープン時にエンコーディングを自動判別するよう設定 ---https://www.javadrive.jp/vscode/setting/index3.html --拡張機能 XML Language Support by Red Hatの追加 ***テキストデータと文字コード [#n2e44ea1] --[[授業資料/文字コード関連リンク]] --[[授業資料/テキストデータ紹介]] -練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com/s/r89ahi6goxy5a2c/kokoro.txt?dl=1]] -【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす ***正規表現[#q514651f] -[[授業資料/正規表現]] --文字クラス [ ] --文字クラスの否定(補集合)[^ ] --繰り返し(最長一致) ? + * --最短一致 +? *? --グループ化 () --or(論理和) | --文頭 ^、文末 $ -[[タグつき正規表現>授業資料/タグつき正規表現]] --後方参照 --正規表現を学ぶ狩りに出ようRegex Hunting https://www.regex-hunting.com/ ***正規表現に関する参考資料 [#w86de08b] -サクラエディタの正規表現:https://sakura-editor.github.io/help/HLP000089.html -正規表現に関する本 [[amazonで検索>https://www.amazon.co.jp/s?k=%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE]] -ゲームの紹介: --[[正規表現を学ぶ狩りに出ようRegex Hunting>https://www.regex-hunting.com/]] -【課題】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除 //---|?(\P{sc=Han}+)《(.+?)》