総研大2023/言語資源学の履歴ソース(No.4)

#author("2023-05-08T05:59:02+00:00","default:ogiwiki","ogiwiki")
[[総研大2023]]

**20230508 [#t32b08bc]

***紙の資料からコーパスまで ～テキストの電子化とアノテーションの高度化 [#s7dfd61c]

+(紙の)本文
+(紙の)総索引（コンコーダンス）
+電子テキスト：テキスト （199x年代～）
--[[授業資料/テキストデータ紹介]]
+構造化テキスト：テキスト+XMLによる構造化タグ （200x年代～）
--[[太陽コーパス>https://ccd.ninjal.ac.jp/cmj/taiyou/]]など
+単語情報付きのコーパス：テキスト+XMLによる構造化タグ+形態論情報　（201x年代～）
--[[現代日本語書き言葉均衡コーパス（BCCWJ）>https://ccd.ninjal.ac.jp/bccwj/]]など
--[[日本語歴史コーパス（CHJ）>https://ccd.ninjal.ac.jp/chj/]]など


***OCRによるテキスト化 [#a2b9bd56]
-光学文字認識(Optical Character Recognition)

-商用ソフトウェアの例((かつては一般向けにたくさん発売されていたがかなり減ってしまった))
--[[e.Typist>https://mediadrive.jp/products/et]]
--[[読取革命>https://www.sourcenext.com/product/pc/use/pc_use_003021/]]
--[[ABBYY FineReader>https://pdf.abbyy.com/ja/]]
--[[WinReaderPro>https://mediadrive.jp/products/wrp]] (高機能だが高額)

-フリーソフトウェア
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
---国会図書館の委託で作られたフリーソフトで特に近代活字の認識精度が非常に高い
---インストールはやや手間だが、GoogleColab版で簡単に試せる
---（参考）https://zenn.dev/nakamura196/articles/b6712981af3384
--[[古典籍OCR>https://github.com/ndl-lab/ndlkotenocr_cli]]も公開された
--[[Tessaract>https://github.com/tesseract-ocr/tesseract]]（多言語対応）

-Webサービス
--Google DriveのOCR機能
---Googleドライブにアップロードした画像をGoogleドキュメントで開く

***電子化とアノテーション（明六雑誌コーパスを例に） [#nb9967ee]
-明六雑誌コーパス：https://ccd.ninjal.ac.jp/cmj/meiroku/

-ファイル形式と実例
++電子テキスト：プレーンテキスト
++構造化テキスト：XMLファイル
++単語情報付きデータ：単語情報を埋め込んだXML　／XMLファイル＋CSVファイル
--（発展）XMLの限界とスタンドオフアノテーション

-それぞれの利用アプリケーション
++電子テキスト：テキストエディタ＋grepなど
++構造化テキスト：全文検索システム[[「ひまわり」>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]、XMLエディタ（Oxygen, VSCode）、XPath・XSLT
++単語情報付きデータ：中納言（オンライン）／[[Chaki.Net>https://ja.osdn.net/projects/chaki/]]（PC上）

***XMLの活用例 [#u9fcc688]
-[[「太陽コーパス」>https://clrd.ninjal.ac.jp/cmj/taiyou/index.html]]と[[XMLアプリケーション>https://csd.ninjal.ac.jp/lrc/?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]（2000年代）


***アノテーションの実際 [#kca1a500]
-サンプルテキスト（青空文庫の夏目漱石「こころ」）をXMLに
--練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com/s/r89ahi6goxy5a2c/kokoro.txt?dl=1]]


**20230501（オンデマンド） テキストデータ整備の準備[#e99d6137]

-【課題1】VS codeのインストールと設定
--拡張機能 Japanese Language Packの追加
---参考：https://web.yokkaichi-u.ac.jp/yucc/archives/1542
--ファイルオープン時にエンコーディングを自動判別するよう設定
---https://www.javadrive.jp/vscode/setting/index3.html
--拡張機能 XML Language Support by Red Hatの追加

-テキストデータについて
--[[授業資料/文字コード関連リンク]]
--[[授業資料/テキストデータ紹介]]

-【課題2】サンプルテキスト（青空文庫の夏目漱石「こころ」）をダウンロードしてVS codeで開き、UTF-8で保存しなおす
---練習用サンプルデータ[[kokoto.txt>https://www.dropbox.com/s/r89ahi6goxy5a2c/kokoro.txt?dl=1]]

-正規表現について
--[[授業資料/正規表現]]
--正規表現を学ぶ狩りに出ようRegex Hunting https://www.regex-hunting.com/


-【課題3】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除
//---｜?(\P{sc=Han}+)《(.+?)》
総研大2023/言語資源学 の履歴ソース(No.4)

総研大2023/言語資源学の履歴ソース(No.4)