#author("2025-11-17T17:05:49+09:00","default:ogiwiki","ogiwiki") #author("2025-11-17T17:06:40+09:00","default:ogiwiki","ogiwiki") [[総研大2025]] *言語資源学演習1 [#hba025c6] -月曜4限 //-10月20日(月)~ -10月27日からはオンライン(Zoom)で実施 **11月17日 XMLファイルの整備 [#f4b57e84] -[[総研大2025/言語資源学]] 参照 -復習:[[総研大2025/言語資源学]] 参照 --XMLとは --正規表現の利用 -XMLとは -正規表現の利用 -[[授業資料/コマンドラインの基礎]]つづき --パイプ --テキストファイルの置換(sed) --バッチファイル ***授業用データ置き場(OneDrive) [#b3c680a7] -[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]] ***OCR結果の修正 (!次回まで)[#w69ed099] -[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]] -担当箇所 --先頭~いんげん豆:K --燕~たねの散布:G --松蕈~最後:O ***参考:言語処理100本ノック 2025 [#lec77f27] -https://nlp100.github.io/2025/ja/index.html **11月10日 OCR済みテキストの処理(コマンドラインの基礎) [#v81eb0e3] ***データ処理環境の確認 [#abf7fdbf] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]] ***OCR済みテキストの整備 [#p7272e69] -[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]] -ファイルの取り扱い -プレーンテキストからXMLへ **10月27日 資料選定とOCR [#m88f4e63] ***資料選定 [#f238f117] -近代・国定教科書の理科 -[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/library/textbooks/K130-K140.html]] -[[広島大学図書館所蔵「教科書コレクション」画像データベース>https://dc.lib.hiroshima-u.ac.jp/da/ja/page/textbook_db]] -尋常小学理科書 第六学年 児童用 --著者 : 文部省[編](モンブショウ) --出版年 : 1911, 明治44 --https://dc.lib.hiroshima-u.ac.jp/da/ja/3549 -尋常小学理科書 第五学年 児童用 --著者 : 文部省[編](モンブショウ) --出版年 : 1911, 明治44 --https://dc.lib.hiroshima-u.ac.jp/da/ja/3550 --https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016652/900089986.pdf#page=33.00 (明治43) --参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076 ***OCR [#f141981f] -お手軽 --AdobeAcrobat のOCR機能 --Google Drive のOCR機能 -市販OCRソフト --[[完全読取>https://greed-island.ne.jp/product/kzyt]] --[[WinReader PRO>https://mediadrive.jp/support/faq/pac_wr]] -国立国会図書館 NDLOCR --(cli) https://github.com/ndl-lab/ndlocr_cli --[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/2024-11-26/]] (Web版:https://ndlkotenocr-lite-web.netlify.app/ ) -最近話題のLLM系 --[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepSeek-OCR]] **10月20日 ガイダンス [#xcb25c65] -[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]] -対象資料の選定 --自分の研究で使いたい資料 --オープンデータ -整備した資料をOpenCHJの一部として公開することを検討 ***データ処理環境の整備 [#wa78aa05] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]]