#author("2025-11-17T17:05:49+09:00","default:ogiwiki","ogiwiki")
#author("2025-11-17T17:06:40+09:00","default:ogiwiki","ogiwiki")
[[総研大2025]]

*言語資源学演習1 [#hba025c6]

-月曜4限
//-10月20日(月)~
-10月27日からはオンライン(Zoom)で実施



**11月17日 XMLファイルの整備 [#f4b57e84]

-[[総研大2025/言語資源学]] 参照
-復習:[[総研大2025/言語資源学]] 参照
--XMLとは
--正規表現の利用

-XMLとは
-正規表現の利用

-[[授業資料/コマンドラインの基礎]]つづき
--パイプ
--テキストファイルの置換(sed)
--バッチファイル


***授業用データ置き場(OneDrive) [#b3c680a7]
-[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]]

***OCR結果の修正 (!次回まで)[#w69ed099]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]]
-担当箇所
--先頭~いんげん豆:K
--燕~たねの散布:G
--松蕈~最後:O


***参考:言語処理100本ノック 2025 [#lec77f27]
-https://nlp100.github.io/2025/ja/index.html


**11月10日 OCR済みテキストの処理(コマンドラインの基礎) [#v81eb0e3]

***データ処理環境の確認 [#abf7fdbf]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]


***OCR済みテキストの整備 [#p7272e69]

-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]

-ファイルの取り扱い
-プレーンテキストからXMLへ


**10月27日 資料選定とOCR [#m88f4e63]

***資料選定 [#f238f117]

-近代・国定教科書の理科

-[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/library/textbooks/K130-K140.html]]
-[[広島大学図書館所蔵「教科書コレクション」画像データベース>https://dc.lib.hiroshima-u.ac.jp/da/ja/page/textbook_db]]


-尋常小学理科書 第六学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3549

-尋常小学理科書 第五学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3550
--https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016652/900089986.pdf#page=33.00 (明治43)
--参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076

***OCR [#f141981f]
-お手軽
--AdobeAcrobat のOCR機能
--Google Drive のOCR機能
-市販OCRソフト
--[[完全読取>https://greed-island.ne.jp/product/kzyt]]
--[[WinReader PRO>https://mediadrive.jp/support/faq/pac_wr]]
-国立国会図書館 NDLOCR
--(cli) https://github.com/ndl-lab/ndlocr_cli
--[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/2024-11-26/]] (Web版:https://ndlkotenocr-lite-web.netlify.app/ )
-最近話題のLLM系
--[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepSeek-OCR]]


**10月20日 ガイダンス [#xcb25c65]

-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]]

-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ

-整備した資料をOpenCHJの一部として公開することを検討

***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS