総研大2025/言語資源学演習1
をテンプレートにして作成
開始行:
[[総研大2025]]
*言語資源学演習1 [#hba025c6]
-月曜4限
//-10月20日(月)~
-10月27日からはオンライン(Zoom)で実施
**11月17日 XMLファイルの整備 [#f4b57e84]
-復習:[[総研大2025/言語資源学]] 参照
--XMLとは
--正規表現の利用
-[[授業資料/コマンドラインの基礎]]つづき
--パイプ
--テキストファイルの置換(sed)
--バッチファイル
***授業用データ置き場(OneDrive) [#b3c680a7]
-[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/m...
***OCR結果の修正 (!次回まで)[#w69ed099]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my...
-担当箇所
--先頭~いんげん豆:K
--燕~たねの散布:G
--松蕈~最後:O
***参考:言語処理100本ノック 2025 [#lec77f27]
-https://nlp100.github.io/2025/ja/index.html
**11月10日 OCR済みテキストの処理(コマンドラインの基礎)...
***データ処理環境の確認 [#abf7fdbf]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***OCR済みテキストの整備 [#p7272e69]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
-ファイルの取り扱い
-プレーンテキストからXMLへ
**10月27日 資料選定とOCR [#m88f4e63]
***資料選定 [#f238f117]
-近代・国定教科書の理科
-[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/l...
-[[広島大学図書館所蔵「教科書コレクション」画像データベー...
-尋常小学理科書 第六学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3549
-尋常小学理科書 第五学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3550
--https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016...
--参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076
***OCR [#f141981f]
-お手軽
--AdobeAcrobat のOCR機能
--Google Drive のOCR機能
-市販OCRソフト
--[[完全読取>https://greed-island.ne.jp/product/kzyt]]
--[[WinReader PRO>https://mediadrive.jp/support/faq/pac_w...
-国立国会図書館 NDLOCR
--(cli) https://github.com/ndl-lab/ndlocr_cli
--[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/202...
-最近話題のLLM系
--[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepS...
**10月20日 ガイダンス [#xcb25c65]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
終了行:
[[総研大2025]]
*言語資源学演習1 [#hba025c6]
-月曜4限
//-10月20日(月)~
-10月27日からはオンライン(Zoom)で実施
**11月17日 XMLファイルの整備 [#f4b57e84]
-復習:[[総研大2025/言語資源学]] 参照
--XMLとは
--正規表現の利用
-[[授業資料/コマンドラインの基礎]]つづき
--パイプ
--テキストファイルの置換(sed)
--バッチファイル
***授業用データ置き場(OneDrive) [#b3c680a7]
-[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/m...
***OCR結果の修正 (!次回まで)[#w69ed099]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my...
-担当箇所
--先頭~いんげん豆:K
--燕~たねの散布:G
--松蕈~最後:O
***参考:言語処理100本ノック 2025 [#lec77f27]
-https://nlp100.github.io/2025/ja/index.html
**11月10日 OCR済みテキストの処理(コマンドラインの基礎)...
***データ処理環境の確認 [#abf7fdbf]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***OCR済みテキストの整備 [#p7272e69]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
-ファイルの取り扱い
-プレーンテキストからXMLへ
**10月27日 資料選定とOCR [#m88f4e63]
***資料選定 [#f238f117]
-近代・国定教科書の理科
-[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/l...
-[[広島大学図書館所蔵「教科書コレクション」画像データベー...
-尋常小学理科書 第六学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3549
-尋常小学理科書 第五学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3550
--https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016...
--参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076
***OCR [#f141981f]
-お手軽
--AdobeAcrobat のOCR機能
--Google Drive のOCR機能
-市販OCRソフト
--[[完全読取>https://greed-island.ne.jp/product/kzyt]]
--[[WinReader PRO>https://mediadrive.jp/support/faq/pac_w...
-国立国会図書館 NDLOCR
--(cli) https://github.com/ndl-lab/ndlocr_cli
--[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/202...
-最近話題のLLM系
--[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepS...
**10月20日 ガイダンス [#xcb25c65]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
ページ名: