#author("2026-01-19T16:36:20+09:00","default:ogiwiki","ogiwiki") #author("2026-01-19T16:43:45+09:00","default:ogiwiki","ogiwiki") [[総研大2025]] *言語資源学演習1 [#hba025c6] -月曜4限 //-10月20日(月)~ -10月27日からはオンライン(Zoom)で実施 **1月19日 形態論情報データベース [#u2fb9acc] ***コーパス整備対象と担当 [#s3adfcb6] -まずはXMLファイルのテキストの校正、ルビの確認・付与:''1次〆切 1月31日''、''2次〆切 2月13日'' -まずはXMLファイルのテキストの''校正''、''ルビ''の確認・付与:''1次〆切 1月31日''、''2次〆切 2月13日'' -1910年尋常小学理科書 --5年生(第五学年児童用):K, O --6年生(第六学年児童用):_ -1918年尋常小学理科書 --5年生(第五学年児童用):O, W --6年生(第六学年児童用):W, K -授業用データ置き場(再掲) --[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]] ***形態論情報データベースについて [#y036f6fd] - [[小木曽智信・中村壮範(2011)『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装 改訂版. 国立国語研究所内部報告書 JC-CCG-10-06>https://ci.nii.ac.jp/ncid/BB05575168/]] - [[小木曽智信・中村壮範(2014) 「『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用」. 『自然言語処理』21巻2号,pp.301–332.>https://doi.org/10.5715/jnlp.21.301]] ***VPNとデータベースアカウント [#p9fb7d91] **1月5日 CH研作戦会議2 [#udfac85f] -[[第140回 人文科学とコンピュータ研究発表会>https://www.jinmoncom.jp/?CH140]] --原稿提出締切 2026年1月6日(火) **12月22日 TEIとOpenCHJ XML [#rd8fcf11] -OpenCHJの文書定義 --[[OCX mini>https://openchj.github.io/ocx-mini.html]] --[[OCX standard>https://openchj.github.io/ocx-standard.html]]は策定中 -[[XML名前空間>https://ja.wikipedia.org/wiki/XML#XML%E5%90%8D%E5%89%8D%E7%A9%BA%E9%96%93]] --XHTMLとOCX, TEIとOCXの語彙(タグ)を混ぜる -XSD (XMLスキーマ)によるXML文書の検証 ***テキストの抜き出しと形態素解析 [#n0e04108] -テキスト抜き出しプログラム : [[extract_ocx_doc.py>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=extract_ocx_doc.py&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]] python3 extract_ocx_doc.py 1911尋常小学理科書_第5学年児童用_900089986.xml 1911尋常小学理科書_第5学年児童用_900089986.txt -[[授業資料/コマンドラインで形態素解析]]参照 --辞書は[[近代文語UniDic>https://clrd.ninjal.ac.jp/unidic/download_all.html#unidic_kindai]]を使う wget https://clrd.ninjal.ac.jp/unidic_archive/2308/unidic-kindai-bungo-v202308.zip unzip unidic-kindai-bungo-v202308.zip mecab -d unidic-kindai-bungo -Ochamame2 1911尋常小学理科書_第5学年児童用_900089986.txt > 1911尋常小学理科書_第5学年児童用_900089986.tsv **12月15日 CH研作戦会議 [#l996eead] -CH研@石垣島 -OpenCHJ講習会準備 **12月8日 XML文書の完成・検証・変換 [#r3c1047d] ***生成AIによる処理 [#lcb35cc2] -先日(11月19日)出たGemini3が賢い -画像→(OCR)→テキスト→(アノテーション)→XML文書 -追加資料 --1918尋常小学理科書_第5学年児童用_900185395 --1918尋常小学理科書_第6学年児童用_900185406 ***文書型定義と検証 [#w148b144] -文書型定義 --DTD --XSD (XML Schema) -TEIのスキーマで検証 ***XSLTによる変換 [#nbf947ef] -TEI(likeの)XMLからコーパス用(ひまわり用)XMLに変換 **12月1日 XML文書の設計・XLST概説 [#a29fa5ac] ***データの修正・ファイルの結合 [#w39f83dd] -[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]] -処理方針の統一 --ノンブル→削除 --異体字 --ふりがな→今後追加 --傍線→削除? --図→ブロック ***XMLの基礎・復習 [#h39195f3] -[[XMLの基礎>https://www.ogiso.net/wiki/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E5%87%A6%E7%90%86%E5%9F%BA%E7%A4%8E%E8%AC%9B%E5%BA%A72023/%E2%91%A2XML%E3%81%AE%E5%9F%BA%E7%A4%8E]] ***タグセットの設計 [#p075e704] -TEIについて: Text Encoding Initiative --[[TEIガイドライン>https://tei-c.org/release/doc/tei-p5-doc/ja/html/index.html]] -最低限必要そうなもの text/front/body/back/div/pb/lb/ruby ***コマンドラインでXML [#g28e666e] -XML文書の整形・検証: xmllint -XSLT: xsltproc ***「太陽コーパス」のXMLアプリとXSLT [#r70caace] **11月24日 【振替休日】 [#o79b40dd] **11月17日 XMLファイルの整備 [#f4b57e84] -復習:[[総研大2025/言語資源学]] 参照 --XMLとは --正規表現の利用 -[[授業資料/コマンドラインの基礎]]つづき --パイプ --テキストファイルの置換(sed) --バッチファイル ***授業用データ置き場(OneDrive) [#b3c680a7] -[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]] ***OCR結果の修正 (!次回まで)[#w69ed099] -[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]] -担当箇所 --先頭~いんげん豆:K --燕~たねの散布:G --松蕈~最後:O ***参考:言語処理100本ノック 2025 [#lec77f27] -https://nlp100.github.io/2025/ja/index.html **11月10日 OCR済みテキストの処理(コマンドラインの基礎) [#v81eb0e3] ***データ処理環境の確認 [#abf7fdbf] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]] ***OCR済みテキストの整備 [#p7272e69] -[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]] -ファイルの取り扱い -プレーンテキストからXMLへ **10月27日 資料選定とOCR [#m88f4e63] ***資料選定 [#f238f117] -近代・国定教科書の理科 -[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/library/textbooks/K130-K140.html]] -[[広島大学図書館所蔵「教科書コレクション」画像データベース>https://dc.lib.hiroshima-u.ac.jp/da/ja/page/textbook_db]] -尋常小学理科書 第六学年 児童用 --著者 : 文部省[編](モンブショウ) --出版年 : 1911, 明治44 --https://dc.lib.hiroshima-u.ac.jp/da/ja/3549 -尋常小学理科書 第五学年 児童用 --著者 : 文部省[編](モンブショウ) --出版年 : 1911, 明治44 --https://dc.lib.hiroshima-u.ac.jp/da/ja/3550 --https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016652/900089986.pdf#page=33.00 (明治43) --参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076 ***OCR [#f141981f] -お手軽 --AdobeAcrobat のOCR機能 --Google Drive のOCR機能 -市販OCRソフト --[[完全読取>https://greed-island.ne.jp/product/kzyt]] --[[WinReader PRO>https://mediadrive.jp/support/faq/pac_wr]] -国立国会図書館 NDLOCR --(cli) https://github.com/ndl-lab/ndlocr_cli --[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/2024-11-26/]] (Web版:https://ndlkotenocr-lite-web.netlify.app/ ) -最近話題のLLM系 --[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepSeek-OCR]] **10月20日 ガイダンス [#xcb25c65] -[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]] -対象資料の選定 --自分の研究で使いたい資料 --オープンデータ -整備した資料をOpenCHJの一部として公開することを検討 ***データ処理環境の整備 [#wa78aa05] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]]