#author("2026-01-19T16:36:20+09:00","default:ogiwiki","ogiwiki")
#author("2026-01-19T16:43:45+09:00","default:ogiwiki","ogiwiki")
[[総研大2025]]

*言語資源学演習1 [#hba025c6]

-月曜4限
//-10月20日(月)~
-10月27日からはオンライン(Zoom)で実施

**1月19日 形態論情報データベース [#u2fb9acc]


***コーパス整備対象と担当 [#s3adfcb6]
-まずはXMLファイルのテキストの校正、ルビの確認・付与:''1次〆切 1月31日''、''2次〆切 2月13日''
-まずはXMLファイルのテキストの''校正''、''ルビ''の確認・付与:''1次〆切 1月31日''、''2次〆切 2月13日''
-1910年尋常小学理科書
--5年生(第五学年児童用):K, O
--6年生(第六学年児童用):_
-1918年尋常小学理科書
--5年生(第五学年児童用):O, W
--6年生(第六学年児童用):W, K


-授業用データ置き場(再掲)
--[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]]


***形態論情報データベースについて [#y036f6fd]
- [[小木曽智信・中村壮範(2011)『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装 改訂版.  国立国語研究所内部報告書 JC-CCG-10-06>https://ci.nii.ac.jp/ncid/BB05575168/]]

- [[小木曽智信・中村壮範(2014)  「『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用」.  『自然言語処理』21巻2号,pp.301–332.>https://doi.org/10.5715/jnlp.21.301]]  


***VPNとデータベースアカウント [#p9fb7d91]




**1月5日 CH研作戦会議2 [#udfac85f]

-[[第140回 人文科学とコンピュータ研究発表会>https://www.jinmoncom.jp/?CH140]]
--原稿提出締切 2026年1月6日(火)



**12月22日 TEIとOpenCHJ XML [#rd8fcf11]

-OpenCHJの文書定義
--[[OCX mini>https://openchj.github.io/ocx-mini.html]]
--[[OCX standard>https://openchj.github.io/ocx-standard.html]]は策定中

-[[XML名前空間>https://ja.wikipedia.org/wiki/XML#XML%E5%90%8D%E5%89%8D%E7%A9%BA%E9%96%93]]
--XHTMLとOCX, TEIとOCXの語彙(タグ)を混ぜる


-XSD (XMLスキーマ)によるXML文書の検証


***テキストの抜き出しと形態素解析 [#n0e04108]

-テキスト抜き出しプログラム : [[extract_ocx_doc.py>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=extract_ocx_doc.py&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]]

 python3 extract_ocx_doc.py 1911尋常小学理科書_第5学年児童用_900089986.xml 1911尋常小学理科書_第5学年児童用_900089986.txt

-[[授業資料/コマンドラインで形態素解析]]参照
--辞書は[[近代文語UniDic>https://clrd.ninjal.ac.jp/unidic/download_all.html#unidic_kindai]]を使う

 wget https://clrd.ninjal.ac.jp/unidic_archive/2308/unidic-kindai-bungo-v202308.zip
 unzip unidic-kindai-bungo-v202308.zip
 
 mecab -d unidic-kindai-bungo -Ochamame2 1911尋常小学理科書_第5学年児童用_900089986.txt > 1911尋常小学理科書_第5学年児童用_900089986.tsv



**12月15日 CH研作戦会議 [#l996eead]

-CH研@石垣島

-OpenCHJ講習会準備



**12月8日 XML文書の完成・検証・変換 [#r3c1047d]

***生成AIによる処理 [#lcb35cc2]
-先日(11月19日)出たGemini3が賢い
-画像→(OCR)→テキスト→(アノテーション)→XML文書

-追加資料
--1918尋常小学理科書_第5学年児童用_900185395
--1918尋常小学理科書_第6学年児童用_900185406

***文書型定義と検証 [#w148b144]
-文書型定義
--DTD
--XSD (XML Schema)

-TEIのスキーマで検証


***XSLTによる変換 [#nbf947ef]

-TEI(likeの)XMLからコーパス用(ひまわり用)XMLに変換



**12月1日 XML文書の設計・XLST概説 [#a29fa5ac]

***データの修正・ファイルの結合 [#w39f83dd]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]]

-処理方針の統一
--ノンブル→削除
--異体字
--ふりがな→今後追加
--傍線→削除?
--図→ブロック

***XMLの基礎・復習 [#h39195f3]
-[[XMLの基礎>https://www.ogiso.net/wiki/index.php?%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E5%87%A6%E7%90%86%E5%9F%BA%E7%A4%8E%E8%AC%9B%E5%BA%A72023/%E2%91%A2XML%E3%81%AE%E5%9F%BA%E7%A4%8E]]

***タグセットの設計 [#p075e704]

-TEIについて: Text Encoding Initiative
--[[TEIガイドライン>https://tei-c.org/release/doc/tei-p5-doc/ja/html/index.html]]

-最低限必要そうなもの text/front/body/back/div/pb/lb/ruby

***コマンドラインでXML [#g28e666e]
-XML文書の整形・検証: xmllint
-XSLT: xsltproc

***「太陽コーパス」のXMLアプリとXSLT [#r70caace]


**11月24日 【振替休日】 [#o79b40dd]


**11月17日 XMLファイルの整備 [#f4b57e84]

-復習:[[総研大2025/言語資源学]] 参照
--XMLとは
--正規表現の利用

-[[授業資料/コマンドラインの基礎]]つづき
--パイプ
--テキストファイルの置換(sed)
--バッチファイル


***授業用データ置き場(OneDrive) [#b3c680a7]
-[[2025言語資源学演習1>https://ninjal-my.sharepoint.com/my?id=%2Fpersonal%2Ftogiso%5Fninjal%5Fac%5Fjp%2FDocuments%2F2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921&ga=1]]

***OCR結果の修正 (!次回まで)[#w69ed099]
-[[1910第五学年児童用尋常小学理科書.xml>https://ninjal-my.sharepoint.com/:u:/g/personal/togiso_ninjal_ac_jp/EeUHi-4hKSZLm7Fy_zYBK0IBcWbo0IESLDJ1uDpxk-VRtA?e=88Q186]]
-担当箇所
--先頭~いんげん豆:K
--燕~たねの散布:G
--松蕈~最後:O


***参考:言語処理100本ノック 2025 [#lec77f27]
-https://nlp100.github.io/2025/ja/index.html


**11月10日 OCR済みテキストの処理(コマンドラインの基礎) [#v81eb0e3]

***データ処理環境の確認 [#abf7fdbf]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]


***OCR済みテキストの整備 [#p7272e69]

-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]

-ファイルの取り扱い
-プレーンテキストからXMLへ


**10月27日 資料選定とOCR [#m88f4e63]

***資料選定 [#f238f117]

-近代・国定教科書の理科

-[[国立教育政策研究所 国定教科書>https://www.nier.go.jp/library/textbooks/K130-K140.html]]
-[[広島大学図書館所蔵「教科書コレクション」画像データベース>https://dc.lib.hiroshima-u.ac.jp/da/ja/page/textbook_db]]


-尋常小学理科書 第六学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3549

-尋常小学理科書 第五学年 児童用
--著者 : 文部省[編](モンブショウ)
--出版年 : 1911, 明治44
--https://dc.lib.hiroshima-u.ac.jp/da/ja/3550
--https://nieropac.nier.go.jp/lib/database/KINDAI/EG00016652/900089986.pdf#page=33.00 (明治43)
--参考 教師用(NDL) https://lab.ndl.go.jp/dl/book/918076

***OCR [#f141981f]
-お手軽
--AdobeAcrobat のOCR機能
--Google Drive のOCR機能
-市販OCRソフト
--[[完全読取>https://greed-island.ne.jp/product/kzyt]]
--[[WinReader PRO>https://mediadrive.jp/support/faq/pac_wr]]
-国立国会図書館 NDLOCR
--(cli) https://github.com/ndl-lab/ndlocr_cli
--[[NDL古典籍OCR Lite>https://lab.ndl.go.jp/news/2024/2024-11-26/]] (Web版:https://ndlkotenocr-lite-web.netlify.app/ )
-最近話題のLLM系
--[[DeepSeek-OCR>https://huggingface.co/deepseek-ai/DeepSeek-OCR]]


**10月20日 ガイダンス [#xcb25c65]

-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2025%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72025%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]]

-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ

-整備した資料をOpenCHJの一部として公開することを検討

***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS