#author("2024-12-23T15:08:04+09:00","default:ogiwiki","ogiwiki")
#author("2024-12-23T16:24:04+09:00","default:ogiwiki","ogiwiki")
[[総研大2024]]

*言語資源学演習Ⅰ [#ed78e76b]

-月曜4限

-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint.com/:f:/g/personal/togiso_ninjal_ac_jp/EpDgwNBNtTlDq1I0LHtWAE8BUuc22XHrjnFvfsxpCZ0l4A?e=qHPu49]]


**2024/12/23 [#nf15b76e]


***青空文庫XHTML取得シェルスクリプト [#q1ecbec3]
 #山月記
 wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html
 #メロス
 wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html
 #注文の多い料理店
 wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html
 #高瀬舟
 wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html
 #羅生門
 wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html
 #トロッコ
 wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html

 #文字コード変換
 nkf -w --overwrite *.html
 #Shift_JIS指定行を削除
 sed -i '/Shift_JIS/d' *.html


***XHTML変換プログラム [#x82fa118]
[[授業資料/PythonでXML]]

-[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902ma4zbpi7pvxh8/axhtml2xml.py?rlkey=xbxtpzzxvddycbaevplwlwazm&dl=1]]


外字の対応表(プログラムと同じ場所に置いておく)
-[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuahrr0zoeapnqtae/gaiji_map.json?rlkey=4b3pgjksjhw9alw3fvnrew4tr&dl=1]]
--参考:https://gist.github.com/whitebell/a7a8641cacbb8fb2e3113d7a6538293f

 python3 axhtml2xml.py "*.html"


***XMLファイルの検証 [#m7521072]

コーパス用XMLの文書型定義(XML schema)
-[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm34q67duv16/aozora.xsd?rlkey=sqr1r5s05ll4wge8zqfiows6g&dl=1]]

データの検証(Validation)用pythonプログラム
-[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n3d5766ras6/validate.py?rlkey=6ildbix3yhh30qmxb6kmdaa5d&dl=1]]

 python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd


***XMLファイルの短単位解析とDBへのインポート [#t6851928]

-短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/fi/45njw0y92t51agc2aj6ag/morph.txt?rlkey=qkprrm83x87dz8790ko7j413d&st=n8rncl5z&dl=1]]

**2024/12/16 [#xc31ca33]
 
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]

-[[授業資料/PythonでXML]]

-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く



**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです

**&color(red){2024/12/02 休み}; [#o44796a2]


**2024/11/25 [#p398088c]

***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]

-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb-a7f8-800f-80ff-cca25fdbd130]]


***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール


**2024/11/18 [#j878c8c0]

***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形態素解析]]
-diff, cut, sort, uniq

***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く


**2024/11/11 [#ae3e03b7]

-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]


**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cbce]

***対象資料の決定 [#l2d06b75]

-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]

-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8]]
--[[青空文庫>https://www.aozora.gr.jp/]]

- 円朝の落語 https://www.aozora.gr.jp/index_pages/person989.html#sakuhin_list_1 -- [[K]] &new{2024-10-28 (月) 15:21:18};
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624_14544.html -- [[呉]] &new{2024-10-28 (月) 15:21:50};
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081/files/43754_17659.html -- [[hk]] &new{2024-10-28 (月) 15:22:16};
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html -- [[ogi]] &new{2024-10-28 (月) 15:25:51};

//#comment

***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]


***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/


**2024/10/21 ガイダンス[#y0ff74b8]

-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=20241021_%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921_%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9%E5%8F%82%E7%85%A7.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72024%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]]

-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ

-整備した資料をOpenCHJの一部として公開することを検討

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS