#author("2024-12-23T15:08:04+09:00","default:ogiwiki","ogiwiki") #author("2024-12-23T16:24:04+09:00","default:ogiwiki","ogiwiki") [[総研大2024]] *言語資源学演習Ⅰ [#ed78e76b] -月曜4限 -[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint.com/:f:/g/personal/togiso_ninjal_ac_jp/EpDgwNBNtTlDq1I0LHtWAE8BUuc22XHrjnFvfsxpCZ0l4A?e=qHPu49]] **2024/12/23 [#nf15b76e] ***青空文庫XHTML取得シェルスクリプト [#q1ecbec3] #山月記 wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html #メロス wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html #注文の多い料理店 wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html #高瀬舟 wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html #羅生門 wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html #トロッコ wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html #文字コード変換 nkf -w --overwrite *.html #Shift_JIS指定行を削除 sed -i '/Shift_JIS/d' *.html ***XHTML変換プログラム [#x82fa118] [[授業資料/PythonでXML]] -[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902ma4zbpi7pvxh8/axhtml2xml.py?rlkey=xbxtpzzxvddycbaevplwlwazm&dl=1]] 外字の対応表(プログラムと同じ場所に置いておく) -[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuahrr0zoeapnqtae/gaiji_map.json?rlkey=4b3pgjksjhw9alw3fvnrew4tr&dl=1]] --参考:https://gist.github.com/whitebell/a7a8641cacbb8fb2e3113d7a6538293f python3 axhtml2xml.py "*.html" ***XMLファイルの検証 [#m7521072] コーパス用XMLの文書型定義(XML schema) -[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm34q67duv16/aozora.xsd?rlkey=sqr1r5s05ll4wge8zqfiows6g&dl=1]] データの検証(Validation)用pythonプログラム -[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n3d5766ras6/validate.py?rlkey=6ildbix3yhh30qmxb6kmdaa5d&dl=1]] python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd ***XMLファイルの短単位解析とDBへのインポート [#t6851928] -短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/fi/45njw0y92t51agc2aj6ag/morph.txt?rlkey=qkprrm83x87dz8790ko7j413d&st=n8rncl5z&dl=1]] **2024/12/16 [#xc31ca33] ***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44] -[[授業資料/PythonでXML]] -方針を決める --余計なタグをどうするか --フリガナの処理 -Pythonで変換プログラムを書く **&color(red){2024/12/09 休講}; [#xb267a4c] -風邪のためお休みです **&color(red){2024/12/02 休み}; [#o44796a2] **2024/11/25 [#p398088c] ***はじめてのPython [#z0887d1f] -[[準備>授業資料/Pythonでテキストデータ整形]] -青空文庫テキストを整形する -[[授業資料/Pythonでテキストデータ整形]] -[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb-a7f8-800f-80ff-cca25fdbd130]] ***ライブラリのインストール [#s107b072] -ライブラリ、パッケージ、モジュール **2024/11/18 [#j878c8c0] ***コマンドラインで形態素解析 [#n8a07db5] -[[コマンドラインで形態素解析>授業資料/コマンドラインで形態素解析]] -diff, cut, sort, uniq ***はじめてのPython [#z0887d1f] -[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]] -ChatGPTにうまく聞く **2024/11/11 [#ae3e03b7] -[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]] **2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cbce] ***対象資料の決定 [#l2d06b75] -紙資料(OCR) --[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]] --[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]] -デジタルデータ --[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8]] --[[青空文庫>https://www.aozora.gr.jp/]] - 円朝の落語 https://www.aozora.gr.jp/index_pages/person989.html#sakuhin_list_1 -- [[K]] &new{2024-10-28 (月) 15:21:18}; - 山月記 https://www.aozora.gr.jp/cards/000119/files/624_14544.html -- [[呉]] &new{2024-10-28 (月) 15:21:50}; - 注文の多い料理店 https://www.aozora.gr.jp/cards/000081/files/43754_17659.html -- [[hk]] &new{2024-10-28 (月) 15:22:16}; - 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html -- [[ogi]] &new{2024-10-28 (月) 15:25:51}; //#comment ***データ処理環境の整備 [#wa78aa05] -VisualStudio Code --[[授業資料/テキストエディタと正規表現]] -WSL (Ubuntu) --[[授業資料/コマンドラインの基礎]] ***生成AI(Python プログラミングのサポート) [#h7396c48] -https://chatgpt.com/ **2024/10/21 ガイダンス[#y0ff74b8] -[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=20241021_%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921_%E3%82%B7%E3%83%A9%E3%83%90%E3%82%B9%E5%8F%82%E7%85%A7.pdf&refer=%E7%B7%8F%E7%A0%94%E5%A4%A72024%2F%E8%A8%80%E8%AA%9E%E8%B3%87%E6%BA%90%E5%AD%A6%E6%BC%94%E7%BF%921]] -対象資料の選定 --自分の研究で使いたい資料 --オープンデータ -整備した資料をOpenCHJの一部として公開することを検討