総研大2024/言語資源学演習1
をテンプレートにして作成
開始行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**2024/12/23 [#nf15b76e]
***青空文庫XHTML取得シェルスクリプト [#q1ecbec3]
#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_145...
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14...
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_1...
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_2...
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_152...
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_1...
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html
***XHTML変換プログラム [#x82fa118]
[[授業資料/PythonでXML]]
-[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902m...
外字の対応表(プログラムと同じ場所に置いておく)
-[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuah...
--参考:https://gist.github.com/whitebell/a7a8641cacbb8fb...
python3 axhtml2xml.py "*.html"
***XMLファイルの検証 [#m7521072]
コーパス用XMLの文書型定義(XML schema)
-[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm3...
データの検証(Validation)用pythonプログラム
-[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n...
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml ao...
***XMLファイルの短単位解析とDBへのインポート [#t6851928]
-短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/f...
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
終了行:
[[総研大2024]]
*言語資源学演習Ⅰ [#ed78e76b]
-月曜4限
-[[授業フォルダ(OneDrive)>https://ninjal-my.sharepoint....
**2024/12/23 [#nf15b76e]
***青空文庫XHTML取得シェルスクリプト [#q1ecbec3]
#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_145...
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14...
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_1...
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_2...
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_152...
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_1...
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html
***XHTML変換プログラム [#x82fa118]
[[授業資料/PythonでXML]]
-[[axhtml2xml.py>https://www.dropbox.com/scl/fi/vya4z902m...
外字の対応表(プログラムと同じ場所に置いておく)
-[[gaiji_map.json>https://www.dropbox.com/scl/fi/vybliuah...
--参考:https://gist.github.com/whitebell/a7a8641cacbb8fb...
python3 axhtml2xml.py "*.html"
***XMLファイルの検証 [#m7521072]
コーパス用XMLの文書型定義(XML schema)
-[[aozora.xsd>https://www.dropbox.com/scl/fi/5gkbv1x4ufm3...
データの検証(Validation)用pythonプログラム
-[[validate.py>https://www.dropbox.com/scl/fi/5pje9ga300n...
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml ao...
***XMLファイルの短単位解析とDBへのインポート [#t6851928]
-短単位解析結果 [[morph.txt>https://www.dropbox.com/scl/f...
**2024/12/16 [#xc31ca33]
***青空文庫XHTMLをコーパス用XMLにする [#q00bfc44]
-[[授業資料/PythonでXML]]
-方針を決める
--余計なタグをどうするか
--フリガナの処理
-Pythonで変換プログラムを書く
**&color(red){2024/12/09 休講}; [#xb267a4c]
-風邪のためお休みです
**&color(red){2024/12/02 休み}; [#o44796a2]
**2024/11/25 [#p398088c]
***はじめてのPython [#z0887d1f]
-[[準備>授業資料/Pythonでテキストデータ整形]]
-青空文庫テキストを整形する
-[[授業資料/Pythonでテキストデータ整形]]
-[[ChatGPTにうまく聞く>https://chatgpt.com/share/6743f4eb...
***ライブラリのインストール [#s107b072]
-ライブラリ、パッケージ、モジュール
**2024/11/18 [#j878c8c0]
***コマンドラインで形態素解析 [#n8a07db5]
-[[コマンドラインで形態素解析>授業資料/コマンドラインで形...
-diff, cut, sort, uniq
***はじめてのPython [#z0887d1f]
-[[Pythonでデータ整形(準備)>授業資料/Pythonでデータ整形]]
-ChatGPTにうまく聞く
**2024/11/11 [#ae3e03b7]
-[[コマンドラインに慣れる>授業資料/コマンドラインの基礎]]
**2024/10/28 対象資料の決定/データ処理環境の整備[#g7c1cb...
***対象資料の決定 [#l2d06b75]
-紙資料(OCR)
--[[NDLOCR>https://github.com/ndl-lab/ndlocr_cli]]
--[[WinReader PRO v.15>https://mediadrive.jp/products/wrp]]
-デジタルデータ
--[[Wikisource>https://ja.wikisource.org/wiki/%E3%83%A1%E...
--[[青空文庫>https://www.aozora.gr.jp/]]
- 円朝の落語 https://www.aozora.gr.jp/index_pages/person...
- 山月記 https://www.aozora.gr.jp/cards/000119/files/624...
- 注文の多い料理店 https://www.aozora.gr.jp/cards/000081...
- 舞姫 https://www.aozora.gr.jp/cards/000129/card682.html...
//#comment
***データ処理環境の整備 [#wa78aa05]
-VisualStudio Code
--[[授業資料/テキストエディタと正規表現]]
-WSL (Ubuntu)
--[[授業資料/コマンドラインの基礎]]
***生成AI(Python プログラミングのサポート) [#h7396c48]
-https://chatgpt.com/
**2024/10/21 ガイダンス[#y0ff74b8]
-[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=a...
-対象資料の選定
--自分の研究で使いたい資料
--オープンデータ
-整備した資料をOpenCHJの一部として公開することを検討
ページ名: