総研大2024

言語資源学演習Ⅰ

2024/12/23

青空文庫XHTML取得シェルスクリプト

#山月記
wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html
#メロス
wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html
#注文の多い料理店
wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html
#高瀬舟
wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html
#羅生門
wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html
#トロッコ
wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html
#文字コード変換
nkf -w --overwrite *.html
#Shift_JIS指定行を削除
sed -i '/Shift_JIS/d' *.html

XHTML変換プログラム

授業資料/PythonでXML

外字の対応表(プログラムと同じ場所に置いておく)

python3 axhtml2xml.py "*.html"

XMLファイルの検証

コーパス用XMLの文書型定義(XML schema)

データの検証(Validation)用pythonプログラム

python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd

XMLファイルの短単位解析とDBへのインポート

2024/12/16

青空文庫XHTMLをコーパス用XMLにする

2024/12/09 休講

2024/12/02 休み

2024/11/25

はじめてのPython

ライブラリのインストール

2024/11/18

コマンドラインで形態素解析

はじめてのPython

2024/11/11

2024/10/28 対象資料の決定/データ処理環境の整備

対象資料の決定

データ処理環境の整備

生成AI(Python プログラミングのサポート)

2024/10/21 ガイダンス


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS