#山月記 wget https://www.aozora.gr.jp/cards/000119/files/624_14544.html #メロス wget https://www.aozora.gr.jp/cards/000035/files/1567_14913.html #注文の多い料理店 wget https://www.aozora.gr.jp/cards/000081/files/43754_17659.html #高瀬舟 wget https://www.aozora.gr.jp/cards/000129/files/45245_22007.html #羅生門 wget https://www.aozora.gr.jp/cards/000879/files/127_15260.html #トロッコ wget https://www.aozora.gr.jp/cards/000879/files/43016_16836.html
#文字コード変換 nkf -w --overwrite *.html #Shift_JIS指定行を削除 sed -i '/Shift_JIS/d' *.html
外字の対応表(プログラムと同じ場所に置いておく)
python3 axhtml2xml.py "*.html"
コーパス用XMLの文書型定義(XML schema)
データの検証(Validation)用pythonプログラム
python3 validate.py 1567_14913_太宰治\ 走れメロス.xml aozora.xsd