総研大2024
2024/05/20†
紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 電子テキスト:テキスト (199x年代~)
- 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
- 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)
コーパスのファイル形式とアプリケーション†
- ファイル形式と実例
- 電子テキスト:プレーンテキスト
- 構造化テキスト:XMLファイル
- 単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル
- それぞれの利用アプリケーション
- 電子テキスト:テキストエディタ+grepなど
- 構造化テキスト:全文検索システム「ひまわり」、XMLエディタ(Oxygen, VSCode)、XPath・XSLT
- 単語情報付きデータ:中納言(オンライン)/Chaki.Net(PC上)
テキストエディタ†
- VisualStudio codeのインストールと設定
- 拡張機能 Japanese Language Packの追加
- ファイルオープン時にエンコーディングを自動判別するよう設定
- 拡張機能 XML Language Support by Red Hatの追加
テキストデータと文字コード†
- 【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす
正規表現†
- 授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定(補集合)[^ ]
- 繰り返し(最長一致) ? + *
- 最短一致 +? *?
- グループ化 ()
- or(論理和) |
- 文頭 ^、文末 $
正規表現に関する参考資料†
- 【課題】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除