総研大2023
20230508†
紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 電子テキスト:テキスト (199x年代~)
- 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
- 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)
OCRによるテキスト化†
- 光学文字認識(Optical Character Recognition)
- Webサービス
- Google DriveのOCR機能
- Googleドライブにアップロードした画像をGoogleドキュメントで開く
電子化とアノテーション(明六雑誌コーパスを例に)†
- ファイル形式と実例
- 電子テキスト:プレーンテキスト
- 構造化テキスト:XMLファイル
- 単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル
- それぞれの利用アプリケーション
- 電子テキスト:テキストエディタ+grepなど
- 構造化テキスト:全文検索システム「ひまわり」、XMLエディタ(Oxygen, VSCode)、XPath・XSLT
- 単語情報付きデータ:中納言(オンライン)/Chaki.Net(PC上)
XMLの活用例†
アノテーションの実際†
- サンプルテキスト(青空文庫の夏目漱石「こころ」)をXMLに
20230501(オンデマンド) テキストデータ整備の準備†
- 【課題1】VS codeのインストールと設定
- 拡張機能 Japanese Language Packの追加
- ファイルオープン時にエンコーディングを自動判別するよう設定
- 拡張機能 XML Language Support by Red Hatの追加
- 【課題2】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす
- 【課題3】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除
かつては一般向けにたくさん発売されていたがかなり減ってしまった