総研大2024
2024/06/10†
XMLアノテーションの実際†
- サンプルテキスト(青空文庫の夏目漱石「こころ」)をXMLに
- タグ付き正規表現を使った置換の応用
- ただし、正規表現では、XMLのような入れ子のタグに完全にマッチする表現力はない*1
書き言葉コーパスの例(テキスト化+XMLアノテーション+形態論情報付与)†
Himawariでの利用†
- kokoro.xmlをHimawariで使ってみる
- コーパスのXMLファイルをUTF-16LE(LF改行)で保存しておくこと!
XPath, XSLT†
2024/06/03†
正規表現の利用例:中納言の検索結果を整える†
エディタに検索結果の列を貼り付けて置換で整形
- 前後文脈をキーを含む文だけにする
.+# →
#.+ →
- 品詞大分類だけを利用する
-.+ →
- BCCWJのジャンルを整える
- (新) 1 哲学/198.37|(旧) 1 哲学/198
- 前後文脈でマッチした語を抜き出す
XML†
BCCWJのXMLタグセット†
TEI (Text Encoding Initiative)†
2024/05/27†
補足:VSCodeのGrep検索†
- フォルダを開く
- 検索
- "エディターで開く"
正規表現(続き)†
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- テキストエディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 特殊な文字(メタ文字)はすべて半角
正規表現のいろいろ†
- 繰り返し ? + *
- 正規表現は、パターンが一致する最も長い範囲にマッチする(greedy matching)
- 最短一致の繰り返し +? *?
- グループ化 ()
- or(論理和) |
- 文頭 ^、文末 $
正規表現の応用†
- カタカナ語
- 送りがなの揺れ(行う/行なう)
- 会話文中("「"で始まる文中)の用例を検索する
- 同一文中での共起
- 【課題】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除
テキストデータ(青空文庫の夏目漱石作品)の配布†
タグ付き正規表現†
- 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
- 検索文字列:走[らりるれろっ]
- 置換文字列:★走[らりるれろっ]
- タグ付き正規表現:カッコ(半角丸カッコ)と\1(\2,\3…)を使う
- 授業資料/タグつき正規表現
検索文字列の中での後方参照†
- 検索語の中で\1を使う
- (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
- (..)\1\1
- (...)\1
正規表現に関する参考資料†
2024/05/20†
日本語電子化資料の歴史†
紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 電子テキスト:テキスト (199x年代~)
- 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
- 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)
コーパスのファイル形式とアプリケーション†
- ファイル形式と実例
- 電子テキスト:プレーンテキスト
- 構造化テキスト:XMLファイル
- 単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル
- それぞれの利用アプリケーション
- 電子テキスト:テキストエディタ+grepなど
- 構造化テキスト:全文検索システム「ひまわり」、XMLエディタ(Oxygen, VSCode)、XPath・XSLT
- 単語情報付きデータ:中納言(オンライン)/Chaki.Net(ローカル)
テキストエディタ†
- VisualStudio Codeのインストールと設定
- 拡張機能 Japanese Language Packの追加
- ファイルオープン時にエンコーディングを自動判別するよう設定
- 拡張機能 XML Language Support by Red Hatの追加
テキストデータと文字コード†
- 【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす
正規表現について†
拡張正規表現では可能