総研大2024
2024/05/27†
VSCodeのGrep検索†
- フォルダを開く
- 検索
- "エディターで開く"
正規表現(続き)†
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- テキストエディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 特殊な文字(メタ文字)はすべて半角
正規表現のいろいろ†
- 授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定(補集合)[^ ]
- 繰り返し ? + *
- 最短一致の繰り返し +? *?
- グループ化 ()
- or(論理和) |
- 文頭 ^、文末 $
正規表現の応用†
- カタカナ語
- 送りがなの揺れ(行う/行なう)
- 会話文中("「"で始まる文中)の用例を検索する
- 同一文中での共起
- 【課題】VS Codeで正規表現を使ってサンプルテキストのふりがなタグを置換で削除
タグ付き正規表現†
- 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
- 検索文字列:走[らりるれろっ]
- 置換文字列:★走[らりるれろっ]
- タグ付き正規表現:カッコ(半角丸カッコ)と\1(\2,\3…)を使う
- 授業資料/タグつき正規表現
検索文字列の中での後方参照†
- 検索語の中で\1を使う
- (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
- (..)\1\1
- (...)\1
正規表現に関する参考資料†
XML文書†
2024/05/20†
日本語電子化資料の歴史†
紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 電子テキスト:テキスト (199x年代~)
- 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
- 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)
コーパスのファイル形式とアプリケーション†
- ファイル形式と実例
- 電子テキスト:プレーンテキスト
- 構造化テキスト:XMLファイル
- 単語情報付きデータ:単語情報を埋め込んだXML /XMLファイル+CSVファイル
- それぞれの利用アプリケーション
- 電子テキスト:テキストエディタ+grepなど
- 構造化テキスト:全文検索システム「ひまわり」、XMLエディタ(Oxygen, VSCode)、XPath・XSLT
- 単語情報付きデータ:中納言(オンライン)/Chaki.Net(ローカル)
テキストエディタ†
- VisualStudio Codeのインストールと設定
- 拡張機能 Japanese Language Packの追加
- ファイルオープン時にエンコーディングを自動判別するよう設定
- 拡張機能 XML Language Support by Red Hatの追加
テキストデータと文字コード†
- 【課題】サンプルテキスト(青空文庫の夏目漱石「こころ」)をダウンロードしてVS codeで開き、UTF-8で保存しなおす
正規表現(1)†