日本語テキスト処理のためのPC基礎講座
~言語処理やプログラミング以前の基礎知識
2018/04/17 テキストデータと正規表現
テキストデータ
- 正規表現(grepからタグ付き正規表現まで)
- 授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定(補集合)[^ ]
- 繰り返し(最長一致) ? + * ※
- 繰り返し最短一致 +? *? ※
- n回以上m回以下のくり返し {n,m} ※
- グループ化 ()
- or(論理和) |
- 文頭 ^、文末 $
- タグ付き正規表現
- カッコ(半角丸カッコ)と\1(\2,\3…)を使う
- タグ付けへの応用例 (「.+?」) -> <quote>\1</quote> ※
- 後方参照
- マッチした部分を検索語の中で再利用する 例: (..)\1
どっちが「きれいなデータ」だろうか?
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 話し言葉
日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 話し言葉
日本語歴史コーパス 古代~近代語 書き言葉
見た目と論理構造
- テキスト、スプレッドシート(Excel)、マークアップ(XML)などのデータ設計あらゆることに共通した課題