日本語テキスト処理のためのPC基礎講座

~言語処理やプログラミング以前の基礎知識

2018/05/08 Excel

基本

ピボットテーブル

文字列関数

VLOOKUP

ネ申Excel問題

2018/04/17 テキストエディタと正規表現

準備

サンプルデータ

下記のデータ(青空文庫の夏目漱石作品を整形したもの)をダウンロードし、デスクトップに展開(解凍)してください。「なつめそうせき(夏目漱石)」というフォルダができます。

エディタ

正規表現対応のテキストエディタがない人は下記からサクラエディタ(V2)をインストールしてください。

なぜテキストデータか

テキストエディタの基本

利用例

  1. 動詞「日本語」の用例をgrep
  2. grep結果を置換して表形式にする

正規表現

基本的な正規表現

タグ付き正規表現

走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか

最長一致の原則(greedy matching)

課題

(検索・置換)

  1. 夏目漱石『坊ちゃん』における「山嵐」の初出行は何行目か。
  2. 夏目漱石『坊ちゃん』における「赤シャツ」の用例数は何例か。
  3. サンプルデータ(夏目漱石の青空文庫全作品)における「言葉」の用例数は何例か。

(正規表現)

  1. 次の語を検索する場合に用いる検索文字列をできるだけ簡潔な正規表現で記しなさい。
    1. 形容詞「暗い」(ただし、漢字「暗」で表記されるもの)
    2. 動詞「蹴る」(漢字「蹴」またはひらがなで表記されるもの)
    3. 「言葉」が2回出てくる行
    4. 「「」で始まり、「」」が現れない行
    5. 「○る○る」(「ぐるぐる」など)
  2. 次の問いに答えよ。
    1. サンプルデータ(夏目漱石の青空文庫全作品)における動詞「笑う」および名詞「笑い」の用例数は計何例か
    2. サンプルデータ(夏目漱石の青空文庫全作品)における形容詞「赤い」の用例数は何例か

(正規表現によるテキスト整形)

次のデータ(「こころ」Wordファイル)をダウンロードして下記の課題を行え。

ただし、データ中に現れる記号は下記のようになっている(青空文庫形式)。

《》:ルビ
(例)私《わたくし》は

|:ルビの付く文字列の始まりを特定する記号
(例)先生一人|麦藁帽《むぎわらぼう》を 

[#]:入力者注 主に外字の説明や、傍点の位置の指定
   (数字は、JIS X 0213の面区点番号、または底本のページと行数)
(例)※[#「てへん+劣」、第3水準1-84-77]
  1. 注と振り仮名を削除し1文1行となる形式のテキストファイルを作成せよ。
  2. 注を削除し、振り仮名を本文と入れ換えたテキストファイルを作成せよ。(例:「私《わたくし》は」→「わたくしは」)
  3. 1.で作成したデータから、次のような「それぎり」「それきり」のKWIC用例集のExcelデータを作成せよ。
    kokoro.txt225先生もそれぎり何ともいわなくなった。
    kokoro.txt244私もその話はそれぎりにして切り上げた。

見た目と論理構造の話

どっちが「きれいなデータ」だろうか?

太陽コーパス              近代語    書き言葉
日本語話し言葉コーパス     現代語        話し言葉
現代日本語書き言葉均衡コーパス  現代語    書き言葉
日本語歴史コーパス       古代~近代語 書き言葉
太陽コーパス	近代語	書き言葉
日本語話し言葉コーパス	現代語	話し言葉
現代日本語書き言葉均衡コーパス	現代語	書き言葉
日本語歴史コーパス	古代~近代語	書き言葉

ちゃんとしたデータを作るために


関連キーワード・リンク集


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS