日本語テキスト処理のためのPC基礎講座2023

はじめに

歴史を振り返る:紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子化テキスト:テキストファイル (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

コーパスのファイル形式とアプリケーション

テキストファイルとテキストエディタ

準備:VS Codeのインストールと設定

  1. VS codeのインストール
  2. 拡張機能 Japanese Language Packの追加
  3. ファイルオープン時にエンコーディングを自動判別するよう設定

テキストデータについて

サンプルテキスト(青空文庫の夏目漱石「こころ」)

  1. ダウンロードしてVS codeで開き、UTF-8で保存しなおす
  2. 検索
  3. 置換
  4. Grep

正規表現とは

正規表現のいろいろ

正規表現の応用

タグ付き正規表現(キャプチャ)

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

ゲームの紹介


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS