FrontPage
コーパス日本語学のためのテキスト処理入門
2014/09/30 小木曽智信
自分でデータをなんとかする
テキストのレベル | 処理ツール | 利用ツール | 必要な知識 | 対応するコーパス例 |
プレーンテキスト | テキストエディタ | grep | 正規表現 | いろいろ |
(文書構造)タグ付きテキスト | XMLエディタ等 | ひまわり | XMLの基礎 | 太陽コーパス等 |
形態素解析済みテキスト | MeCab (+UniDic) | ChaKi/中納言*1 | 検索方法もそれなりに難しい | BCCWJ等 |
係り受け解析済みテキスト | CaboCha | ChaKi | |
テキストの前処理
量が多くなければテキストエディタと正規表現でも何とかなる
- 形態素解析の前処理
- 形態素解析システムの入力は「文」なのでテキストを文末(のみ)で改行するように整えてから形態素解析に回す
- 単語の境界に入り込むようなタグ(ルビなど)や余計なテキストは解析前に外す
- MeCabでは半角スペースで境界を(手動で)指定できる
- 「形態論情報データベース」(大納言のシステム)では、XML文書を入力として、sentenceタグをもとに文単位に区切り、全てのタグを取り外した*2テキストを形態素解析した後、タグを元の位置に戻している。XSLTとPerlで処理。
- 係り受け解析の前処理
- 形態素解析済みの表形式テキスト
- 形態素解析のエラーは係り受け解析にも引きずるので、全体を人手で直すなら「茶器」などで形態素解析結果を直した後で係り受け解析にかける
コーパス管理システム「茶器」
「茶器」と関連ツールのインストール
- 「茶器」本体
- ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
- 形態素解析
- MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
- UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
- 係り受け解析
- CaboCha https://code.google.com/p/cabocha/
- UniDicモデル :chakiのページからダウンロード可能(標準のIPAdicのモデルでも十分)
「茶器」の利用
「茶器」では形態素解析まで行ったテキストでも、さらに係り受け解析まで行ったテキストでも取り扱える
- データの解析と取り込み
- 付属のText2Corpus(形態素解析・係り受け解析まで手軽にやってくれる。ただし辞書変更の自由がきかない。)
- 茶まめ(手軽に形態素解析のみ。標準では出力形式があわない。要望があれば何とかします)
- 茶器による検索
- 文字列検索
- 正規表現検索
- タグ検索(形態論情報を利用した検索)
- 係り受け検索
- ワードリスト
- コロケーション強度
- 解析結果の修正
sample
問題等
- UniDic属性対応表がほしい
- Text2corpus
- UniDic CaboChaのインストールパスが不明
- 辞書フォルダ指定機能がほしい
- mecab/cabocha/unidic[12] ?