阪大2013
12月18日
今日の授業で利用する主なソフトウェア†
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
授業用UniDic+MeCabパッケージのダウンロード
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
- テキストのジャンルと語種,品詞の割合をグラフ化してみる
- ブログのテキストと新聞記事のテキストの解析結果を比較
歴史的資料を対象とした形態素解析
形態素解析結果を使って索引を作る
- 「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発
形態論情報付きの近代語コーパス
明六雑誌コーパス
日本語歴史コーパス(CHJ)の紹介
日本語歴史コーパス(CHJ)の登録