授業資料
形態素解析:「Mecab」と「UniDic」
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない。訳語に問題がある(誤訳)
- 日本語の形態素解析の単位は一般に「語」。(語をどう定義するかという問題は残る)
形態素解析用ソフトウェア
主なソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析辞書
茶まめ(解析用のお助けツール)
UniDicの特長
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
- テキストのジャンルと語種,品詞の割合をグラフ化してみる
UniDicの品詞体系
- cf.UniDicマニュアル
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う