形態素解析:「Mecab」と「UniDic」
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア
主なソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析辞書
茶まめ(解析用のお助けツール)
UniDicの特長
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
UniDicの品詞体系
- 階層化された属性
- 品詞:「名詞-固有名詞-人名-姓」 (大分類>中分類>小分類(>細分類))
- 活用型:「下一段-ア行」 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
- 名詞-普通名詞-サ変可能 「勉強」「研究」「旅行」
- 名詞-普通名詞-形状詞可能 「元気」
- 名詞-普通名詞-サ変形状詞可能 「心配」
- 特殊な扱いを受ける語
- 形状詞 (=形容動詞語幹,形容動詞の語尾は助動詞「だ」(「なり」「たり」)とする)
- 助動詞「う」が付いた形「行こう」を「行く」の意志推量形として扱う(助動詞「う」はない)
最新版はMeCab版のみ