#author("2021-05-12T23:28:48+00:00","default:ogiwiki","ogiwiki") #author("2023-05-08T01:24:59+00:00;2021-05-12T23:28:48+00:00","default:ogiwiki","ogiwiki") **形態素解析:「Mecab」と「UniDic」 [#a6e26e6f] ***形態素解析とは [#l3a7ee8c] どんなものか -デモ: Web茶まめ (MeCab + UniDic) --https://chamame.ninjal.ac.jp/ ------ -日本語の自然言語処理の基礎技術 -今ではかなり''枯れた''技術 -機械学習による言語処理のはしり ------ -形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 --「形態素解析」= "Morphological analysis" --morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある) --日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る) -形態素解析の仕組み --生起コストと連接コスト ---その語はどれくらい出てくるか、どんな語とつながりやすいか ---コーパスから統計的に取得(機械学習) --経路の選択([[参考:ビタビアルゴリズム>https://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***形態素解析用ソフトウェア [#kfabceb4] 以前から使われているソフトウェア -形態素解析器(解析エンジン・プログラム) --[[JUMAN >http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN]] --[[茶筌(ChaSen)>https://chasen-legacy.osdn.jp/]] <[[HMM>https://ja.wikipedia.org/wiki/%E9%9A%A0%E3%82%8C%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E3%83%A2%E3%83%87%E3%83%AB]] --[[和布蕪(MeCab)>https://taku910.github.io/mecab/]] <[[CRF>https://ja.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E4%BB%98%E3%81%8D%E7%A2%BA%E7%8E%87%E5%A0%B4]] -解析用辞書 --[[IPADIC>http://sourceforge.jp/projects/ipadic/]] --[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]] --[[UniDic>https://unidic.ninjal.ac.jp]] -[[Web茶まめ>https://chamame.ninjal.ac.jp/]](解析用のお助けツール) --MeCab+UniDic/IPAdic ***UniDicの特長 [#zf2df392] +見出し語が''短単位''という斉一な単位に揃えられている +見出し語が''階層化''されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる +語種など言語研究のための豊富な情報が付与されている -UniDicはChaSen, MeCabのどちらの解析器でも利用可能((最新版はMeCab版のみ)) --後から開発されたMeCabの方が解析精度が高いのでおすすめ ***新しい形態素解析器 [#f7414ba1] ***比較的新しい形態素解析器 [#f7414ba1] -KyTea --http://www.phontron.com/kytea/index-ja.html --点予測という系列ラベリングとは別の手法による形態素解析器 -JUMAN++ --https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B --深層学習(RNN)を使った形態素解析器 ***形態素解析に関する専門書 [#wa6ce8a1] -工藤拓『形態素解析の理論と実装』近代科学社(2018) ***(参考)長単位解析器 [#i1ef6962] -Comainu((現在では動かすのがたいへん)) --https://ja.osdn.net/projects/comainu/ ※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる ***(参考)係り受け解析器 [#o0ecb888] -CaboCha --https://taku910.github.io/cabocha/ ※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き