授業資料/形態素解析
をテンプレートにして作成
開始行:
**形態素解析:「Mecab」と「UniDic」 [#a6e26e6f]
***形態素解析とは [#l3a7ee8c]
どんなものか
-デモ: Web茶まめ (MeCab + UniDic)
--https://chamame.ninjal.ac.jp/
------
-日本語の自然言語処理の基礎技術
-今ではかなり''枯れた''技術
-機械学習による言語処理のはしり
------
-形態素解析の解析単位は言語学で言う「形態素」ではないこと...
--「形態素解析」= "Morphological analysis"
--morphologicalな(形態論上の)単位は形態素だけではない(...
--日本語の形態素解析の単位は一般に「語」(語をどう定義す...
-形態素解析の仕組み
--生起コストと連接コスト
---その語はどれくらい出てくるか、どんな語とつながりやすいか
---コーパスから統計的に取得(機械学習)
--経路の選択([[参考:ビタビアルゴリズム>https://ja.wikip...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア [#kfabceb4]
以前から使われているソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[JUMAN >http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN...
--[[茶筌(ChaSen)>https://chasen-legacy.osdn.jp/]] <[[HM...
--[[和布蕪(MeCab)>https://taku910.github.io/mecab/]] <[...
-解析用辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>https://unidic.ninjal.ac.jp]]
-[[Web茶まめ>https://chamame.ninjal.ac.jp/]](解析用のお...
--MeCab+UniDic/IPAdic
***UniDicの特長 [#zf2df392]
+見出し語が''短単位''という斉一な単位に揃えられている
+見出し語が''階層化''されており表記の揺れや語形の変異にか...
+アクセントや音変化の情報を付与することができる
+語種など言語研究のための豊富な情報が付与されている
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能((最新...
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***比較的新しい形態素解析器 [#f7414ba1]
-KyTea
--http://www.phontron.com/kytea/index-ja.html
--点予測という系列ラベリングとは別の手法による形態素解析器
-JUMAN++
--https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
--深層学習(RNN)を使った形態素解析器
***形態素解析に関する専門書 [#wa6ce8a1]
-工藤拓『形態素解析の理論と実装』近代科学社(2018)
***(参考)長単位解析器 [#i1ef6962]
-Comainu((現在では動かすのがたいへん))
--https://ja.osdn.net/projects/comainu/
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品...
***(参考)係り受け解析器 [#o0ecb888]
-CaboCha
--https://taku910.github.io/cabocha/
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した...
終了行:
**形態素解析:「Mecab」と「UniDic」 [#a6e26e6f]
***形態素解析とは [#l3a7ee8c]
どんなものか
-デモ: Web茶まめ (MeCab + UniDic)
--https://chamame.ninjal.ac.jp/
------
-日本語の自然言語処理の基礎技術
-今ではかなり''枯れた''技術
-機械学習による言語処理のはしり
------
-形態素解析の解析単位は言語学で言う「形態素」ではないこと...
--「形態素解析」= "Morphological analysis"
--morphologicalな(形態論上の)単位は形態素だけではない(...
--日本語の形態素解析の単位は一般に「語」(語をどう定義す...
-形態素解析の仕組み
--生起コストと連接コスト
---その語はどれくらい出てくるか、どんな語とつながりやすいか
---コーパスから統計的に取得(機械学習)
--経路の選択([[参考:ビタビアルゴリズム>https://ja.wikip...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア [#kfabceb4]
以前から使われているソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[JUMAN >http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN...
--[[茶筌(ChaSen)>https://chasen-legacy.osdn.jp/]] <[[HM...
--[[和布蕪(MeCab)>https://taku910.github.io/mecab/]] <[...
-解析用辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>https://unidic.ninjal.ac.jp]]
-[[Web茶まめ>https://chamame.ninjal.ac.jp/]](解析用のお...
--MeCab+UniDic/IPAdic
***UniDicの特長 [#zf2df392]
+見出し語が''短単位''という斉一な単位に揃えられている
+見出し語が''階層化''されており表記の揺れや語形の変異にか...
+アクセントや音変化の情報を付与することができる
+語種など言語研究のための豊富な情報が付与されている
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能((最新...
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***比較的新しい形態素解析器 [#f7414ba1]
-KyTea
--http://www.phontron.com/kytea/index-ja.html
--点予測という系列ラベリングとは別の手法による形態素解析器
-JUMAN++
--https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
--深層学習(RNN)を使った形態素解析器
***形態素解析に関する専門書 [#wa6ce8a1]
-工藤拓『形態素解析の理論と実装』近代科学社(2018)
***(参考)長単位解析器 [#i1ef6962]
-Comainu((現在では動かすのがたいへん))
--https://ja.osdn.net/projects/comainu/
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品...
***(参考)係り受け解析器 [#o0ecb888]
-CaboCha
--https://taku910.github.io/cabocha/
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した...
ページ名: