*総合研究4 オムニバス講義 **11/6(土), 11/13(土) :概略|形態素解析の仕組みの概要を理解したうえで、形態素解析器MeCabと形態素解析辞書UniDicを用いて実際に解析を行い結果を集計する方法を学ぶ。これにより形態素解析を各自の研究テーマに応用することを目指す。&br; 1限目:形態素解析の仕組みとUniDicの概略&br; 2限目:形態素解析プログラム(茶まめ,MeCab,UniDic)の利用&br; 3限目:形態素解析結果の利用(表計算ソフト,データベースソフト)&br; 4限目:形態素解析の研究への活用 :採点対象となる課題内容|任意のテキストデータに形態素解析を施し、その解析結果を集計して有意義な調査結果をとりまとめる。 *11/6(土) **形態素解析:「Mecab」と「UniDic」 -形態素解析とは --配付資料:シリーズ国語研究の現場から「日本語研究と自動形態素解析」 --デモ(茶まめでUniDic) --形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 ---「形態素解析」= "Morphological analysis" ---morphologicalな(形態論上の)単位は形態素だけではない。訳語に問題がある(誤訳) ---日本語の形態素解析の単位は一般に「語」。(語をどう定義するかという問題は残る) -形態素解析の仕組み --生起コストと連接コスト --経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***形態素解析用ソフトウェア 主なソフトウェア -形態素解析器(解析エンジン・プログラム) --[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]] <[[HMM>http://en.wikipedia.org/wiki/Hidden_Markov_model]] --[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CRF>http://en.wikipedia.org/wiki/Conditional_random_field]] -解析辞書 --[[IPADIC>http://sourceforge.jp/projects/ipadic/]] --[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]] --[[UniDic>http://download.unidic.org]] ---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]] 茶まめ(解析用のお助けツール) ***UniDicの特長 +見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5.html]]という斉一な単位に揃えられている +見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/modules/system/modules/menu/main.php?page_id=3468&op=change_page]]ており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる -UniDicはChaSen, MeCabのどちらの解析器でも利用可能 --後から開発されたMeCabの方が解析精度が高いのでおすすめ ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる ***UniDicの品詞体系 --cf.UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う *11/6(土), 11/13(土) *11/13(土) --サンプルデータ &ref(data.zip); --''サンプルデータ &ref(data.zip);'' ---青空文庫より、夏目漱石・島崎藤村・海野十三の小説 **解析結果のデータベースでの利用:「Access」 -関係データベースとは --[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%BF%82%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9]] -[[形態素解析結果をAccessで使う>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%B7%C1%C2%D6%C1%C7%B2%F2%C0%CF%B7%EB%B2%CC%A4%F2Access%A4%C7%BB%C8%A4%A6.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]](PDF) ***データベースに取り込む: +Accessで新規データベースを作成(mdbファイル) +インポート --文字コード(コードページをUTF-8に指定する) +連番を付ける ***データを取り出す・集計する -選択クエリ --列を選択 --行を選択 -表の結合 --内部結合と外部結合 --表を結合して選択 -集計 --カウント(何例あるか) --合計・平均・・・ ***連続する形態素を取り出す・集計する +次の形態素の連番を付ける ++列を用意する ++更新クエリ +連続する形態素を抜き出すには ++解析結果テーブル自身をずらして結合する(連番を利用) ++前後の形態素で条件指定した選択クエリを書く **さまざまな指標 -異なり語数とのべ語数 -UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型でグループ化することで(表記違いや活用形違いをまとめ上げた)語数の集計ができる -異なり語数/のべ語数:TTR(Type-Token Ratio) --語彙の豊かさの指標の一つ -名詞率 --要約的な文章ほど高い -MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb) で割った比率(Ratio) --高「ありさま描写的」<--->低「動き描写的」といわれる