日本大学2010
をテンプレートにして作成
開始行:
*総合研究4 オムニバス講義
**11/6(土), 11/13(土)
:概略|形態素解析の仕組みの概要を理解したうえで、形態素解...
1限目:形態素解析の仕組みとUniDicの概略&br;
2限目:形態素解析プログラム(茶まめ,MeCab,UniDic)の利...
3限目:形態素解析結果の利用(表計算ソフト,データベースソ...
4限目:形態素解析の研究への活用
:採点対象となる課題内容|任意のテキストデータに形態素解析...
*11/6(土)
**形態素解析:「Mecab」と「UniDic」
-形態素解析とは
--配付資料:シリーズ国語研究の現場から「日本語研究と自動...
--デモ(茶まめでUniDic)
--形態素解析の解析単位は言語学で言う「形態素」ではないこ...
---「形態素解析」= "Morphological analysis"
---morphologicalな(形態論上の)単位は形態素だけではない...
---日本語の形態素解析の単位は一般に「語」。(語をどう定義...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア
主なソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]]...
--[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CR...
-解析辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>http://download.unidic.org]]
---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.j...
茶まめ(解析用のお助けツール)
***UniDicの特長
+見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
***UniDicの品詞体系
--cf.UniDicマニュアル
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
*11/13(土)
--''サンプルデータ &ref(data.zip);''
---青空文庫より、夏目漱石・島崎藤村・海野十三の小説
**解析結果のデータベースでの利用:「Access」
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-[[形態素解析結果をAccessで使う>http://home.ogiso.net/wik...
***データベースに取り込む:
+Accessで新規データベースを作成(mdbファイル)
+インポート
--文字コード(コードページをUTF-8に指定する)
+連番を付ける
***データを取り出す・集計する
-選択クエリ
--列を選択
--行を選択
-表の結合
--内部結合と外部結合
--表を結合して選択
-集計
--カウント(何例あるか)
--合計・平均・・・
***連続する形態素を取り出す・集計する
+次の形態素の連番を付ける
++列を用意する
++更新クエリ
+連続する形態素を抜き出すには
++解析結果テーブル自身をずらして結合する(連番を利用)
++前後の形態素で条件指定した選択クエリを書く
**さまざまな指標
-異なり語数とのべ語数
-UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型で...
-異なり語数/のべ語数:TTR(Type-Token Ratio)
--語彙の豊かさの指標の一つ
-名詞率
--要約的な文章ほど高い
-MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合...
で割った比率(Ratio)
--高「ありさま描写的」<--->低「動き描写的」といわれる
終了行:
*総合研究4 オムニバス講義
**11/6(土), 11/13(土)
:概略|形態素解析の仕組みの概要を理解したうえで、形態素解...
1限目:形態素解析の仕組みとUniDicの概略&br;
2限目:形態素解析プログラム(茶まめ,MeCab,UniDic)の利...
3限目:形態素解析結果の利用(表計算ソフト,データベースソ...
4限目:形態素解析の研究への活用
:採点対象となる課題内容|任意のテキストデータに形態素解析...
*11/6(土)
**形態素解析:「Mecab」と「UniDic」
-形態素解析とは
--配付資料:シリーズ国語研究の現場から「日本語研究と自動...
--デモ(茶まめでUniDic)
--形態素解析の解析単位は言語学で言う「形態素」ではないこ...
---「形態素解析」= "Morphological analysis"
---morphologicalな(形態論上の)単位は形態素だけではない...
---日本語の形態素解析の単位は一般に「語」。(語をどう定義...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***形態素解析用ソフトウェア
主なソフトウェア
-形態素解析器(解析エンジン・プログラム)
--[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]]...
--[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CR...
-解析辞書
--[[IPADIC>http://sourceforge.jp/projects/ipadic/]]
--[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]]
--[[UniDic>http://download.unidic.org]]
---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.j...
茶まめ(解析用のお助けツール)
***UniDicの特長
+見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
-UniDicはChaSen, MeCabのどちらの解析器でも利用可能
--後から開発されたMeCabの方が解析精度が高いのでおすすめ
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
***UniDicの品詞体系
--cf.UniDicマニュアル
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
*11/13(土)
--''サンプルデータ &ref(data.zip);''
---青空文庫より、夏目漱石・島崎藤村・海野十三の小説
**解析結果のデータベースでの利用:「Access」
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-[[形態素解析結果をAccessで使う>http://home.ogiso.net/wik...
***データベースに取り込む:
+Accessで新規データベースを作成(mdbファイル)
+インポート
--文字コード(コードページをUTF-8に指定する)
+連番を付ける
***データを取り出す・集計する
-選択クエリ
--列を選択
--行を選択
-表の結合
--内部結合と外部結合
--表を結合して選択
-集計
--カウント(何例あるか)
--合計・平均・・・
***連続する形態素を取り出す・集計する
+次の形態素の連番を付ける
++列を用意する
++更新クエリ
+連続する形態素を抜き出すには
++解析結果テーブル自身をずらして結合する(連番を利用)
++前後の形態素で条件指定した選択クエリを書く
**さまざまな指標
-異なり語数とのべ語数
-UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型で...
-異なり語数/のべ語数:TTR(Type-Token Ratio)
--語彙の豊かさの指標の一つ
-名詞率
--要約的な文章ほど高い
-MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合...
で割った比率(Ratio)
--高「ありさま描写的」<--->低「動き描写的」といわれる
ページ名: