総合研究4 オムニバス講義

11/6(土), 11/13(土)

概略
形態素解析の仕組みの概要を理解したうえで、形態素解析器MeCabと形態素解析辞書UniDicを用いて実際に解析を行い結果を集計する方法を学ぶ。これにより形態素解析を各自の研究テーマに応用することを目指す。
1限目:形態素解析の仕組みとUniDicの概略
2限目:形態素解析プログラム(茶まめ,MeCab,UniDic)の利用
3限目:形態素解析結果の利用(表計算ソフト,データベースソフト)
4限目:形態素解析の研究への活用
採点対象となる課題内容
任意のテキストデータに形態素解析を施し、その解析結果を集計して有意義な調査結果をとりまとめる。

形態素解析:「Mecab」と「UniDic」

morph.png

形態素解析用ソフトウェア

主なソフトウェア

茶まめ(解析用のお助けツール)

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる

茶まめで形態素解析・Excelで集計

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

UniDicの品詞体系

解析結果のデータベースでの利用:「Access」

データベースに取り込む:

  1. Accessで新規データベースを作成(mdbファイル)
  2. インポート
    • 文字コード(コードページをUTF-8に指定する)
  3. 連番を付ける

データを取り出す・集計する

連続する形態素を取り出す・集計する

  1. 次の形態素の連番を付ける
    1. 列を用意する
    2. 更新クエリ
  2. 連続する形態素を抜き出すには
    1. 解析結果テーブル自身をずらして結合する(連番を利用)
    2. 前後の形態素で条件指定した選択クエリを書く

さまざまな指標の出し方


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS