成蹊2008/日本語学講義B

形態素解析と結果の利用

  1. テキストの収集
    • インターネット上からテキストを集めてくる
      • あとでグループにして比較できるように二つ以上のジャンルから
    • メモ帳などに貼り付けて1文ごとに改行されるように整形
    • グループ毎にまとめられるファイル名をつけて保存
  2. 茶まめを使って解析
    • ファイルから解析
      • ~*.txt(フォルダ内のテキストファイルを全て解析)
    • 解析オプション
      • 半角文字を全角に変換:ON
      • 数字処理:簡易モード
    • 単一ファイルに出力(merge):ON
    • 表に列名を出力:ON
  3. データベースへの取り込み(Access)
    • 空のデータベースを作る
    • 解析結果の取り込み(インポート)
      • 文字コードをUTF-8に変更
      • 先頭行をフィールド名にする:ON
    • 品詞リストの取り込み
  4. クエリの作成(Access)
    • 語種(延べ語数)の集計
    • 異なり語リストの作成
    • 品詞の集計(テーブルの結合)
    • 語種(異なり語数)の集計(クエリをもとにしたクエリ)
  5. グラフの作成(Excel)
    • 必要な結果をコピー&ペースとしてグラフ作成
      • Access上でグラフを作ることもできるがコピーなどができなくて不便
      • ExcelからAccessのデータベースに接続して、クエリ結果をExcelの表として扱うこともできる(応用レベル)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS