日本語学講義(I) 日本語コーパス研究

第11回 2008/12/12 発表と討議 第2回

発表と討議

近代語のデータと解析辞書

第10回 2008/12/5 発表と討議 第1回 / データベースソフトを使う

発表と討議

データベースソフトを使う

第9回 2008/11/28 形態素解析とデータベースソフト

後半に向けて

茶まめで形態素解析

  1. 準備
    • 教室版「茶まめ」の準備(解析器と辞書はサーバ上)
  2. 茶まめで解析してみる(MeCab+UniDic)
  3. Excelに出力する
  4. ピボットテーブルで集計する

Microsoft Access(データベースソフト)

第8回 2008/11/21 形態素解析

復習:Excelでの集計

  1. ひまわりで検索する
    • 正規表現
  2. Excelに貼り付ける
  3. 列を整える
    • 文字列関数
  4. ピボットテーブルで集計する

形態素解析とは

茶まめで形態素解析(デモ)

  1. 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
  2. Excelに出力する
  3. ピボットテーブルで集計する

第7回 2008/11/14 Excelでの集計

持ち帰り用データ

Excel

後半の発表・レポートに向けて

おすすめエディタ

第6回 2008/11/7 「ひまわり」とExcel

正規表現・補足

全文検索ソフト「ひまわり」の利用

「ひまわり」で使用できる正規表現

前文脈キー後文脈タイトル著者著者ID生没年原著者原著者ID仮名遣い

表計算ソフト Excel入門

発展:「ひまわり」用のデータを作るには

第5回 2008/10/31 正規表現の応用・タグ付き正規表現

正規表現のいろいろ

タグ付き正規表現を使った置換

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

第4回 2008/10/24 正規表現

メタ文字 ― ワイルドカードと正規表現

?任意の1文字
*任意の長さの文字列

正規表現とは

正規表現の応用

第3回 2008/10/17 テキストエディタを使う

grepと置換でCSVファイルを作る

テキストファイルと拡張子

ショートカットキー

第2回 2008/10/10 テキストデータとテキストエディタ

授業で利用する主なソフトウェア

秀丸エディタテキストエディタ検索・整形
ひまわり全文検索ソフト検索・分析
MeCab形態素解析ソフト形態素解析
UniDic形態素解析辞書形態素解析
Excel表計算ソフト集計・分析・グラフ作成
Accessデータベースソフト集計・分析

最初に、テキストエディタを使ってテキストデータを扱うことからはじめます。

テキストデータ

テキストデータ≒テキストファイル≒電子化テキスト

テキストエディタ

2008/10/03 イントロダクション


*1 ワイルドカードの「?」「*」は、後で説明する正規表現の「?」「*」とは意味が違うので注意。ワイルドカードの「?」は正規表現で「.」、「*」は「.*」。

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS