成蹊2009
日本語学講義B(後期)†
お知らせ
- Web Collaborationで形態素解析用のソフトウェアを配布しています。自分のUSBメモリにコピーして使ってください。(空き容量が約400MB必要です)
- 出席について:情報教育用施設の出席管理システムで毎回確認しています。
- 授業中に案内したアカウントでコーパス検索ツール:中納言が使えます。詳しい使い方は授業終盤で説明しますが、レポートテーマの検討のためあらかじめ利用してみてください。
- 12/24は休講とします。次回までにレポートテーマを考えておいてください。
1/9 第12回 中納言によるコーパスの検索と結果の集計/レポートテーマ確認
- レポートテーマの確認
- 形態素解析結果の集計・比較
- コーパスの利用(中納言)
12/21 第11回 集計結果の利用/小テスト
- 異なり語数とのべ語数
- UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型でグループ化することで(表記違いや活用形違いをまとめ上げた)語数の集計ができる
- 異なり語数/のべ語数:TTR(Type-Token Ratio)
- 名詞率
- MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb)
で割った比率(Ratio)
- 高「ありさま描写的」<--->低「動き描写的」といわれる
12/14 第10回 形態素解析結果をデータベースで扱う(Access)(2)
- 連続する語を取り出す・集計する
- 次の語の連番を付ける
- 列を用意する
- 更新クエリ
- 連続する語を抜き出す
- 解析結果テーブル自身を1行ずらして結合する
- 前後の語で条件指定した選択クエリ
参考資料:形態素解析結果をAccessで使う(PDF)
12/07 第9回 形態素解析結果をデータベースで扱う(Access)
- データベースに取り込む:
- Accessで新規データベースを作成(mdbファイル)
- インポート
- 連番を付ける
11/30 第8回 形態素解析結果の集計(Excel)(2)
- 前回収集したデータを茶まめ(UniDic+MeCab)で解析し、Excelで集計します。
- Excelのピボットテーブルが使いこなせるようになってください。
- 茶まめの使い方(復習)
- Excelとピボットテーブル
11/16 第7回 形態素解析結果の集計
- 今回から実習的な内容が多くなります。
- 茶まめ(UniDic+MeCab)で解析した結果をExcelで集計します。
- 自分で形態素解析が行えるようにしてください。
- 茶まめの使い方
- Excelとピボットテーブル
11/09 第6回 形態素解析
- 形態素解析とは
- UniDicの概要
- 茶まめで形態素解析を行う
- 配付資料:小木曽(2007)「日本語研究と自動形態素解析」
11/02 第5回 文字コード
- 文字の符号化と文字集合
- 形態素解析用ソフトウェア(配布と動作確認)
10/26 第4回 コーパスのデータ形式
10/19 第3回 均衡コーパス
10/12(体育の日・開講日) 休講
10/5 第2回 利用可能な言語資源とコーパス
- 前回補足
- 形態素解析のデモンストレーション(兼 環境チェック)
(以下パワーポイント参照)
- 紙の資料からコーパスまで
- コーパスとは
- 広義のコーパス/狭義のコーパス
- コーパス,テキストデータの紹介
9/28 第1回 ガイダンス