[[成蹊2009]] *日本語学講義B(後期) [#v96d1a69] --月曜5限 --資料は[[IT's Class>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]の教材のページを見てください。 --http://www.cc.seikei.ac.jp/ -''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]'' **お知らせ //-次回(11/2)の授業時にUSBメモリ(1GB以上)を持ってきてください。 -Web Collaborationで形態素解析用のソフトウェアを配布しています。自分のUSBメモリにコピーして使ってください。(空き容量が約400MB必要です) -出席について:情報教育用施設の出席管理システムで毎回確認しています。 -授業中に案内したアカウントで[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]が使えます。詳しい使い方は授業終盤で説明しますが、レポートテーマの検討のためあらかじめ利用してみてください。 -12/24は休講とします。次回までにレポートテーマを考えておいてください。 ------ ***1/18 第13回 レポートテーマの決定、レポート作成 -期末レポート -''締め切り:1月31日 24:00'' -''提出先(メール):ogiso@ogiso.net'' -A4用紙3枚以上(目安) --''提出先(メール): ogiso@ogiso.net '' --A4用紙3枚以上(目安) ***1/9(土) 第12回 中納言によるコーパスの検索と結果の集計/レポートテーマ確認 -中納言の使い方 --コーパスの検索(復習) ---全文検索と短単位検索 ---前後の語を組み合わせた検索 --検索結果の集計 ---Excel ---Access(発展) -レポートテーマの確認 ++形態素解析結果の集計・比較 ++コーパスの利用(中納言) ***12/21 第11回 集計結果の利用/小テスト -異なり語数とのべ語数 --UniDicの解析結果では、語彙素・語彙素読み・品詞・活用型でグループ化することで(表記違いや活用形違いをまとめ上げた)語数の集計ができる -異なり語数/のべ語数:TTR(Type-Token Ratio) --語彙の豊かさの指標の一つ -名詞率 --要約的な文章ほど高い -MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb) で割った比率(Ratio) --高「ありさま描写的」<--->低「動き描写的」といわれる &ref(compare.jpg); ***12/14 第10回 形態素解析結果をデータベースで扱う(Access)(2) --表の結合 ---内部結合と外部結合 ---表を結合して選択 --集計 ---合計・平均・・・ -連続する語を取り出す・集計する ++次の語の連番を付ける +++列を用意する +++更新クエリ ++連続する語を抜き出す +++解析結果テーブル自身を1行ずらして結合する +++前後の語で条件指定した選択クエリ [[参考資料:形態素解析結果をAccessで使う(PDF)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%B7%C1%C2%D6%C1%C7%B2%F2%C0%CF%B7%EB%B2%CC%A4%F2Access%A4%C7%BB%C8%A4%A6.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]] ***12/07 第9回 形態素解析結果をデータベースで扱う(Access) -データベースに取り込む: ++Accessで新規データベースを作成(mdbファイル) ++インポート ---文字コード(コードページをUTF-8に指定する) ++連番を付ける -データを取り出す・集計する --選択クエリ ---列を選択 ---行を選択 --集計 ---カウント(何例あるか) ***11/30 第8回 形態素解析結果の集計(Excel)(2) -前回収集したデータを茶まめ(UniDic+MeCab)で解析し、Excelで集計します。 -Excelのピボットテーブルが使いこなせるようになってください。 +茶まめの使い方(復習) --複数のファイルを解析する --ファイルに出力する ---タブ区切りテキスト +Excelとピボットテーブル --解析結果の取り込み --語種別の集計 --品詞別の集計 ---品詞大分類で集計(関数の利用) ***11/16 第7回 形態素解析結果の集計 -今回から実習的な内容が多くなります。 -茶まめ(UniDic+MeCab)で解析した結果をExcelで集計します。 -自分で形態素解析が行えるようにしてください。 +茶まめの使い方 --複数のファイルを解析する --ファイルに出力する ---タブ区切りテキスト +Excelとピボットテーブル ***11/09 第6回 形態素解析 -形態素解析とは -UniDicの概要 -茶まめで形態素解析を行う --パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]) -配付資料:小木曽(2007)「日本語研究と自動形態素解析」 ***11/02 第5回 文字コード -文字の符号化と文字集合 --パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]) -形態素解析用ソフトウェア(配布と動作確認) ***10/26 第4回 コーパスのデータ形式 -構造化文書とXML --パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]) ***10/19 第3回 均衡コーパス -コーパスの設計とサンプリング --パワーポイント参照([[IT's Class入り口>http://www.cc.seikei.ac.jp/itsclassstudent/itsclass.htm]]) ***10/12(体育の日・開講日) 休講 ***10/5 第2回 利用可能な言語資源とコーパス -前回補足 --形態素解析のデモンストレーション(兼 環境チェック) (以下パワーポイント参照) -紙の資料からコーパスまで --コーパスとは ---広義のコーパス/狭義のコーパス ---コーパス,テキストデータの紹介 ***9/28 第1回 ガイダンス -[[自己紹介]] --独立行政法人国立国語研究所 http://www.kokken.go.jp/ → 大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ --[[日本語コーパスKOTONOHA>http://www2.kokken.go.jp/kotonoha/]] --[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]] --[[形態素解析辞書UniDic>http://download.unidic.org/]] -[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=2009%A5%B7%A5%E9%A5%D0%A5%B9%A1%A6%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1B.pdf&refer=%C0%AE%EC%FE2009%2F%C6%FC%CB%DC%B8%EC%B3%D8%B9%D6%B5%C1B]]確認 --この授業の目的 --授業の進め方 --評価方法 -デモ