日本語学講義(I) 日本語コーパス研究入門†
- 授業に関するメールはこちらへ。
小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください
- 授業フォルダ \\Linkstation\share\日本語コーパス
2012/11/30
復習と補足
- 連体修飾(である可能性が高いもの)の検索と集計
- Zipf則
長単位と短単位の仕様の違い
- 複合辞
- 可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(長単位)
- 可能動詞の語彙素
集計のための処理
- 集計用の列を用意する
- ex.「割合が{大きい/小さい, 高い/低い, 多い/少ない}」
- 文字列関数による置き換え
- Excelの文字列関数とif関数
- left,right,mid,len,search,substitute
利用例:「訊く」の話
2012/11/16
「中納言」検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
中納言の検索結果をExcelで利用する
Excelの基本
Excel:ピボットテーブルとピボットグラフ
- ピボットテーブル
- Excelのバージョンによってかなり操作方法が違うので注意
- ピボットグラフ
2012/11/09
検索条件式
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
BCCWJの形態論情報
- UniDicの品詞体系 (配付資料)
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う
- サ変動詞を 名詞+動詞スル として扱う
- 活用語に助動詞「う」が付いた形を意志推量形として扱う
長単位の品詞
- 短単位との違い
- 可能性に基づく品詞付与ではなく、出現例に即した品詞付与
- 複合辞
- 可能動詞の扱い
2012/10/26
「中納言」の利用
中納言によるコーパスの検索方法
2012/10/19
- 受講者の専門分野・関心領域
- 「中納言」アカウント確認
コーパスの設計とサンプリング
- ★スライド参照(授業フォルダ)
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
2012/10/12 コーパスとは
はじめに
- 授業フォルダの説明
- \\Linkstation\share\日本語コーパス
コーパスとは
- ★スライド参照(授業フォルダ)
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
「少納言」を使ってみる
参考リンク
2012/10/05 イントロダクション†
- デモンストレーション
- BCCWJ中納言+Excel
- 茶まめ(形態素解析)
- ひまわり
授業で利用する主なソフトウェア†