日本語学講義(I) 日本語コーパス研究入門†
- 授業に関するメールはこちらへ。
小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください
- 授業フォルダ \\Linkstation\share\日本語コーパス
2012/11/16
「中納言」検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
中納言の検索結果をExcelで利用する
Excelの基本
Excel:ピボットテーブルとピボットグラフ
2012/11/09
検索条件式
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
BCCWJの形態論情報
- UniDicの品詞体系 (配付資料)
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う
長単位の品詞
- 可能性に基づく品詞付与ではなく、出現例に則した品詞付与
- 短単位との違い
- 複合辞
2012/10/26
「中納言」の利用
中納言によるコーパスの検索方法
2012/10/19
- 受講者の専門分野・関心領域
- 「中納言」アカウント確認
コーパスの設計とサンプリング
- ★スライド参照(授業フォルダ)
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
2012/10/12 コーパスとは
はじめに
- 授業フォルダの説明
- \\Linkstation\share\日本語コーパス
コーパスとは
- ★スライド参照(授業フォルダ)
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
「少納言」を使ってみる
参考リンク
2012/10/05 イントロダクション†
- デモンストレーション
- BCCWJ中納言+Excel
- 茶まめ(形態素解析)
- ひまわり
授業で利用する主なソフトウェア†