成蹊2012
2010/05/18
コーパスの形態論情報
- UniDicの品詞体系
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う
形態論情報を活かした検索
2012/05/11
「中納言」の利用
中納言によるコーパスの検索方法
- 配布資料:IT's Class >日本語学講義E>教材>スライド>5月10日 中納言の使い方
2011/04/27
「中納言」利用申込み用紙回収
- 申込用紙と契約書を回収します。記名・押印して必ず持ってきてください。
日本語コーパスの紹介(2) コーパスの設計とサンプリング
- (スライド参照)IT's Class >日本語学講義E>教材>スライド>4月27日 コーパスの設計とサンプリング
- 「バランスがとれている」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
2012/04/20
「中納言」利用申込み
- 申込用紙を配布します。記入・押印して次回、必ず持ってきてください。
日本語コーパスの紹介(1)コーパスとはどんなものか
- (スライド参照): IT's Class >日本語学講義E>教材>スライド>4月20日
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
- この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」
- もうひとつの授業「日本語日本文学のためのコンピュータ」で扱っているデータは後者
- コーパスを使ってみる BCCWJ少納言
- 登録不要
- 制限あり(文字列検索のみ,表示は500例まで)
2012/04/13 イントロダクション