上智2017
国語学演習Ⅲa
2017/5/19(休講)
2017/05/12
日本語コーパスの形態論情報
品詞体系と見出し語の階層
- BCCWJ,CHJはUniDicの品詞体系にもとづく
UniDicによる形態素解析
形態論情報を使った検索(詳しくは次回)
- まずは文字列検索を行って形態論情報がどうなっているか確認する
2017/04/28
BCCWJの紹介 コーパスの設計とサンプリング
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」「代表性」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
参考リンク
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
2017/04/21
「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」と
※当面、BCCWJを中心に解説し、その後CHJ明治大正編に
- BCCWJとCHJ、これらを利用するインターフェイスについて、まず最小限のことを説明します。
- 少納言 BCCWJ
- 中納言 BCCWJ,CHJほか
- 要登録
- 形態論情報を使った検索
- 全件(一度に最大10万例まで)ダウンロード可
「中納言」オンライン利用申込み
日本語コーパスの紹介(1)コーパスとはどんなものか
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
- この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
- 「コーパス」以前の日本語研究用データとの違いは
2017/04/14
イントロダクション