上智2014
コーパスにもとづく日本語史研究
- 後期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2014/10/10
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
総索引から電子化テキストへ(国語史資料の電子化の歴史)
- 戦後、総索引が整備されはじめる
- 1929~31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
- 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
- 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
- 総索引作成のための電子化テキスト利用など
- 1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース(長瀬1990)
- 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
- 青空文庫 1997~ http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
テキストファイル
プレーンテキストからタグ付きテキストへ
日本語歴史コーパス(CHJ)の登録
- 申込用紙・契約書2枚
- 次回、押印して持ってくること。
2014/10/03
イントロダクション
- デモ
- 「日本語歴史コーパス(CHJ)」
- CHJ中納言
- Excelによる集計(ピボットテーブル)
- ひまわり(「太陽コーパス」)
- 形態素解析:茶まめ/MeCab+UniDic