上智2015
コーパスにもとづく日本語史研究
- 後期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2015/10/9
- 次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。
日本語歴史コーパス(CHJ)の登録
- 申込用紙・契約書2枚
- 次回、押印して持ってきてください
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
紙の資料からコーパスまで
- (紙の)本文テキスト
- (紙の)総索引
- 電子テキスト
- 構造化テキスト
- 形態論情報付きコーパス
総索引から電子化テキストへ(国語史資料の電子化の歴史)
- 戦後、総索引が整備されはじめる
- 1929~31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
- 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
- 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
- 総索引作成のための電子化テキスト利用など
- 1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース(長瀬1990)
- 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
- 青空文庫 1997~ http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
テキストファイル
- テキストエディタの設定
- 行の折り返し
- 行番号表示
- スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
プレーンテキストからタグ付きテキストへ
2015/10/02
イントロダクション
デモ
授業で利用する主なソフトウェア†
シラバス確認