上智2014
コーパスにもとづく日本語史研究
- 後期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2014/10/24
「ひまわり」の利用
正規表現を使ってみる†
- 文字クラス
- 例:読[まみむめもん]
- 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 記号はすべて半角
- 記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
2014/10/17
- 今回からUSBメモリを使います。
- 日本語歴史コーパス(CHJ)中納言は登録手続き中です。
- 前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。
近代雑誌コーパスと「ひまわり」
- 近代語のコーパス
- 「太陽コーパス」(販売中)
- 「近代女性雑誌コーパス」(公開中)
- 「明六雑誌コーパス」(公開中)〈形態論情報付き〉
- 「国民之友コーパス」(公開中)〈形態論情報付き〉
「ひまわり」の導入
- 「ひまわり」のダウンロード
- 「近代女性雑誌コーパス」のダウンロード
- インストール
- ダウンロードした二つのZIPファイルを右クリックして、[プロパティ] > [全般]でセキュリティのブロックが解除(必須)
- Himawariフォルダ内のCorporaフォルダが重なる(上書きされる)形で、コーパスのフォルダをコピー
- 動作確認
- Himawari.exeをダブルクリックして起動,configファイルを選択
Himawariの使い方
2014/10/10
- 次回以降、USBメモリ(2GB以上)を持ってきてください。
日本語歴史コーパス(CHJ)の登録
- 申込用紙・契約書2枚
- 次回、押印して持ってきてください。
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
総索引から電子化テキストへ(国語史資料の電子化の歴史)
- 戦後、総索引が整備されはじめる
- 1929~31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
- 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
- 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
- 総索引作成のための電子化テキスト利用など
- 1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース(長瀬1990)
- 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
- 青空文庫 1997~ http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
テキストファイル
プレーンテキストからタグ付きテキストへ
2014/10/03
イントロダクション
- デモ
- 「日本語歴史コーパス(CHJ)」
- CHJ中納言
- Excelによる集計(ピボットテーブル)
- ひまわり(「太陽コーパス」)
- 形態素解析:茶まめ/MeCab+UniDic