上智2014
コーパスにもとづく日本語史研究
- 後期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2014/12/19
前回補足
レポート作成のためのコーパス検索・調査(1)
考えてきたテーマについて、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
2014/12/12
日本語歴史コーパス「中納言」補足
コロケーション強度
- 単純な用例数では危険
- もともと頻度が高いもの同士のつながりは多くて当たり前
- ダイス係数=2×(ABの用例数/Aの用例数+Bの用例数)
- 「つ」の前の動詞の場合
- AB= 「動詞+つ」の用例数
- A=当該動詞の用例数
- B=「つ」の用例数
レポートテーマについて
質問
2014/12/05
中納言の使い方(つづき)
2014/11/28
日本語歴史コーパス(CHJ)を使う
中納言の使い方
短単位について
2014/11/21
青空文庫の「ひまわり」データの利用例
関数の利用
- 文字列処理関数
- 例: =left(<文字列>,<文字数>)
- 生年代: =left(<生年月日が入っているセル>,3)*10
- (補足)生年月日の列を一旦コピーしてメモ帳などに貼り付け、列全体のセルの書式を「文字列」としたうえで貼り付け直す
- 「青空文庫」データの作品ごとに不揃いな生年月日が日付への自動変換でおかしくなるのを防ぐため
分類用のフィールドを作って集計する
- サンプリング調査
- 大量に用例があり、調査内容からすべて対象にできない場合
- ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列: =rand()
- ランダムな数字の列をコピーして値として貼り付けると数字が固定される
2014/11/14
青空文庫の「ひまわり」データ
ピボットテーブル(復習)
- 列名
前文脈 | キー | 後文脈 | 作品名 | 副題 | 著者 | 役割 | 初出 | 分類番号 | 文字遣い | 作品ID | 人物ID | 生年月日 | 没年月日 | 文字数 |
調査例
- 「~的の」「~的な」
- 「気持ち」「心持ち」
- 「それきり」「それぎり」
研究例
参考文献
2014/11/07
「ひまわり」検索結果をExcelで扱う
- 列名(近代女性雑誌コーパス)
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 欄名 | ジャンル | 文体 | 話者 | 種別 | 位置 |
Excelの基本操作
- 並べ替え(ソート)
- フィルター(絞り込み)
- テキストフィルター
- 多重フィルター(複数の条件指定)
- ピボットテーブル★
「ひまわり」データの追加
「太陽コーパス」
形態論情報付きの「ひまわり」データ
10/28みなし金曜日 の授業は休講です
2014/10/24
「ひまわり」の利用
正規表現を使ってみる†
- 文字クラス
- 例:読[まみむめもん]
- 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 記号はすべて半角
- 記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
ひまわりで利用可能なデータについて
◎を授業で取り上げます。
- 現代語のデータ
- 国会会議録データ
- 法令データベース
- 青空文庫◎
- 口コミサイト
- 近代語のデータ
- 太陽コーパス◎
- 近代女性雑誌コーパス◎
- 明六雑誌コーパス◎
- 国民之友コーパス◎
- 国定高等小学読本◎
- 古典文学作品のデータ
2014/10/17
- 今回からUSBメモリを使います。
- 日本語歴史コーパス(CHJ)中納言は登録手続き中です。
- 前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。
近代雑誌コーパスと「ひまわり」
- 近代語のコーパス
- 「太陽コーパス」(販売中)
- 「近代女性雑誌コーパス」(公開中)
- 「明六雑誌コーパス」(公開中)〈形態論情報付き〉
- 「国民之友コーパス」(公開中)〈形態論情報付き〉
全文検索システム「ひまわり」について
「ひまわり」の導入
- 「ひまわり」のダウンロード
- 「近代女性雑誌コーパス」のダウンロード
- インストール
- ダウンロードした二つのZIPファイルを右クリックして、[プロパティ] > [全般]でセキュリティのブロックが解除(必須)
- Himawariフォルダ内のCorporaフォルダが重なる(上書きされる)形で、コーパスのフォルダをコピー
- 動作確認
- Himawari.exeをダブルクリックして起動,configファイルを選択
Himawariの使い方
2014/10/10
- 次回以降、USBメモリ(2GB以上)を持ってきてください。
日本語歴史コーパス(CHJ)の登録
- 申込用紙・契約書2枚
- 次回、押印して持ってきてください。
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
総索引から電子化テキストへ(国語史資料の電子化の歴史)
- 戦後、総索引が整備されはじめる
- 1929~31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
- 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
- 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
- 総索引作成のための電子化テキスト利用など
- 1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース(長瀬1990)
- 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
- 青空文庫 1997~ http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
テキストファイル
プレーンテキストからタグ付きテキストへ
2014/10/03
イントロダクション
- デモ
- 「日本語歴史コーパス(CHJ)」
- CHJ中納言
- Excelによる集計(ピボットテーブル)
- ひまわり(「太陽コーパス」)
- 形態素解析:茶まめ/MeCab+UniDic