上智2015
コーパスにもとづく日本語史研究
- 後期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2015/12/04
レポートテーマについて
- レポートテーマについて全員に聞き、コメントします
- その後、次回、小発表できるだけの調査を行ないます。積極的に質問して下さい
コロケーション強度の話
- 単純な用例数では危険
- もともと頻度が高いもの同士のつながりは多くて当たり前
- ダイス係数=2×(ABの用例数/Aの用例数+Bの用例数)
- 「つ」の前の動詞の場合
- AB= 「動詞+つ」の用例数
- A=当該動詞の用例数
- B=「つ」の用例数
2015/11/27
- Excelによる集計のテクニック(ひまわり/中納言共通)
複数の検索結果をまとめる
分類用のフィールドを作って集計する
サンプリング調査
- 大量に用例があり、調査内容からすべて対象にできない場合
- ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列: =rand()
- ランダムな数字の列をコピーして値として貼り付けると数字が固定される
関数の利用
- 文字列処理関数
- 例: =left(<文字列>,<文字数>)
- 生年代: =left(<生年月日が入っているセル>,3)*10
- (注意)ひまわりの検索結果をExcelに貼り付けるとき
- 生年月日がくる列全体のセルの書式を「文字列」としたうえで貼り付ける
- 1900年以前の日付が正しく変換されず不統一になるのを防ぐため
日本語歴史コーパス「中納言」補足
レポートテーマについて
- 次回までにレポートテーマを考えてくること(全員に聞きます)
2015/11/20
短単位について
品詞体系
- BCCWJと同様、UniDicの品詞体系↓ にもとづく
中納言の使い方(続き)
2015/11/13
(補足)研究例
(補足)さまざまな「ひまわり」用データ
- 形態論情報付きの「ひまわり」用データ
- 「明六雑誌コーパス」
- 「洒落本コーパス」「人情本コーパス」試作版
利用可能なデータについて
- 近代語のデータ
- 太陽コーパス◎
- 近代女性雑誌コーパス◎
- 明六雑誌コーパス◎
- 国民之友コーパス◎
- 国定高等小学読本
- 国会会議録データ
- 法令データベース
- 青空文庫◎
- 口コミサイト
- 古典文学作品のデータ
『日本語歴史コーパス』(CHJ)を使う
中納言の使い方
2015/11/06
青空文庫の「ひまわり」データ
ピボットテーブル(復習)
- 調査例
- 「~に/を信頼する」
- 「それきり」「それぎり」
- 「気持ち」「心持ち」
- 「~的の/な」
関数の利用
- 文字列処理関数
- 例: =left(<文字列>,<文字数>)
- 生年代: =left(<生年月日が入っているセル>,3)*10
参考文献
中納言ログイン
2015/10/30
「太陽コーパス」
「ひまわり」検索結果をExcelで扱う
Excelの基本操作
- 並べ替え(ソート)
- フィルター(絞り込み)
- テキストフィルター
- 多重フィルター(複数の条件指定)
- ピボットテーブル★
2015/10/23
近代雑誌コーパスと「ひまわり」
- 近代語のコーパス
- 「太陽コーパス」(販売中)
- 「近代女性雑誌コーパス」(公開中)
- 「明六雑誌コーパス」(公開中)〈形態論情報付き〉
- 「国民之友コーパス」(公開中)〈形態論情報付き〉
全文検索システム「ひまわり」について
「ひまわり」の導入
2015/10/16
- 今回からUSBメモリを使います。
- 日本語歴史コーパス(CHJ)中納言は登録手続き中です。
- 前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。
テキストエディタ
- テキストデータ(青空文庫)の配布
- ダウンロードしてUSBメモリに展開(解凍)してください
- 検索・置換、grep
- 検索で初出行を調べる
- 置換で用例数を数える
- grepで用例リストを作る
- タグジャンプで文脈を確認する
- サブフォルダのgrep
ショートカットキー†
正規表現を使ってみる†
- 文字クラス
- 例:読[まみむめもん]
- 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 記号はすべて半角
- 記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
2015/10/9
- 次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。
日本語歴史コーパス(CHJ)の登録
- 申込用紙・契約書2枚
- 次回、押印して持ってきてください
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
紙の資料からコーパスまで
- (紙の)本文テキスト
- (紙の)総索引
- 電子テキスト
- 構造化テキスト
- 形態論情報付きコーパス
総索引から電子化テキストへ(国語史資料の電子化の歴史)
- 戦後、総索引が整備されはじめる
- 1929~31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
- 1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
- 金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
- 総索引作成のための電子化テキスト利用など
- 1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース(長瀬1990)
- 国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
- 青空文庫 1997~ http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
テキストファイル
- テキストエディタの設定
- 行の折り返し
- 行番号表示
- スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
プレーンテキストからタグ付きテキストへ
2015/10/02
イントロダクション
デモ
授業で利用する主なソフトウェア†
シラバス確認