上智2016
コーパス日本語学入門(近現代語コーパス)
- 前期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
残り
7/15
2016/07/08
レポート作成のためのコーパス検索・調査(2)
- 考えてきたレポートテーマに沿って、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
- 個別に見て回ります。
Wordでレポートを書く
文書の構造化とWordの使い方(レポートの書き方)
- 文書の構造化*
- スタイルと見出し
- ナビゲーション ウィンドウ(見出しマップ)の使い方
- 章・節番号
- 図表の貼り込み*
- 「形式を選択して貼り付け」
- 図表番号とキャプション
- 脚注
- 相互参照
2016/07/01
「ひまわり」検索結果の集計(2)
- 集計
- 生年代別の集計(復習)
- ランダムサンプリング&意味分類
レポート作成のためのコーパス検索・調査
- 考えてきたレポートテーマに沿って、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。
- 個別に見て回ります。
2016/06/24
全文検索システム「ひまわり」について
- 全文検索システム「ひまわり」
- 原則として文字列検索のみで,形態論情報を使った検索はできない
- ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
「ひまわり」と「青空文庫パッケージ」のインストール方法
- ひまわり本体のダウンロード
- ひまわり のダウンロードページからプログラム本体をダウンロード
- ダウンロードしたファイルのセキュリティブロックを解除(右クリック→プロパティ→セキュリティブロックの解除)
- 解凍後、フォルダごとUSBメモリにコピー
- 青空文庫パッケージのダウンロード
- ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいので教室のPCにダウンロードできない)
- USBメモリにコピーしたフォルダ内のhimawari.exeを起動
- メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
- しばらく待つと完了(数分から10分程度はかかる)
- 要らなくなったファイルの削除
- PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する
「ひまわり」と近代語のコーパス
- 国語研究所コーパス開発センター 近代語のコーパス
- 『明六雑誌』『国民之友』はCHJ中納言に取り込み済み。『太陽』と「女性雑誌」はごく一部のみ。今年中に中納言で利用できるようになる。
検索結果の集計
生年代による集計(通時的変化)
- 文字列処理関数を利用する
- 例: =left(<文字列>,<文字数>)
- 生年代: =left(<生年月日が入っているセル>,3)*10
- 生年月日データの書式について
- 「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ必要がある
- 1900年以前の年月日は文字列、それ以降は日付として認識される
(実際の手順)
- Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
- Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
- Excelシートに貼り付ける(A1)
2016/06/17
レポートテーマについて
たとえば…
- 類義語の意味・用法の違い(共起語etc.による)
- 語形・表記揺れと要因(レジスター差・時代差等の検証 / 意味による使い分け)
調整頻度の計算(前回補足)
ランダムサンプリング調査
- 大量に用例があり、調査内容からすべて対象にできない場合(そもそも全数を調査することにこだわる必要はない)
- ランダムに並べ替え→先頭n例を調査対象にする
- ランダムな数字の列を用意
- 関数で乱数を生成 =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
重複の削除
- 用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合
- 例えば1つのサンプル中に繰り返し現れる一人称代名詞などは、出現した用例数よりもサンプル数を調べた方がよい
- 「データ」→「重複の削除」
関数の利用
- 集計用に用意した列で文字列処理関数を利用する
- LEFT,RIGHT,MID,LEN,SEARCH,SUBSTITUTE
- 応用例:品詞の大分類を使う
- =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
近代語をテーマとしたい人向け
2016/06/10
近代雑誌コーパスについて
日本語歴史コーパス「中納言」補足
調整頻度の計算
- 粗頻度を総語数で割る
- レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
- 調整頻度には100万語あたりの頻度が比較的よく使われる
- ※割合の違いを比較するだけなら調整頻度を出す必要はない。
レポートテーマについて
- レポートテーマについて全員に聞き、コメントします。テーマを考えておいてください。
2016/06/03
『日本語歴史コーパス』
- 平安時代編
- 鎌倉時代編Ⅰ説話・随筆
- 室町時代編Ⅰ狂言
- 明治・大正編Ⅰ雑誌
集計ためののテクニック
- 分類用の列を作って集計する
- 複数の検索結果をまとめる
- ショートカットキーを活用すると便利
- Ctrl+End ファイルの末尾/表のいちばん右下に移動
- Shift+Ctrl+End 〃範囲を選択
- 表をコピー
- Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
- コピーした表を既存の表の下に貼り付け
- Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home
2016/05/27
(復習)【重要】ピボットテーブルの使い方
テキストエディタとショートカットキー
- zipファイルの展開(解凍)について
- ダウンロードしたファイルのプロパティを見てセキュリティブロックを解除する
- 解凍しないままでも開けるが必ず解凍すること
2016/05/20
「中納言」の利用(つづき)
検索条件式の利用
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
「中納言」検索結果のダウンロードとExcelでの利用
- ダウンロード
- アーカイブの展開(解凍)
- Excelでインポート
Excelの基礎
【重要】ピボットテーブルの使い方
2016/05/13
形態論情報を利用した検索
UniDicによる形態素解析
2016/05/06
日本語コーパスの形態論情報
品詞体系と見出し語の階層
- BCCWJ,CHJはUniDicの品詞体系にもとづく
2016/04/29(祝日授業実施日)
日本語コーパスの紹介(2) コーパスの設計とサンプリング
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
参考リンク
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
日本語コーパスの形態論情報
2016/04/22
コーパス検索アプリケーション「中納言」の申込みについて(来週以降)
現代日本語書き言葉均衡コーパス(BCCWJ)とは
- BCCWJについて、まず最小限のことを説明します。
日本語コーパスの紹介(1)コーパスとはどんなものか
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
- この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
- 「コーパス」以前の日本語研究用データとの違いは
2016/04/16
イントロダクション
- デモ
- 「現代日本語書き言葉均衡コーパス(BCCWJ)」
- 「日本語歴史コーパス(CHJ)」
- Excelによる集計(ピボットテーブル)
- 形態素解析