東京外大2016/JapanStudies1 の履歴(No.24)

ダイス係数
- ＝2×（ABの用例数／（Aの用例数＋Bの用例数））　
  - =2*B5/(C$2+C5)
tスコア
- ＝（ABの用例数 - （Aの用例数×Bの用例数／コーパスの総語数））／√ABの用例数
  - =B5-(C$2*C5/C$1)/SQRT(B5)
MIスコア（相互情報量）
- ＝log[2] (ABの用例数×コーパスの総語数)／(Aの用例数×Bの用例数)
  - =LOG((B5*C$1)/(C$2*C5),2)

（例）

例：「玉葱」と共起する（3語以内）動詞の場合
- AB＝「玉葱」～「炒める」の用例数：46
- A＝「炒める」の用例数：2069
- B＝「玉葱」の用例数：2087
- ダイス係数=2*(46/(2069+2087))=0.0221

サンプルデータ collocation.xlsx

それぞれの数値の調べ方

※用例数を求めるだけでいいが、「中納言」は用例を取得するためのツールであるため、複数の語の用例数を求めるのに手間がかかる
- BCCWJの語彙表を使えば個々の語の検索は不要 http://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html
- 検索する場合は、語彙リストをエディタで整形し、検索条件式で一括検索する方法もある
「コーパスの総語数」は「語数について」のページを参照

【参考資料】助動詞と上接動詞のコロケーション

↑

2016/06/16

↑

調整頻度の計算

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」からExcelでダウンロードできる
  - 語数ファイルをピボットテーブルで集計して分母に

調整頻度には100万語あたりの頻度が比較的よく使われる
- 粗頻度/総語数*1000000
  - 数字が小さくなりすぎないようにするため

※割合の違いを比較するだけなら調整頻度を出す必要はない。

↑

ランダムサンプリング調査

大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列： =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

↑

重複の削除

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

「データ」→「重複の削除」

↑

vlookupの使い方

vlookup関数

↑

レポートテーマについて

来週、レポートテーマについて全員に聞き、コメントします。テーマを考えておいてください。

↑

2016/06/09

（配布資料）「中納言」検索課題

↑

テキストエディタと正規表現の応用

前後文脈を整える
インラインタグを活用する

↑

Excelの文字列関数とIF関数

例：ジャンル（NDC）の整理
- 先頭の文字を取り出す（NDCの一次区分（＝類））
  - =LEFT(<ジャンルのセル>,1)
- スラッシュで区切られた最初の部分（ジャンルの大分類）
  - =LEFT(<ジャンルのセル>,SEARCH("/",<ジャンルのセル>)-1)

集計用に用意した列で文字列処理関数を利用する
- LEFT
- RIGHT
- MID
- LEN
- SEARCH
- SUBSTITUTE

条件わけ：IF

エラー対応：IFERROR

応用例：品詞の大分類を使う
- =IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)

↑

BCCWJ利用の落とし穴

BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
  - レジスターの偏りを年代の偏りと勘違いしないこと
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ

もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
- cf.人口あたりの事故件数，１平方キロあたりの…etc.

データ：語彙素「矢張り」　kwic-yahari.zip

↑

2016/06/02

↑

「中納言」検索結果のダウンロードとExcelでの利用

ダウンロード
アーカイブの展開（解凍）
Excelでインポート

↑

Excelの基礎

並べ替え
- 反転前文脈の使い方
フィルタ
- テキストフィルタ

↑

【重要】ピボットテーブルの使い方

ピボットテーブル
ピボットグラフ

↑

複数の検索結果の結合

例：蒲公英・向日葵・菫

ショートカットキーを活用すると便利

Ctrl+End　ファイルの末尾/表のいちばん右下に移動
Shift+Ctrl+End　〃範囲を選択

表をコピー
- Ctrl+Home, ↓（列名はコピーしないようにする）,Shift+Ctrl+End, Ctrl+C
コピーした表を既存の表の下に貼り付け
- Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

↑

集計用の列を自分で用意する

例：表記（ひらがな・かたかな・漢字）別集計
例：用法分類

↑

質問対応

自分の研究テーマのための検索方法の相談

↑

2016/05/26

資料「中納言の使い方」参照

↑

(復習)形態論情報を使った検索

↑

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

↑

2016/05/19

↑

短単位と長単位

配布資料参照

↑

品詞体系と見出し語の階層

BCCWJ,CHJはUniDicの品詞体系にもとづく

↑

形態論情報を使った検索

資料「中納言の使い方」参照

検索例
- 「時の経つにつれて」
- 名詞+の+動詞連体形+につれて

↑

2016/05/12

↑

コーパスの段階

電子テキスト：grep：文字列（正規表現）検索
構造化テキスト：ひまわり、少納言など：文字列（正規表現）検索
形態論情報付きコーパス：中納言、ChaKi など：形態論情報による検索（タグ検索）

↑

コーパスの設計とサンプリング

（スライド参照）
- コーパスの設計とサンプリング

均衡コーパス（Balanced corpus）
- 「バランスがとれている」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
著作権をめぐる問題

↑

「少納言」で正規表現を使う

「現代日本語書き言葉均衡コーパス（BCCWJ）」
- 少納言
  - 前後文脈の指定について

↑

BCCWJ「中納言」登録申請

ユーザー登録の申請（new!）　https://chunagon.ninjal.ac.jp/useraccount/register

↑

2016/04/28

復習
- サンプルデータsoseki2.zip （前回と同じ）
- 文字クラス、grep

↑

正規表現のいろいろ†

授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定（補集合）[^ ]
- 繰り返し ? + *
- グループ化 ()
- or（論理和） |
- 文頭 ^、文末 $

↑

正規表現の応用†

カタカナ語
- カタカナ（外来語）の形容動詞語幹
送りがなの揺れ（行う／行なう）
会話文中（"「"で始まる文中）の用例を検索する
同一文中での共起
- 全然～ない。
- もし～なら（ば）

↑

grepと置換でKWIC(CSVファイル)を作る（簡易版）†

CSVファイルとは：テキストファイルで表を表現する用語：CSVファイル
KWIC：KeyWord In Context

↑

タグ付き正規表現

走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
  - 検索文字列：走[らりるれろっ]
  - 置換文字列：★走[らりるれろっ]
タグ付き正規表現・カッコ（半角丸カッコ）と\1（\2，\3…）を使う
授業資料/タグつき正規表現

↑

検索文字列の中での後方参照†

検索語の中で\1を使う
- (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ

↑

最長一致の原則（greedy matching）†

正規表現は、パターンが一致する最も長い範囲にマッチする
- 例：あ+ → 【\1】
  - ああああああああ →　【ああああああああ】そのせいで…
- 例：「(.+)」 → 【\1】
  - 「こんにちは」「さようなら」 →　【こんにちは」「さようなら】
- 括弧の組ごとに置換するためには「([^」]+)」 → 【\1】　のように書かなければならない
  - 「こんにちは」「さようなら」 →　【こんにちは】【さようなら】
よりかんたんに指定するには（最短一致，ものぐさ指定）
- 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける

↑

正規表現に関する参考資料†

サクラエディタの正規表現：http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本　amazonで検索

#amazon(4873114500) #amazon(4873113598)

↑

2016/04/21

今回からUSBメモリを使います。

↑

テキストエディタ

テキストデータ（青空文庫）の配布
- soseki2.zip （今日の授業で使います）
- aozoradoc2.zip（青空文庫全テキスト・参考）
- ダウンロードしてUSBメモリに展開（解凍）してください

検索・置換、grep
- 検索で初出行を調べる
- 置換で用例数を数える
- grepで用例リストを作る
- タグジャンプで文脈を確認する
- サブフォルダのgrep

↑

ショートカットキー†

授業資料/覚えておきたいショートカットキー

↑

正規表現を使ってみる†

文字クラス
- 例：読[まみむめもん]
  - 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

↑

正規表現とは†

正規表現　＞用語
- 文字を表すための特殊な文字（メタ文字）を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる　（エディタ以外にもさまざまなアプリケ－ションやコンピュータ言語で利用されている）
- 記号はすべて半角
- 記号そのものを表す場合には\でエスケープする（特殊な意味を打ち消す）　例：1\+2