コロケーション強度の話
- 共起する語(AとB)を評価するとき、単純な用例数だけでは危険
- もともと頻度が高いもの同士が共起することが多いのが当たり前だから
- AとBの頻度(やコーパスのサイズ)も考慮して、本当に共起しやすいのかを図る指標が必要
コロケーション強度をはかるスコアには様々なものがあり、それぞれに特徴がある
- ダイス係数
- =2×(ABの用例数/(Aの用例数+Bの用例数))
- tスコア
- =(ABの用例数 - (Aの用例数×Bの用例数/コーパスの総語数))/√ABの用例数
- =B5-(C$2*C5/C$1)/SQRT(B5)
- MIスコア(相互情報量)
- =log[2] (ABの用例数×コーパスの総語数)/(Aの用例数×Bの用例数)
- =LOG((B5*C$1)/(C$2*C5),2)
(例)
- 例:「玉葱」と共起する(3語以内)動詞の場合
- AB= 「玉葱」~「炒める」の用例数:46
- A=「炒める」の用例数:2069
- B=「玉葱」の用例数:2087
- ダイス係数=2*(46/(2069+2087))=0.0221
それぞれの数値の調べ方
- ※用例数を求めるだけでいいが、「中納言」は用例を取得するためのツールであるため、複数の語の用例数を求めるのに手間がかかる
- 「コーパスの総語数」は「語数について」のページを参照