コロケーション強度
共起する語(AとB)について評価するとき、単純な用例数だけでは危険
- もともと頻度が高いもの同士が共起することが多いのは当たり前だから
AとBのそれぞれの頻度(やコーパスのサイズ)も考慮して、本当に共起しやすいのかを図る指標が必要
いろいろな指標
コロケーション強度をはかるスコアには様々なものがあり、それぞれに特徴がある(AとBが共起するものをA&Bで示す)
- ダイス係数
- =2×(A&Bの用例数/(Aの用例数+Bの用例数))
- tスコア
- =(A&Bの用例数 - (Aの用例数×Bの用例数/コーパスの総語数))/√A&Bの用例数
- =B5-(C$2*C5/C$1)/SQRT(B5)
- MIスコア(相互情報量)
- =log[2] (A&Bの用例数×コーパスの総語数)/(Aの用例数×Bの用例数)
- =LOG((B5*C$1)/(C$2*C5),2)
- コーパスサイズを考慮に入れないダイス係数は、異なるコーパス間で各々の値を比較できないことに注意
(例)
- 例:「玉葱」と共起する(3語以内)動詞の場合
- AB= 「玉葱~炒める」の用例数:46
- A=「炒める」の用例数:2069
- B=「玉葱」の用例数:2087
- ダイス係数=2*(46/(2069+2087))=0.0221
それぞれの数値の調べ方
※用例数だけがわかればいいが、「中納言」は用例を取得するためのツールであるため、複数の語の用例数を求めるのに手間がかかる
- たくさんの語を中納言で一度に検索するために、自分で作った語彙リストをエディタで整形し、検索条件式で一括検索する方法もある