授業資料/コロケーション強度
をテンプレートにして作成
開始行:
**コロケーション強度 [#q37ee645]
共起する語(AとB)の結びつきの強さについて評価するとき、単...
-もともと頻度が高いもの同士が共起することが多いのは当たり...
AとBのそれぞれの頻度(やコーパスのサイズ)も考慮して、本...
***いろいろな指標 [#l1eaa24f]
コロケーション強度をはかるスコアには様々なものがあり、そ...
-ダイス係数
--=2×(A&Bの用例数/(Aの用例数+Bの用例数))
---=2*B5/(C$2+C5)
---(参考リンク)[[集合の類似度(Jaccard係数,Dice係数,Si...
-Tスコア
--=(A&Bの用例数 - (Aの用例数×Bの用例数/コーパスの総語...
---=(B5-(C$2*C5/C$1))/SQRT(B5)
-MIスコア([[相互情報量>https://ja.wikipedia.org/wiki/%E7...
--=log[2] (A&Bの用例数×コーパスの総語数)/(Aの用例数×Bの...
---=LOG((B5*C$1)/(C$2*C5),2)
※コーパスサイズを考慮に入れないダイス係数は、異なるコーパ...
(例)
-例:「玉葱」と共起する(3語以内)動詞の場合
--A&B= 「玉葱&炒める」の用例数:46
--A=「炒める」の用例数:2069
--B=「玉葱」の用例数:2087
--ダイス係数=2*(46/(2069+2087))=0.0221
-[[サンプルデータ collocation_sample.xlsx>https://www.dro...
***それぞれの数値の調べ方 [#m2a4363c]
※用例数だけがわかればいいが、「中納言」は用例を取得するた...
-コーパスの語彙表を使えばよい(中納言での検索は不要)
-語彙表をVLOOKUPで検索して頻度を持ってくるようにすると便...
-たくさんの語を中納言で一度に検索するために、自分で作った...
終了行:
**コロケーション強度 [#q37ee645]
共起する語(AとB)の結びつきの強さについて評価するとき、単...
-もともと頻度が高いもの同士が共起することが多いのは当たり...
AとBのそれぞれの頻度(やコーパスのサイズ)も考慮して、本...
***いろいろな指標 [#l1eaa24f]
コロケーション強度をはかるスコアには様々なものがあり、そ...
-ダイス係数
--=2×(A&Bの用例数/(Aの用例数+Bの用例数))
---=2*B5/(C$2+C5)
---(参考リンク)[[集合の類似度(Jaccard係数,Dice係数,Si...
-Tスコア
--=(A&Bの用例数 - (Aの用例数×Bの用例数/コーパスの総語...
---=(B5-(C$2*C5/C$1))/SQRT(B5)
-MIスコア([[相互情報量>https://ja.wikipedia.org/wiki/%E7...
--=log[2] (A&Bの用例数×コーパスの総語数)/(Aの用例数×Bの...
---=LOG((B5*C$1)/(C$2*C5),2)
※コーパスサイズを考慮に入れないダイス係数は、異なるコーパ...
(例)
-例:「玉葱」と共起する(3語以内)動詞の場合
--A&B= 「玉葱&炒める」の用例数:46
--A=「炒める」の用例数:2069
--B=「玉葱」の用例数:2087
--ダイス係数=2*(46/(2069+2087))=0.0221
-[[サンプルデータ collocation_sample.xlsx>https://www.dro...
***それぞれの数値の調べ方 [#m2a4363c]
※用例数だけがわかればいいが、「中納言」は用例を取得するた...
-コーパスの語彙表を使えばよい(中納言での検索は不要)
-語彙表をVLOOKUPで検索して頻度を持ってくるようにすると便...
-たくさんの語を中納言で一度に検索するために、自分で作った...
ページ名: