東京外大2017/JapanStudies2 の履歴(No.9)

Public Function LogLikelihood(ByVal target As Long, comparison As Long, targetTotal As Long, comparisonTotal As Long) As Variant
    a = target
    b = comparison
    c = targetTotal - a
    d = comparisonTotal - b
       
    If a = 0 Then aloga = 0 Else aloga = a * Log(a)
    If b = 0 Then blogb = 0 Else blogb = b * Log(b)
    
    LogLikelihood = 2 * (aloga + blogb + c * Log(c) + d * Log(d) - (a + b) * Log(a + b) - (a + c) * Log(a + c) - (b + d) * Log(b + d) - (c + d) * Log(c + d) + (a + b + c + d) * Log(a + b + c + d))
    
    If target / targetTotal < comparison / comparisonTotal Then LogLikelihood = LogLikelihood * (-1)
   
End Function

ダウンロード LLR.xlsm

cf.『現代日本語書き言葉均衡コーパス』語彙表

↑

対応分析

多変量解析
- 対応分析＝コレスポンデンス分析

https://www.ic.nanzan-u.ac.jp/~urakami/pdf/RpdfW/v95_22w.pdf

https://www.macromill.com/service/data_analysis/d010.html

↑

クロス集計表からのコレスポンデンス分析

「やはり」「やっぱり」「やっぱ」とレジスター

yahari<-matrix(c(
1,2,0,9,4,0,
20,12,1,30,23,0,
31,54,13,17,31,2
)
,3,6,byrow = T)
colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書")
rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ")

#MASSパッケージを読み込む 
library(MASS)
(yahari.ca<-corresp(yahari,nf=3))
biplot(yahari.ca)

#固有値
固有値<-yahari.ca$cor^2　
round(固有値,3)
#累積寄与率
round(100*固有値/sum(固有値),2)

参考リンク：Ｒと対応分析

↑

データをファイルから読み込む

bccwjcore_adj_register.txt

↑右クリックしてファイルとしてデスクトップに保存

setwd("C:/Users/ユーザー名/Desktop")
x <- read.table("bccwjcore_adj_register.txt",
header=T, row.names=1, sep=",", fileEncoding="UTF-8")

#MASSパッケージを読み込む 
library(MASS)
(x.ca<-corresp(x, nf=6)) #nf=行と列の数の小さいほうの値からさらに１引いた値
biplot(x.ca)

自分でデータを作るときにはファイルの文字コード（fileEncoding）に注意！

コーパス研究での利用例：http://www.hino.meisei-u.ac.jp/is/oishi/Metaphor/JCLA12.pdf

↑

2017/10/26　テキストデータとエディタ

↑

テキストエディタと正規表現

初心者におすすめの正規表現に対応したテキストエディタ（フリー）
- Windows: Sakura Editor
  - http://sakura-editor.sourceforge.net/
- Mac: Mi
  - http://www.mimikaki.net/

↑

授業用サクラエディタのダウンロード

サクラエディタ（正規表現ライブラリ同梱）　sakura2.zip

サンプルテキスト　soseki2.zip

↑

テキストエディタの基礎

検索・置換、grep
- 検索で初出行を調べる
- 置換で用例数を数える
- grepで用例リストを作る
- タグジャンプで文脈を確認する
- サブフォルダのgrep

授業資料/覚えておきたいショートカットキー

↑

正規表現

正規表現　＞用語
- 文字を表すための特殊な文字（メタ文字）を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる　（エディタ以外にもさまざまなアプリケ－ションやコンピュータ言語で利用されている）
- 特殊な文字（メタ文字）はすべて半角

授業資料/正規表現

↑

正規表現に関する参考資料†

サクラエディタの正規表現：http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本　amazonで検索

#amazon(4873114500) #amazon(4873113598)

↑

2017/10/19　Rを使ってみる（2）

Rの使い方全般に関する参考資料：[連載]フリーソフトによるデータ解析・マイニング (同志社大・金明哲先生)

↑

発表順

↑

前回までの復習

クラスター分析

↑

2017/10/12　（前期の復習）中納言による検索と集計／ Rを使ってみる

↑

（前期の復習）中納言による検索と集計

前期東京外大2017/JapanStudies1 の復習
- BCCWJの形態論情報
- 「中納言」の検索方法
- ピボットテーブルによる検索結果の集計

↑

Rを使ってみる

Rとは
- Rのダウンロード https://cran.ism.ac.jp/bin/windows/base/

中納言でBCCWJコアの語彙素「矢張り」を検索、語形別に集計

	雑誌	書籍	新聞	ブログ	知恵袋	白書
ヤッパ	1	2		9	4
ヤッパリ	20	12	1	30	23
ヤハリ	31	54	13	17	31	2

↑

独立性の検定(χ二乗検定)

ブログと知恵袋で「やはり」「やっぱり」「やっぱ」の使われ方に差はあるか

data <- matrix(c( 9,4,30,23,17,31), ncol=2, byrow=T)

chisq.test(data)

帰無仮説（H0）：二つのレジスターで「やはり」類の使用頻度には差がない

検定の結果、p<0.05であれば0.05(= 5%)水準でH0は棄却される＝二つのレジスターで差がある（レジスターと関係がないのに偶然こうなる可能性は5%以下）

参考： http://d.hatena.ne.jp/himaginary/20170829/Redefine_Statistical_Significance

↑

クラスター分析

参考：https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering

「やはり」「やっぱり」「やっぱ」の使用から見たレジスター間の距離（どのレジスター同士が似ているか）

yahari<-matrix(c(
1,2,0,9,4,0,
20,12,1,30,23,0,
31,54,13,17,31,2
)
,3,6,byrow = T)
colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書")
rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ")

yahari <- t(yahari) #行と列を入れ替え
yahari.d<-dist(yahari) #距離の計算
yahari.d

result <- hclust(yahari.d, method="ward.D") #word法でクラスター分析
plot(result,hang=-1) #デンドログラムを描く

参考：http://mjin.doshisha.ac.jp/R/Chap_28/28.html

#amazon(4274065707)

↑

2017/10/05　イントロダクション

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 http://www.ninjal.ac.jp/
コーパス
ツール

↑

シラバスより

講義・演習の別: 演習
授業の目標: 日本語コーパスを研究に利用することができるようになるためのやや高度な知識と技術を身につける。
授業の概要: 日本語コーパスを活用するための技術、統計的指標や手法について講義する。参加者は実際にコーパスとこれらの技術を利用した調査研究と発表を行う。
授業の計画: 実際にコーパスを利用する演習発表をとおして、コロケーションや特徴語抽出のための指標、クラスタリングや主成分分析などの統計的手法、関係データベースを利用したデータの処理、ミニコーパスを自作する方法など、コーパスを研究に活用するための方法について学ぶ。最初に講義形式でコーパスの利用法を説明した後は、毎回参加者による演習発表形式で授業を行う。
成績の評価: 授業態度・期末レポート等を総合して評価する。
事前学習等: 担当教員の前期の授業（Japan Studies １）を履修するなどして日本語コーパスの基本的な利用方法を身につけておくこと。

東京外大2017/JapanStudies2 の履歴(No.9)

Japan Studies 2：コーパス日本語学入門

2017/11/16 発表 第2回

VLOOKUP関数

コロケーション強度

（ミニコーパス作成に向けて）

ジップ（Zipf）の法則

特徴語抽出

2017/11/9 発表 第1回

2017/11/2 対応分析（コレスポンデンス分析）

前回補足・タグつき正規表現

対応分析

クロス集計表からのコレスポンデンス分析

データをファイルから読み込む

2017/10/26 テキストデータとエディタ

テキストエディタと正規表現

授業用サクラエディタのダウンロード

テキストエディタの基礎

正規表現

正規表現に関する参考資料†

2017/10/19 Rを使ってみる（2）

発表順

前回までの復習

2017/10/12 （前期の復習）中納言による検索と集計 ／ Rを使ってみる

（前期の復習）中納言による検索と集計

Rを使ってみる

独立性の検定(χ二乗検定)

クラスター分析

2017/10/05 イントロダクション

シラバスより

2017/11/16　発表第2回

2017/11/9　発表第1回

2017/11/2　対応分析（コレスポンデンス分析）

2017/10/26　テキストデータとエディタ

2017/10/19　Rを使ってみる（2）

2017/10/12　（前期の復習）中納言による検索と集計／ Rを使ってみる

2017/10/05　イントロダクション