#author("2019-06-25T04:31:58+00:00","default:ogiwiki","ogiwiki") #author("2019-06-26T01:53:47+00:00;2019-06-25T04:31:58+00:00","default:ogiwiki","ogiwiki") **Rを使ってみる [#a6570935] -[[R>https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E]]とは --Rのダウンロード https://cran.ism.ac.jp/bin/windows/base/ --R Studioもおすすめ((free版で十分)) https://www.rstudio.com/products/rstudio/download/ --参考:https://qiita.com/hujuu/items/ddd66ae8e6f3f989f2c0 ***練習用データの準備 [#vfc57b54] -中納言でBCCWJコアの語彙素「矢張り」を検索、語形別に集計 | |雑誌|書籍|新聞|ブログ|知恵袋|白書| |ヤッパ|1|2||9|4|| |ヤッパリ|20|12|1|30|23|| |ヤハリ|31|54|13|17|31|2| ***独立性の検定(χ二乗検定) [#v9c9fa37] -ブログと知恵袋で「やはり」「やっぱり」「やっぱ」の使われ方に有意な差はあるか data <- matrix(c( 9,4,30,23,17,31), ncol=2, byrow=T) chisq.test(data) 帰無仮説(H0):二つのレジスターと「やはり」類の使用には関連がない(独立である) 検定の結果、p<0.05であれば0.05(= 5%)水準でH0は棄却される =二つのレジスターに差がある(レジスターと「やはり」類使用に関連がないのに偶然こうなる可能性は5%以下) -参考:https://bellcurve.jp/statistics/course/9496.html ***クラスター分析 [#lceadb8d] --「やはり」「やっぱり」「やっぱ」の使用から見たレジスター間の距離(どのレジスター同士が似ているか) yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") yahari <- t(yahari) #行と列を入れ替え yahari.d<-dist(yahari) #距離の計算 yahari.d result <- hclust(yahari.d, method="ward.D") #word法でクラスター分析 plot(result,hang=-1) #デンドログラムを描く -参考:https://www1.doshisha.ac.jp/~mjin/R/Chap_28/28.html ***クロス集計表からのコレスポンデンス分析 [#pc585583] -「やはり」「やっぱり」「やっぱ」とレジスター yahari<-matrix(c( 1,2,0,9,4,0, 20,12,1,30,23,0, 31,54,13,17,31,2 ) ,3,6,byrow = T) colnames(yahari)<-c("雑誌","書籍","新聞","ブログ","知恵袋","白書") rownames(yahari)<-c("ヤッパ","ヤッパリ","ヤハリ") #MASSパッケージを読み込む library(MASS) (yahari.ca<-corresp(yahari,nf=3)) biplot(yahari.ca) #固有値 固有値<-yahari.ca$cor^2 round(固有値,3) #累積寄与率 round(100*固有値/sum(固有値),2) 参考リンク:[[Rと対応分析>https://www1.doshisha.ac.jp/~mjin/R/Chap_26/26.html]] 参考 -https://res.pesco.co.jp/analysis/statistics/corresponding/ -Rと対応分析 https://www1.doshisha.ac.jp/~mjin/R/Chap_26/26.html