- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2020-11-06T03:24:33+00:00","default:ogiwiki","ogiwiki")
#author("2020-11-12T07:13:28+00:00","default:ogiwiki","ogiwiki")
[[成蹊2020]]
-今年度はZoomを使ったオンライン授業です。成蹊ポータルにログイン後、下記にアクセスしてZoomのアドレスを確認してください。
--https://lms.seikei.ac.jp/lms/lginLgir/index?target=JKjMssFH
-[[「中納言」ログインページ>https://chunagon.ninjal.ac.jp/]]
**2020/11/13 [#db44b6da]
***中納言によるさまざまな検索 [#uc34c87a]
-『日本語歴史コーパス』「中納言」の講習会について(参加は任意)
--[[11月14日(土) 13:00~17:00 「通時コーパス」プロジェクト講習会>https://www.ninjal.ac.jp/event/specialists/project-meeting/m-2020/20201114/]]
---申し込み:https://zoom.us/meeting/register/tJIuf-6urD4oGtVqbWjhMCAyiispvagHftYa
--[[11月28日(土) 13:00~17:00 NINJALチュートリアル>https://www.ninjal.ac.jp/event/specialists/tutorial/ninjal-t038/]](学生におすすめ)
---申し込み:https://zoom.us/meeting/register/tJUtdeivrjsvE9RlY8isTtXCnm66YDdEcGqh
***中納言によるさまざまな検索(つづき) [#uc34c87a]
-[[中納言検索課題(「中納言による検索」)>https://lms.seikei.ac.jp/lms/lginLgir/index?target=E2AK89wI]]課題3から
***複数の検索結果の結合(復習) [#jca41947]
-動物名でやってみる
***ランダムサンプリング調査 [#j4516bb3]
-大量に用例があり、調査内容からすべて対象にできない場合
-ランダムに並べ替え→先頭n例を調査対象に
--ランダムな数字の列: =RAND()
--ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
-ex.「全然」
***BCCWJ利用の落とし穴 [#le968f3e]
-BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
--レジスターによって母集団の年が違っている
---レジスターの偏りを年代の偏りと勘違いしないこと
--30年あるのは白書・ベストセラー・国会会議録など一部のものだけ
-もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
--cf.人口あたりの事故件数,1平方キロあたりの…etc.
-レジスターごとの語数の確認
--「中納言」右上の「語数について」→「短単位語数表」
--https://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu-suw.html
***調整頻度の計算 [#v1c12e52]
-粗頻度を総語数で割る
--レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
---語数ファイルをピボットテーブルで集計して分母に
-調整頻度には100万語あたりの頻度(pmw)が比較的よく使われる
--粗頻度/コーパス総語数*1000000
---数字が小さくなりすぎないようにするため
-※割合の違いを比較するだけなら調整頻度を出す必要はない。
**レポートテーマについて [#e570c779]
-そろそろレポートテーマについて考えましょう
**2020/11/06 [#k64adf2c]
***検索結果のピボットテーブルによる集計(復習) [#v2d53052]
***複数の検索結果の結合 [#l9b3620b]
-例:蒲公英・向日葵・菫
[[ショートカットキー>授業資料/覚えておきたいショートカットキー]]を活用すると便利
-Ctrl+End ファイルの末尾/表のいちばん右下に移動
-Shift+Ctrl+End 〃範囲を選択
+表をコピー
--Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
+コピーした表を既存の表の下に貼り付け
--Ctrl+↓, ↓, Ctrl+V, Ctrl+Home
***集計用の列を自分で用意する [#ccae4a87]
-例:表記(ひらがな・かたかな・漢字)別集計
-例:用法分類
***中納言によるさまざまな検索 [#uc34c87a]
-[[中納言検索課題(「中納言による検索」)>https://lms.seikei.ac.jp/lms/lginLgir/index?target=E2AK89wI]] (CoursePowerの授業配布資料庫フォルダ内)
--レポートテーマ選びの参考にもしてください
***提出課題 [#o959c81b]
-[[20201106_中納言の検索とピボットテーブルの作成>https://lms.seikei.ac.jp/lms/lginLgir/index?target=hJLRczdT]]
--CoursePowerで期限(11/13)までに提出すること。
**2020/10/30 [#rae00310]
***『中納言』の使い方 [#x73a0464]
-[[配布資料「『中納言』の使い方」>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]つづき
***「中納言」検索結果のダウンロードとExcelでの利用 [#m04a71cb]
+ダウンロード
+アーカイブの展開(解凍):複数の検索条件式で検索・ダウンロードしたときのみ
+Excelでインポート:ファイルをダブルクリックすれば開かれる
***Excelの基礎 [#t5ba152a]
-並べ替え
--反転前文脈の使い方
-フィルタ
--テキストフィルタ
***【重要】ピボットテーブルの使い方 [#d0a7589d]
-ピボットテーブル
-ピボットグラフ
**2020/10/23【四大戦のため休み】 [#u60a4b72]
-※四大学運動競技大会や欅祭が中止になる場合も、その期間は授業を実施しません。
**2020/10/16 [#h1f3d9c9]
***『中納言』の使い方 [#x73a0464]
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]
-3.3. 検索語の条件指定から
***検索条件式の利用 [#wa3409db]
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
**2020/10/09 [#g6d16bf7]
***コーパスの形態論情報:短単位と長単位 [#b5f24d62]
-コーパスの形態論情報
--https://pj.ninjal.ac.jp/corpus_center/bccwj/morphology.html
-短単位と長単位
--動画:コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU
--スライド:[[短単位と長単位>https://lms.seikei.ac.jp/lms/lginLgir/index?target=YcyaU5pO]] 参照
--資料:[[短単位と長単位・サンプル>https://lms.seikei.ac.jp/lms/lginLgir/index?target=GrR9HnqA]] 参照
***品詞体系と見出し語の階層 [#ye514197]
-BCCWJ,CHJはUniDicの品詞体系にもとづく
-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]
***コーパスへの形態論情報の付与 [#sfd1b3f3]
-短単位:解析器[[MeCab>https://taku910.github.io/mecab/]]と辞書[[UniDic>https://unidic.ninjal.ac.jp/]]を使った形態素解析で情報付与
-長単位:解析器[[Comainu>https://ja.osdn.net/projects/comainu/]](など)で短単位を組み上げる
***(参考)Web茶まめ [#va79aa8a]
-https://chamame.ninjal.ac.jp/
***『中納言』の使い方 [#x73a0464]
(来週以降も使います)
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]
**2020/10/02 [#wce15634]
***日本語コーパス(BCCWJ)の紹介 [#n1daa0f2]
-コーパスとはどんなものか
:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
-この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」
***「中納言」オンライン利用申込みについて [#l78f3553]
-半年だけ使える「授業アカウント」を用意してありますが、今後も利用する場合は個人で申し込んで下さい。
-https://chunagon.ninjal.ac.jp/useraccount/register
-[[BCCWJ少納言>http://www.kotonoha.gr.jp/shonagon/]]
--登録不要
--文字列検索のみ
--500例まで表示
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp]]
--要登録
--形態論情報を使った検索
--全件(一度に最大10万例まで)ダウンロード可
***日本語コーパス(BCCWJ)の設計 [#ga647ad2]
-''(スライド参照)'' コーパスの設計とサンプリング
//--Seikei Portalの「授業資料」参照
-均衡コーパス(Balanced corpus)
--「バランスがとれている」「代表性」とは?
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
***参考リンク [#r23eafb6]
-英語のコーパス リファレンス
--[[ブラウンコーパス マニュアル>http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM]]
http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/
-現代日本語書き言葉均衡コーパス(BCCWJ)
--[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html]]
--[[現代日本語書き言葉均衡コーパス:サンプリング>http://pj.ninjal.ac.jp/corpus_center/bccwj/sampling.html]]
**2020/09/25 &color(red,){''休講''}; [#v7178f18]
-都合により休講とします。CoursePowerの課題に回答してください。
**2020/09/18 [#g00f5890]
-【重要】来週休講
***イントロダクション [#a2711c5f]
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 https://www.ninjal.ac.jp/
-コーパスとは
--[[国立国語研究所コーパス開発センター>https://pj.ninjal.ac.jp/corpus_center/]] https://pj.ninjal.ac.jp/corpus_center/
-国語研オープンハウス2020
--https://www2.ninjal.ac.jp/openhouse2020/
---動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E
-デモ
--[[「現代日本語書き言葉均衡コーパス(BCCWJ)」>https://pj.ninjal.ac.jp/corpus_center/bccwj/]]
---BCCWJ[[少納言>https://shonagon,ninjal.ac.jp/]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--[[「日本語歴史コーパス(CHJ)」>https://pj.ninjal.ac.jp/corpus_center/chj/]]
--Excelによる集計(ピボットテーブル)
--形態素解析
---[[Web茶まめ>https://chamame.ninjal.ac.jp]]
-シラバス確認
--[[シラバス>https://portal.seikei.ac.jp/campusweb/slbssbdr.do?risyunen=2020&semekikn=1&kougicd=125232450]]
--この授業の目的
--授業の進め方
--評価方法
--アンケート