- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2020-10-15T14:35:00+00:00","default:ogiwiki","ogiwiki")
#author("2020-10-19T06:12:04+00:00","default:ogiwiki","ogiwiki")
[[成蹊2020]]
-今年度はZoomを使ったオンライン授業です。成蹊ポータルにログイン後、下記にアクセスしてZoomのアドレスを確認してください。
--https://lms.seikei.ac.jp/lms/lginLgir/index?target=JKjMssFH
-[[「中納言」ログインページ>https://chunagon.ninjal.ac.jp/]]
**2020/10/23 [#rae00310]
***『中納言』の使い方 [#x73a0464]
-[[配布資料「『中納言』の使い方」>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]つづき
***「中納言」検索結果のダウンロードとExcelでの利用 [#m04a71cb]
+ダウンロード
+アーカイブの展開(解凍)
+Excelでインポート
***Excelの基礎 [#t5ba152a]
-並べ替え
--反転前文脈の使い方
-フィルタ
--テキストフィルタ
***【重要】ピボットテーブルの使い方 [#d0a7589d]
-ピボットテーブル
-ピボットグラフ
**2020/10/16 [#h1f3d9c9]
***『中納言』の使い方 [#x73a0464]
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]
-3.3. 検索語の条件指定から
***検索条件式の利用 [#wa3409db]
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
**2020/10/09 [#g6d16bf7]
***コーパスの形態論情報:短単位と長単位 [#b5f24d62]
-コーパスの形態論情報
--https://pj.ninjal.ac.jp/corpus_center/bccwj/morphology.html
-短単位と長単位
--動画:コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU
--スライド:[[短単位と長単位>https://lms.seikei.ac.jp/lms/lginLgir/index?target=YcyaU5pO]] 参照
--資料:[[短単位と長単位・サンプル>https://lms.seikei.ac.jp/lms/lginLgir/index?target=GrR9HnqA]] 参照
***品詞体系と見出し語の階層 [#ye514197]
-BCCWJ,CHJはUniDicの品詞体系にもとづく
-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]
***コーパスへの形態論情報の付与 [#sfd1b3f3]
-短単位:解析器[[MeCab>https://taku910.github.io/mecab/]]と辞書[[UniDic>https://unidic.ninjal.ac.jp/]]を使った形態素解析で情報付与
-長単位:解析器[[Comainu>https://ja.osdn.net/projects/comainu/]](など)で短単位を組み上げる
***(参考)Web茶まめ [#va79aa8a]
-https://chamame.ninjal.ac.jp/
***『中納言』の使い方 [#x73a0464]
(来週以降も使います)
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]
**2020/10/02 [#wce15634]
***日本語コーパス(BCCWJ)の紹介 [#n1daa0f2]
-コーパスとはどんなものか
:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
-この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」
***「中納言」オンライン利用申込みについて [#l78f3553]
-半年だけ使える「授業アカウント」を用意してありますが、今後も利用する場合は個人で申し込んで下さい。
-https://chunagon.ninjal.ac.jp/useraccount/register
-[[BCCWJ少納言>http://www.kotonoha.gr.jp/shonagon/]]
--登録不要
--文字列検索のみ
--500例まで表示
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp]]
--要登録
--形態論情報を使った検索
--全件(一度に最大10万例まで)ダウンロード可
***日本語コーパス(BCCWJ)の設計 [#ga647ad2]
-''(スライド参照)'' コーパスの設計とサンプリング
//--Seikei Portalの「授業資料」参照
-均衡コーパス(Balanced corpus)
--「バランスがとれている」「代表性」とは?
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
***参考リンク [#r23eafb6]
-英語のコーパス リファレンス
--[[ブラウンコーパス マニュアル>http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM]]
http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/
-現代日本語書き言葉均衡コーパス(BCCWJ)
--[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html]]
--[[現代日本語書き言葉均衡コーパス:サンプリング>http://pj.ninjal.ac.jp/corpus_center/bccwj/sampling.html]]
**2020/09/25 &color(red,){''休講''}; [#v7178f18]
-都合により休講とします。CoursePowerの課題に回答してください。
**2020/09/18 [#g00f5890]
-【重要】来週休講
***イントロダクション [#a2711c5f]
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 https://www.ninjal.ac.jp/
-コーパスとは
--[[国立国語研究所コーパス開発センター>https://pj.ninjal.ac.jp/corpus_center/]] https://pj.ninjal.ac.jp/corpus_center/
-国語研オープンハウス2020
--https://www2.ninjal.ac.jp/openhouse2020/
---動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E
-デモ
--[[「現代日本語書き言葉均衡コーパス(BCCWJ)」>https://pj.ninjal.ac.jp/corpus_center/bccwj/]]
---BCCWJ[[少納言>https://shonagon,ninjal.ac.jp/]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--[[「日本語歴史コーパス(CHJ)」>https://pj.ninjal.ac.jp/corpus_center/chj/]]
--Excelによる集計(ピボットテーブル)
--形態素解析
---[[Web茶まめ>https://chamame.ninjal.ac.jp]]
-シラバス確認
--[[シラバス>https://portal.seikei.ac.jp/campusweb/slbssbdr.do?risyunen=2020&semekikn=1&kougicd=125232450]]
--この授業の目的
--授業の進め方
--評価方法
--アンケート