#author("2020-10-23T01:45:53+00:00","default:ogiwiki","ogiwiki") [[成蹊2020]] -今年度はZoomを使ったオンライン授業です。成蹊ポータルにログイン後、下記にアクセスしてZoomのアドレスを確認してください。 --https://lms.seikei.ac.jp/lms/lginLgir/index?target=JKjMssFH -[[「中納言」ログインページ>https://chunagon.ninjal.ac.jp/]] **2020/10/30 [#rae00310] ***『中納言』の使い方 [#x73a0464] -[[配布資料「『中納言』の使い方」>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]つづき ***「中納言」検索結果のダウンロードとExcelでの利用 [#m04a71cb] +ダウンロード +アーカイブの展開(解凍) +Excelでインポート ***Excelの基礎 [#t5ba152a] -並べ替え --反転前文脈の使い方 -フィルタ --テキストフィルタ ***【重要】ピボットテーブルの使い方 [#d0a7589d] -ピボットテーブル -ピボットグラフ **2020/10/23【四大戦のため休み】 [#u60a4b72] -※四大学運動競技大会や欅祭が中止になる場合も、その期間は授業を実施しません。 **2020/10/16 [#h1f3d9c9] ***『中納言』の使い方 [#x73a0464] -配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]] -3.3. 検索語の条件指定から ***検索条件式の利用 [#wa3409db] キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%") AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF" **2020/10/09 [#g6d16bf7] ***コーパスの形態論情報:短単位と長単位 [#b5f24d62] -コーパスの形態論情報 --https://pj.ninjal.ac.jp/corpus_center/bccwj/morphology.html -短単位と長単位 --動画:コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU --スライド:[[短単位と長単位>https://lms.seikei.ac.jp/lms/lginLgir/index?target=YcyaU5pO]] 参照 --資料:[[短単位と長単位・サンプル>https://lms.seikei.ac.jp/lms/lginLgir/index?target=GrR9HnqA]] 参照 ***品詞体系と見出し語の階層 [#ye514197] -BCCWJ,CHJはUniDicの品詞体系にもとづく -[[授業資料/UniDicの品詞体系]] -[[授業資料/UniDicの見出し語階層]] ***コーパスへの形態論情報の付与 [#sfd1b3f3] -短単位:解析器[[MeCab>https://taku910.github.io/mecab/]]と辞書[[UniDic>https://unidic.ninjal.ac.jp/]]を使った形態素解析で情報付与 -長単位:解析器[[Comainu>https://ja.osdn.net/projects/comainu/]](など)で短単位を組み上げる ***(参考)Web茶まめ [#va79aa8a] -https://chamame.ninjal.ac.jp/ ***『中納言』の使い方 [#x73a0464] (来週以降も使います) -配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]] **2020/10/02 [#wce15634] ***日本語コーパス(BCCWJ)の紹介 [#n1daa0f2] -コーパスとはどんなものか :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 -この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」 ***「中納言」オンライン利用申込みについて [#l78f3553] -半年だけ使える「授業アカウント」を用意してありますが、今後も利用する場合は個人で申し込んで下さい。 -https://chunagon.ninjal.ac.jp/useraccount/register -[[BCCWJ少納言>http://www.kotonoha.gr.jp/shonagon/]] --登録不要 --文字列検索のみ --500例まで表示 -[[BCCWJ中納言>https://chunagon.ninjal.ac.jp]] --要登録 --形態論情報を使った検索 --全件(一度に最大10万例まで)ダウンロード可 ***日本語コーパス(BCCWJ)の設計 [#ga647ad2] -''(スライド参照)'' コーパスの設計とサンプリング //--Seikei Portalの「授業資料」参照 -均衡コーパス(Balanced corpus) --「バランスがとれている」「代表性」とは? --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題 ***参考リンク [#r23eafb6] -英語のコーパス リファレンス --[[ブラウンコーパス マニュアル>http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM]] http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ -現代日本語書き言葉均衡コーパス(BCCWJ) --[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html]] --[[現代日本語書き言葉均衡コーパス:サンプリング>http://pj.ninjal.ac.jp/corpus_center/bccwj/sampling.html]] **2020/09/25 &color(red,){''休講''}; [#v7178f18] -都合により休講とします。CoursePowerの課題に回答してください。 **2020/09/18 [#g00f5890] -【重要】来週休講 ***イントロダクション [#a2711c5f] -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 https://www.ninjal.ac.jp/ -コーパスとは --[[国立国語研究所コーパス開発センター>https://pj.ninjal.ac.jp/corpus_center/]] https://pj.ninjal.ac.jp/corpus_center/ -国語研オープンハウス2020 --https://www2.ninjal.ac.jp/openhouse2020/ ---動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E -デモ --[[「現代日本語書き言葉均衡コーパス(BCCWJ)」>https://pj.ninjal.ac.jp/corpus_center/bccwj/]] ---BCCWJ[[少納言>https://shonagon,ninjal.ac.jp/]] ---[[中納言>http://chunagon.ninjal.ac.jp]] --[[「日本語歴史コーパス(CHJ)」>https://pj.ninjal.ac.jp/corpus_center/chj/]] --Excelによる集計(ピボットテーブル) --形態素解析 ---[[Web茶まめ>https://chamame.ninjal.ac.jp]] -シラバス確認 --[[シラバス>https://portal.seikei.ac.jp/campusweb/slbssbdr.do?risyunen=2020&semekikn=1&kougicd=125232450]] --この授業の目的 --授業の進め方 --評価方法 --アンケート