#author("2020-10-15T14:35:00+00:00","default:ogiwiki","ogiwiki")
#author("2020-10-19T06:12:04+00:00","default:ogiwiki","ogiwiki")
[[成蹊2020]]

-今年度はZoomを使ったオンライン授業です。成蹊ポータルにログイン後、下記にアクセスしてZoomのアドレスを確認してください。
--https://lms.seikei.ac.jp/lms/lginLgir/index?target=JKjMssFH

-[[「中納言」ログインページ>https://chunagon.ninjal.ac.jp/]]


**2020/10/23 [#rae00310]

***『中納言』の使い方 [#x73a0464]
-[[配布資料「『中納言』の使い方」>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]つづき


***「中納言」検索結果のダウンロードとExcelでの利用 [#m04a71cb]
+ダウンロード
+アーカイブの展開(解凍)
+Excelでインポート

***Excelの基礎 [#t5ba152a]
-並べ替え
--反転前文脈の使い方
-フィルタ
--テキストフィルタ

***【重要】ピボットテーブルの使い方 [#d0a7589d]
-ピボットテーブル
-ピボットグラフ

**2020/10/16 [#h1f3d9c9]

***『中納言』の使い方 [#x73a0464]
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]

-3.3. 検索語の条件指定から


***検索条件式の利用 [#wa3409db]

 キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
  AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
  WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
 AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"



**2020/10/09 [#g6d16bf7]

***コーパスの形態論情報:短単位と長単位 [#b5f24d62]

-コーパスの形態論情報
--https://pj.ninjal.ac.jp/corpus_center/bccwj/morphology.html

-短単位と長単位
--動画:コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

--スライド:[[短単位と長単位>https://lms.seikei.ac.jp/lms/lginLgir/index?target=YcyaU5pO]] 参照

--資料:[[短単位と長単位・サンプル>https://lms.seikei.ac.jp/lms/lginLgir/index?target=GrR9HnqA]] 参照


***品詞体系と見出し語の階層 [#ye514197]
-BCCWJ,CHJはUniDicの品詞体系にもとづく

-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]

***コーパスへの形態論情報の付与 [#sfd1b3f3]

-短単位:解析器[[MeCab>https://taku910.github.io/mecab/]]と辞書[[UniDic>https://unidic.ninjal.ac.jp/]]を使った形態素解析で情報付与
-長単位:解析器[[Comainu>https://ja.osdn.net/projects/comainu/]](など)で短単位を組み上げる


***(参考)Web茶まめ [#va79aa8a]
-https://chamame.ninjal.ac.jp/

***『中納言』の使い方 [#x73a0464]
(来週以降も使います)
-配布資料「『中納言』の使い方」[[ダウンロード>https://lms.seikei.ac.jp/lms/lginLgir/index?target=uIZQSdX2]]


**2020/10/02  [#wce15634]

***日本語コーパス(BCCWJ)の紹介 [#n1daa0f2]
-コーパスとはどんなものか

:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
-この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」


***「中納言」オンライン利用申込みについて [#l78f3553]
-半年だけ使える「授業アカウント」を用意してありますが、今後も利用する場合は個人で申し込んで下さい。
-https://chunagon.ninjal.ac.jp/useraccount/register


-[[BCCWJ少納言>http://www.kotonoha.gr.jp/shonagon/]]
--登録不要
--文字列検索のみ
--500例まで表示
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp]]
--要登録
--形態論情報を使った検索
--全件(一度に最大10万例まで)ダウンロード可


***日本語コーパス(BCCWJ)の設計 [#ga647ad2]

-''(スライド参照)'' コーパスの設計とサンプリング
//--Seikei Portalの「授業資料」参照


-均衡コーパス(Balanced corpus)
--「バランスがとれている」「代表性」とは?
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題


***参考リンク [#r23eafb6]
-英語のコーパス リファレンス
--[[ブラウンコーパス マニュアル>http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM]]
http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/
-現代日本語書き言葉均衡コーパス(BCCWJ)
--[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html]]
--[[現代日本語書き言葉均衡コーパス:サンプリング>http://pj.ninjal.ac.jp/corpus_center/bccwj/sampling.html]]


**2020/09/25 &color(red,){''休講''}; [#v7178f18]

-都合により休講とします。CoursePowerの課題に回答してください。


**2020/09/18 [#g00f5890]

-【重要】来週休講

***イントロダクション [#a2711c5f]

-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 https://www.ninjal.ac.jp/
-コーパスとは
--[[国立国語研究所コーパス開発センター>https://pj.ninjal.ac.jp/corpus_center/]] https://pj.ninjal.ac.jp/corpus_center/


-国語研オープンハウス2020
--https://www2.ninjal.ac.jp/openhouse2020/
---動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E

-デモ
--[[「現代日本語書き言葉均衡コーパス(BCCWJ)」>https://pj.ninjal.ac.jp/corpus_center/bccwj/]]
---BCCWJ[[少納言>https://shonagon,ninjal.ac.jp/]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--[[「日本語歴史コーパス(CHJ)」>https://pj.ninjal.ac.jp/corpus_center/chj/]]
--Excelによる集計(ピボットテーブル)
--形態素解析
---[[Web茶まめ>https://chamame.ninjal.ac.jp]]


-シラバス確認
--[[シラバス>https://portal.seikei.ac.jp/campusweb/slbssbdr.do?risyunen=2020&semekikn=1&kougicd=125232450]]
--この授業の目的
--授業の進め方
--評価方法

--アンケート


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS