#author("2021-04-19T13:33:32+00:00","default:ogiwiki","ogiwiki") [[FrontPage]] *言語学特殊講義XI/コーパス日本語学 [#f20f4b84] -前期金曜4限:14:55-16:40 -Mail: ogiso@ogiso.net -Zoomによるリアルタイムのオンライン授業形式で行います。ZoomのURLはITC-LMSのページで確認してください。 --[[文学部 04212151 言語学特殊講義XI>https://itc-lms.ecc.u-tokyo.ac.jp/lms/course?idnumber=2021042121510F01]] --[[人文社会系研究科 21210110 コーパス日本語学>https://itc-lms.ecc.u-tokyo.ac.jp/lms/course?idnumber=2021212101100F01]] ※ITC-LMSのコースをまとめて、学部のページに統合しました。(20210419) ---- **4月23日(第3回) コーパスの設計(2) [#d3ad8ff2] ***前回続き(スライド残り) [#ib63a249] -著作権をめぐる問題 --[[科研・昭和平成書き言葉コーパス(構築中)>https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-19H00531/]] ---改正著作権法に則り、権利処理なしでオンライン公開予定 ***電子化とアノテーション [#fbd1c13d] -XMLの話 **4月16日(第2回) コーパスの設計 [#d3ad8ff2] -「中納言」授業アカウントの配布について ※以下、''[[スライド(学部授業用)>https://itc-lms.ecc.u-tokyo.ac.jp/lms/course/material/setfiledown/UT_%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%81%A8%E3%81%AF%EF%BD%9EBCCWJ%E3%81%AE%E8%A8%AD%E8%A8%88.pdf?fileName=UT_%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%81%A8%E3%81%AF%EF%BD%9EBCCWJ%E3%81%AE%E8%A8%AD%E8%A8%88.pdf&fileId=1618548420142418531&idnumber=2021042121510F01&resourceId=418531&screen=1&contentId=276755&endDate=2021-09-30+00%3A00%3A00.0]]([[大学院授業用・同内容>https://itc-lms.ecc.u-tokyo.ac.jp/lms/course/material/setfiledown/UT_%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%81%A8%E3%81%AF%EF%BD%9EBCCWJ%E3%81%AE%E8%A8%AD%E8%A8%88.pdf?fileName=UT_%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E3%81%A8%E3%81%AF%EF%BD%9EBCCWJ%E3%81%AE%E8%A8%AD%E8%A8%88.pdf&fileId=1618548490600418536&idnumber=2021212101100F01&resourceId=418536&screen=1&contentId=276758&endDate=2021-09-30+00%3A00%3A00.0]])も参照'' ***コーパスとは [#t54768fa] :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 --現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ) :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。 --さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録) ---[[「ひまわり」パッケージ>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] --Web上のデータ ---検索サイトの利用 ---WAC(Web as Corpus) -言語学分野では前者、自然言語処理分野などでは後者の意味で使いがち。 -この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」 ***コーパスに求められるもの [#h042f3fe] -コーパス以前の電子化日本語資料(とその限界) --個人研究者による電子化テキスト ---cf. [[日本文学等テキストファイル(岡島昭浩)>http://www.ne.jp/asahi/nihongo/okajima/bungaku.htm]] --出版社による電子出版物(CD-ROM) ---新潮文庫の100冊 etc. --新聞のデータベース(CD-ROM) ---毎日新聞CD-ROM etc. --Web上のテキストアーカイブ ---青空文庫 etc. --Webそのもの ---Web as Corpus -(現代語)コーパスへの要請 --大規模であること --各種のテキストが含まれていて、ジャンルなどのバランスがとれていること --著作権の問題がないこと --言語研究に利用できる情報がついていること ***「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング [#s89fe505] -https://ccd.ninjal.ac.jp/bccwj/ -均衡コーパス(Balanced corpus) --「バランスがとれている」「代表性がある(representative)」とは? --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題★次回、ここから ***参考リンク [#o1a9da5c] -英語のコーパス リファレンス --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ -現代日本語書き言葉均衡コーパス(BCCWJ) --[[現代日本語書き言葉均衡コーパス:概要>https://ccd.ninjal.ac.jp/bccwj/index.html]] --BCCWJの基本設計:https://ccd.ninjal.ac.jp/bccwj/basic-design.html --サンプリング:https://ccd.ninjal.ac.jp/bccwj/sampling.html --XMLによる電子化:https://ccd.ninjal.ac.jp/bccwj/XML.html **4月9日(第1回)イントロダクション/日本語コーパスの紹介 [#wdd4ab2f] ***イントロダクション [#z7ffa4ea] -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 [[国立国語研究所>https://www.ninjal.ac.jp/]] https://www.ninjal.ac.jp/ --[[国立国語研究所コーパス開発センター>https://ccd.ninjal.ac.jp/]] https://ccd.ninjal.ac.jp/ -(参考)国語研オープンハウス2020 https://www2.ninjal.ac.jp/openhouse2020/ --動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E ***授業内容等の確認 [#e55ee18f] -[[シラバス>https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2021_UT_syllabus.pdf&refer=%C5%EC%C2%E72021]]の確認 --この授業の目的 --授業の進め方 --評価方法 -受講者アンケート --関心のある分野について --PC等のスキルについて ***「中納言」アカウントについて [#t6709ede] -「授業アカウント」について -「中納言」オンライン利用申込み --https://chunagon.ninjal.ac.jp/useraccount/register ***授業で利用する主なソフトウェア・Webアプリケーション(予定) [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[コーパス検索アプリケーション''「中納言」''>https://chunagon.ninjal.ac.jp/]]|コーパスの検索| |表計算ソフト''Excel''|ピボットテーブルによる分析・グラフ作成| |[[Web茶まめ>https://chamame.ninjal.ac.jp/]]|形態素解析| |[[テキストエディタ ''サクラエディタ''>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |ワープロ''Word''|「スタイル」を利用したレポート作成| |[[全文検索ソフト''ひまわり''>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索,ミニコーパスの作成| |[[R>https://www.r-project.org/]]|データの統計分析| ***授業内容デモ [#kc4ae1c5] -コーパスの利用 --[[「現代日本語書き言葉均衡コーパス(BCCWJ)」>https://ccd.ninjal.ac.jp/bccwj/]] ---[[梵天(BCCWJ文字列検索)>https://bonten.ninjal.ac.jp/bccwj/string_search]] ---[[中納言>https://chunagon.ninjal.ac.jp]] --[[「日本語歴史コーパス(CHJ)」>https://ccd.ninjal.ac.jp/chj/]] -Excelによる集計(ピボットテーブル) -形態素解析 --[[Web茶まめ>https://chamame.ninjal.ac.jp]] -テキストエディタとgrep -全文検索システム[[ひまわり>https://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] -[[R>https://www.r-project.org/]]