名古屋大学2020・コーパス日本語学入門†
もくじ†
日程等†
- 集中講義
- 9月23日 3-5限(13:00~)
- 9月24日,25日,28日 2-5限(10:30~)
- オンライン授業
- 原則としてオンラインのリアルタイム講義 (Teams)
- TeamsのURLはNUCTで告知する
- 資料はこのページまたはNUCTで配布する
- Remo
- 連絡先
- togiso◎ninjal.ac.jp (←◎を@に)
2020年9月23日(水)†
第1回(3限) イントロダクション/日本語コーパスの紹介†
イントロダクション†
授業内容等の確認†
- オンライン授業の進め方について
- 原則としてTeamsでのリアルタイム授業
- 休み時間のほか、課題時間を挟む
「中納言」アカウントについて†
- 「授業アカウント」について
- 「中納言」オンライン利用申込み
授業で利用する主なソフトウェア・Webアプリケーション(予定)†
授業内容デモ†
- コーパスの利用
- Excelによる集計(ピボットテーブル)
- 形態素解析
- テキストエディタとgrep
- 全文検索システムひまわり
- R
第2回(4限) コーパスの設計†
コーパスとは†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
- この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
紙の資料からコーパスまで (日本語研究資料の変遷)†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 各種の電子テキスト
- 構造化テキスト
- 形態論情報付きコーパス
コーパスに求められるもの†
- コーパス以前の電子化日本語資料(とその限界)
- 個人研究者による電子化テキスト
- 出版社による電子出版物(CD-ROM)
- 新聞のデータベース(CD-ROM)
- 研究機関のデータベース
- Web上のテキストアーカイブ
- Webそのもの
- コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング†
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」「代表性」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
「日本語歴史コーパス」(CHJ)の構成†
参考リンク†
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
第3回(5限) コーパスの形態論情報と形態素解析†
コーパスの形態論情報†
コーパスへの形態論情報の付与†
- 短単位:MeCabとUniDicを使った形態素解析で情報付与
- 長単位:Comainu(など)で短単位を組み上げる
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
最近の形態素解析器†
長単位解析器†
係り受け解析器†
日本語コーパスのタグ付けのレベル†
テキストのレベル | ツール | 必要な技術 |
プレーンテキスト | テキストエディタ | grepと正規表現 |
構造化テキスト | ひまわり→ Excel | XML・マークアップの基礎,ピボットテーブル |
形態素解析済み | UniDic+MeCab→中納言・ChaKi | 形態素解析の知識,ChaKi等の使い方 |
係り受け情報付き | +CaboChaなど→ChaKi | |
- プレーンテキスト:テキストエディタ(grepと正規表現)
- 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」
- 形態素解析済みテキスト(BCCWJ,CHJなど):「中納言」
- 係り受け情報・統語情報付き(NWJC,NPCMJなど):ChaKi, NPCMJ Searchなど
2020年9月24日(木)†
2-4限†
2020年9月25日(金)†
2-4限†
2020年9月28日(月)†
2-4限†