コーパス言語学入門・日本語コーパスの活用
- コーパス言語学入門(人文社会系研究科/基礎文化研究専攻言語学専門分野)
- 人文情報学特殊講義(文学部次世代人文学開発センター)
- 言語学特殊講義(文学部言語文化学科言語学専修課程)
- 冬学期 4限(14:55~16:40) 法文1号室 111教室
2016/10/21
(復習)
参考リンク
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
最近の動向
2016/10/14
- 配布資料:「中納言の使い方」(次回以降も使います)
(前回補足)コーパスの設計とサンプリング
XMLによる電子化
形態論情報
2016/10/7
「コーパス」について†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
紙の資料からコーパスまで (日本語研究資料の変遷)
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 各種の電子テキスト
- 構造化テキスト
- 形態論情報付きコーパス
コーパスに求められるもの
- コーパス以前の電子化日本語資料(とその限界)
- 個人研究者による電子化テキスト
- 出版社による電子出版物(CD-ROM)
- 新聞のデータベース(CD-ROM)
- 研究機関のデータベース
- Web上のテキストアーカイブ
- Webそのもの
- コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること
コーパスの設計とサンプリング
- (スライド参照)
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
参考リンク
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
2016/9/30
イントロダクション/日本語コーパスの紹介
「中納言」オンライン利用申込み