東大2021 の履歴(No.18)

FrontPage

言語学特殊講義XI／コーパス日本語学†

前期金曜4限：14:55-16:40
Mail: ogiso@ogiso.net

Zoomによるリアルタイムのオンライン授業形式で行います。ZoomのURLはITC-LMSのページで確認してください。
- 文学部 04212151 言語学特殊講義XI
- 人文社会系研究科 21210110 コーパス日本語学 ※ITC-LMSのコースをまとめて、学部のページに統合しました。（20210419）

↑

5月21日（第6回）「中納言」の使い方†

「中納言」https://chunagon.ninjal.ac.jp/
- BCCWJ: https://chunagon.ninjal.ac.jp/bccwj-nt
- CHJ: https://chunagon.ninjal.ac.jp/chj

中納言の使い方
- 3.4補足、4．～

↑

検索条件式の利用†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

↑

短単位と長単位
- （スライド）長単位と短単位参照
- 長単位と短単位・資料単位切りの例
- （参考）動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

コーパス検索アプリケーション「中納言」と短単位と長単位
- 中納言の使い方

品詞体系
- BCCWJはUniDicの品詞体系にもとづく
  - 形態論情報の例
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：Comainu（など）で短単位を組み上げる

BCCWJ関連報告書 https://ccd.ninjal.ac.jp/bccwj/doc.html
- 形態論情報規程集(PDF)　第4版上・第4版下

形態素解析：「Mecab」と「UniDic」†

↑

形態素解析とは†

どんなものか

デモ: Web茶まめ　(MeCab + UniDic）
- https://chamame.ninjal.ac.jp/

日本語の自然言語処理の基礎技術
今ではかなり枯れた技術
機械学習による言語処理のはしり

形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな（形態論上の）単位は形態素だけではない（訳語に問題がある）
- 日本語の形態素解析の単位は一般に「語」（語をどう定義するかという問題は残る）

形態素解析の仕組み
- 生起コストと連接コスト
  - その語はどれくらい出てくるか、どんな語とつながりやすいか
  - コーパスから統計的に取得（機械学習）
- 経路の選択（参考：ビタビアルゴリズム）

↑

形態素解析用ソフトウェア†

以前から使われているソフトウェア

形態素解析器（解析エンジン・プログラム）
解析用辞書
- IPADIC
- NAIST-jdic
- UniDic

Web茶まめ（解析用のお助けツール）
- MeCab＋UniDic/IPAdic

↑

UniDicの特長†

見出し語が短単位という斉一な単位に揃えられている
見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
アクセントや音変化の情報を付与することができる
語種など言語研究のための豊富な情報が付与されている

UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ

↑

比較的新しい形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
- 深層学習（RNN）を使った形態素解析器

↑

形態素解析に関する専門書†

工藤拓『形態素解析の理論と実装』近代科学社（2018）

↑

（参考）長単位解析器†

Comainu*2
- https://ja.osdn.net/projects/comainu/

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

↑

（参考）係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

最近の形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
- 深層学習（RNN）を使った形態素解析器

↑

長単位解析器†

Comainu
- https://ja.osdn.net/projects/comainu/

↑

係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/ ※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

日本語コーパスのタグ付けのレベル†

テキストのレベル	ツール	必要な技術
プレーンテキスト	テキストエディタ	grepと正規表現
構造化テキスト	ひまわり→ Excel	XML・マークアップの基礎，ピボットテーブル
形態素解析済み	UniDic+MeCab→中納言・ChaKi	形態素解析の知識，ChaKi等の使い方
係り受け情報付き	+CaboChaなど→ChaKi

プレーンテキスト：テキストエディタ（grepと正規表現）
構造化テキスト（旧「太陽コーパス」など）：XMLと「ひまわり」
形態素解析済みテキスト（BCCWJ, CHJなど）：「中納言」
係り受け情報・統語情報付き（NWJC, NPCMJなど）：ChaKi, NPCMJ Searchなど

↑

4月23日（第3回）コーパスの設計（2）†

↑

前回続き（スライド残り）†

著作権をめぐる問題
- 科研・昭和平成書き言葉コーパス（構築中）
  - 改正著作権法に則り、権利処理なしでオンライン公開予定

↑

「日本語歴史コーパス」（CHJ）の構成†

https://ccd.ninjal.ac.jp/chj/

残された資料に限りがある（そもそも偏りがある）歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難

近世以前: 残されている資料が少なく、できるだけ（可能なら全部）コーパスに入れたい
近世（後期）以降: 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい（作品など資料単位で調査したい）

『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本：年代・著者（・地域）のバランスを取って作品単位でサンプリング

↑

近代語コーパスの場合†

近代雑誌（現在はCHJの一部）
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
  - 「太陽コーパス」：8年おきに12冊ずつを対象
- その後の雑誌コーパスも8年おきに収録
  - 明六雑誌・東洋学芸雑誌・国民之友・太陽（・中央公論・文藝春秋）
近代小説 ※今日の夕方に公開予定
- 複数の有識者が日本語資料として選定・投票した結果（1980年代に作成した資料）をもとにサンプリング
- https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf

↑

利用する側から見たコーパスの設計†

BCCWJでもCHJでも、どのように設計されているかを知らないと大きな誤りを犯す可能性がある
- サブコーパスのサイズを無視した比較
- バランスのとれていない項目間の単純比較（BCCWJの年代、CHJの時代・ジャンル等）

↑

紙の資料からコーパスまで～テキストの電子化とアノテーションの高度化†

(紙の)本文
(紙の)総索引（コンコーダンス）
電子テキスト：テキスト（199x年代～）
- 授業資料/テキストデータ紹介
構造化テキスト：テキスト+XMLによる構造化タグ（200x年代～）
- 太陽コーパスなど
単語情報付きのコーパス：テキスト+XMLによる構造化タグ+形態論情報　（201x年代～）
- 現代日本語書き言葉均衡コーパス（BCCWJ）など
- 日本語歴史コーパス（CHJ）など

↑

電子化とアノテーション（明六雑誌コーパスを例に）†

明六雑誌コーパス：https://ccd.ninjal.ac.jp/cmj/meiroku/

ファイル形式と実例
1. 電子テキスト：プレーンテキスト
2. 構造化テキスト：XMLファイル
3. 単語情報付きデータ：単語情報を埋め込んだXML　／XMLファイル＋CSVファイル →RDB
  - （発展）XMLの限界とスタンドオフアノテーション

それぞれの利用アプリケーション
1. 電子テキスト：テキストエディタ＋grepなど
2. 構造化テキスト：全文検索システム「ひまわり」
3. 単語情報付きデータ：中納言（オンライン）／Chaki.Net（PC上）

↑

4月16日（第2回）コーパスの設計†

「中納言」授業アカウントの配布について

※以下、スライド（学部授業用）（大学院授業用・同内容）も参照

↑

コーパスとは†

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

言語学分野では前者、自然言語処理分野などでは後者の意味で使いがち。

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」と「日本語歴史コーパス（CHJ）」

↑

コーパスに求められるもの†

コーパス以前の電子化日本語資料（とその限界）
- 個人研究者による電子化テキスト
  - cf. 日本文学等テキストファイル(岡島昭浩)
- 出版社による電子出版物（CD-ROM）
  - 新潮文庫の100冊 etc.
- 新聞のデータベース（CD-ROM）
  - 毎日新聞CD-ROM etc.
- Web上のテキストアーカイブ
  - 青空文庫 etc.
- Webそのもの
  - Web as Corpus

（現代語）コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://ccd.ninjal.ac.jp/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性がある（representative）」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
著作権をめぐる問題★次回、ここから

↑

参考リンク†

英語のコーパスリファレンス
- ブラウンコーパスマニュアル http://khnt.aksis.uib.no/icame/manuals/brown/
- BNCリファレンスガイド http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス（BCCWJ）
- 現代日本語書き言葉均衡コーパス：概要
- BCCWJの基本設計：https://ccd.ninjal.ac.jp/bccwj/basic-design.html
- サンプリング：https://ccd.ninjal.ac.jp/bccwj/sampling.html
- XMLによる電子化：https://ccd.ninjal.ac.jp/bccwj/XML.html

↑

4月9日（第1回）イントロダクション/日本語コーパスの紹介†

↑

イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://ccd.ninjal.ac.jp/

（参考）国語研オープンハウス2020　https://www2.ninjal.ac.jp/openhouse2020/
- 動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E

↑

授業内容等の確認†

シラバスの確認
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

「中納言」アカウントについて†

「授業アカウント」について
「中納言」オンライン利用申込み
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
Web茶まめ	形態素解析
テキストエディタサクラエディタ	正規表現を使ったテキストの検索・整形
ワープロWord	「スタイル」を利用したレポート作成
全文検索ソフトひまわり	データの検索,ミニコーパスの作成
R	データの統計分析

↑

授業内容デモ†

コーパスの利用
- 「現代日本語書き言葉均衡コーパス（BCCWJ）」
  - 梵天（BCCWJ文字列検索）
  - 中納言
- 「日本語歴史コーパス（CHJ）」
Excelによる集計（ピボットテーブル）
形態素解析
- Web茶まめ
テキストエディタとgrep
全文検索システムひまわり
R