名大2020集中の履歴(No.11)

名古屋大学2020・コーパス日本語学入門†

日本語講義Ⅲ
日本語学特殊研究Ⅲ

↑

もくじ†

名古屋大学2020・コーパス日本語学入門
- もくじ
- 日程等
2020年9月23日(水)
2020年9月24日(木)
2020年9月25日(金)
2020年9月28日(月)
- 2-4限

↑

日程等†

集中講義
- 9月23日 3-5限（13:00～）
- 9月24日,25日,28日 2-5限（10:30～）
オンライン授業
- 原則としてオンラインのリアルタイム講義 (Teams)
- TeamsのURLはNUCTで告知する
- 資料はこのページまたはNUCTで配布する
- Remo
連絡先
- togiso◎ninjal.ac.jp （←◎を@に）

↑

2020年9月23日(水)†

↑

第1回（3限）イントロダクション/日本語コーパスの紹介†

↑

イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://pj.ninjal.ac.jp/corpus_center/

（参考）国語研オープンハウス2020　https://www2.ninjal.ac.jp/openhouse2020/
- 動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E

↑

授業内容等の確認†

オンライン授業の進め方について
- 原則としてTeamsでのリアルタイム授業
- 休み時間のほか、課題時間を挟む

シラバスの確認
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

「中納言」アカウントについて†

「授業アカウント」について
「中納言」オンライン利用申込み
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
ワープロWord	「スタイル」を利用したレポート作成
Web茶まめ	形態素解析
テキストエディタサクラエディタ	正規表現を使ったテキストの検索・整形
全文検索ソフトひまわり	データの検索
R	データの統計分析

↑

授業内容デモ†

コーパスの利用
- 「現代日本語書き言葉均衡コーパス（BCCWJ）」
  - 少納言
  - 中納言
- 「日本語歴史コーパス（CHJ）」
Excelによる集計（ピボットテーブル）
形態素解析
- Web茶まめ
テキストエディタとgrep
全文検索システムひまわり
R

↑

第2回（4限）コーパスの設計†

↑

コーパスとは†

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」と「日本語歴史コーパス（CHJ）」

↑

紙の資料からコーパスまで (日本語研究資料の変遷)†

(紙の)本文
(紙の)総索引（コンコーダンス）
各種の電子テキスト
- 授業資料/テキストデータ紹介
構造化テキスト
- 太陽コーパスなど
形態論情報付きコーパス
- 現代日本語書き言葉均衡コーパス（BCCWJ）など

↑

コーパスに求められるもの†

コーパス以前の電子化日本語資料（とその限界）
- 個人研究者による電子化テキスト
  - cf. 日本文学等テキストファイル(岡島昭浩)
- 出版社による電子出版物（CD-ROM）
  - 新潮文庫の100冊 etc.
- 新聞のデータベース（CD-ROM）
  - 毎日新聞CD-ROM etc.
- 研究機関のデータベース
  - 国文学資料館大系DB etc.
- Web上のテキストアーカイブ
  - 青空文庫 etc.
- Webそのもの
  - Web as Corpus

コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://pj.ninjal.ac.jp/corpus_center/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
著作権をめぐる問題

↑

短単位と長単位
- （スライド）参照

品詞体系
- BCCWJはUniDicの品詞体系にもとづく
  - 形態論情報の例
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：Comainu（など）で短単位を組み上げる

BCCWJ関連報告書 http://pj.ninjal.ac.jp/corpus_center/bccwj/doc.html
- 形態論情報規程集(PDF)　第4版上・第4版下

形態素解析：「Mecab」と「UniDic」†

↑

形態素解析とは†

どんなものか

デモ: Web茶まめ　(MeCab + UniDic）
- https://chamame.ninjal.ac.jp/

日本語の自然言語処理の基礎技術
今ではかなり枯れた技術
機械学習による言語処理のはしり

形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな（形態論上の）単位は形態素だけではない（訳語に問題がある）
- 日本語の形態素解析の単位は一般に「語」（語をどう定義するかという問題は残る）

形態素解析の仕組み
- 生起コストと連接コスト
  - その語はどれくらい出てくるか、どんな語とつながりやすいか
  - コーパスから統計的に取得（機械学習）
- 経路の選択（参考：ビタビアルゴリズム）

↑

形態素解析用ソフトウェア†

以前から使われているソフトウェア

形態素解析器（解析エンジン・プログラム）
解析用辞書
- IPADIC
- NAIST-jdic
- UniDic

Web茶まめ（解析用のお助けツール）
- MeCab＋UniDic/IPAdic

↑

UniDicの特長†

見出し語が短単位という斉一な単位に揃えられている
見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
アクセントや音変化の情報を付与することができる
語種など言語研究のための豊富な情報が付与されている

UniDicはChaSen, MeCabのどちらの解析器でも利用可能*2
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ

↑

比較的新しい形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
- 深層学習（RNN）を使った形態素解析器

↑

形態素解析に関する専門書†

工藤拓『形態素解析の理論と実装』近代科学社（2018）

↑

（参考）長単位解析器†

Comainu*3
- https://ja.osdn.net/projects/comainu/

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

↑

（参考）係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

最近の形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++
- 最近公開されたRNN（ディープラーニングの一種）を使った形態素解析器

↑

長単位解析器†

Comainu
- https://ja.osdn.net/projects/comainu/

↑

係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/ ※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

日本語コーパスのタグ付けのレベル†

テキストのレベル	ツール	必要な技術
プレーンテキスト	テキストエディタ	grepと正規表現
構造化テキスト	ひまわり→ Excel	XML・マークアップの基礎，ピボットテーブル
形態素解析済み	UniDic+MeCab→中納言・ChaKi	形態素解析の知識，ChaKi等の使い方
係り受け情報付き	+CaboChaなど→ChaKi

プレーンテキスト：テキストエディタ（grepと正規表現）
構造化テキスト（旧「太陽コーパス」など）：XMLと「ひまわり」
形態素解析済みテキスト（BCCWJ，CHJなど）：「中納言」
係り受け情報・統語情報付き（NWJC,NPCMJなど）：ChaKi, NPCMJ Searchなど

↑

2020年9月24日(木)†

配布資料「『中納言』の使い方」

↑

第4回（2限）『中納言』の使い方（基礎）†

↑

形態論情報を利用した検索†

資料「『中納言』の使い方」参照
- NUCT『中納言』の使い方

形態論情報の復習
- NUCT短単位と長単位資料

動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

CHJ版『中納言』の使い方
- オープンライセンスで公開中：https://bit.ly/3knxC8v

CHJの形態論情報について
- 時代別の形態論情報の概要、規程集が用意されている
- 原則は現代語と同じだが、時代ごとにやや違いがある（平安時代：この・その＝指示詞、複合動詞を分割など）

↑

第5回（3限）『中納言』の使い方†

↑

検索条件式の利用†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

↑

交流会（Remo）†

14:30～
NUCT経由でのリンク
- https://ct.nagoya-u.ac.jp/access/content/group/2020_1_0121216/https%3A__live.remo.20200924031644.URL

↑

第6回（4限）検索結果の集計（Excelとピボットテーブル）†

↑

「中納言」検索結果のダウンロードとExcelでの利用†

ダウンロード
アーカイブの展開（解凍）
Excelでインポート

↑

Excelの基礎†

並べ替え
- 反転前文脈の使い方
フィルタ
- テキストフィルタ

↑

【重要】ピボットテーブルの使い方†

ピボットテーブル
ピボットグラフ

↑

第7回（5限）†

↑

「検索課題」†

配付資料（「中納言検索課題」）参照
- NUCT中納言検索課題

↑

【宿題】レポートテーマについて†

レポートテーマを考えておくこと

普段から見聞きする言葉に気をつけるとともに、図書館も活用すること
ひとつの言葉から、同種の別の語や違う観点からの観察などへと膨らませていく

↑

例*1 †

表記
- 「雀」「すずめ」「スズメ」動植物名の表記・・・レジスター別用例数、文体差
- 「卵」「玉子」「たまご」「タマゴ」・・・意味の違い？文体差？
- 「斡旋」「あっ旋」「あっせん」、「石鹸」「石けん」「せっけん」・・・常用漢字表外字を含む漢語の表記の揺れ
類義語・対義語
- 「奇麗」と「美しい」・・・連体修飾する名詞の違い（→意味の違い）
- 「うるさい」「やかましい」「さわがしい」「かしましい」「かまびすしい」類義語・・・共起語、文体差
- 「男性」と「女性」（「男」と「女」）・・・語彙の非対称性、社会言語学的分析
語形、語法
- 「好ましい」「好もしい」・・・語形の揺れと文体差
- 「煙草を吸う」と「煙草をのむ」・・・用例数の割合、「煙草をのむ」の出現条件
意味変化・新語
- 「役不足」「確信犯」・・・”誤用”と”正用”
- 「断トツ」「定番」「夜ご飯」・・・新語の広がり