東大2021 の履歴(No.32)

FrontPage

言語学特殊講義XI／コーパス日本語学†

前期金曜4限：14:55-16:40
Mail: ogiso@ogiso.net

Zoomによるリアルタイムのオンライン授業形式で行います。ZoomのURLはITC-LMSのページで確認してください。
- 文学部 04212151 言語学特殊講義XI
- 人文社会系研究科 21210110 コーパス日本語学 ※ITC-LMSのコースをまとめて、学部のページに統合しました。（20210419）

リンク：「中納言」https://chunagon.ninjal.ac.jp/

質問を受け付けています。自由に記入してください。次の授業で回答します。
- https://itc-lms.ecc.u-tokyo.ac.jp/lms/course/surveys/take?idnumber=2021042121510F01&surveyId=10224

↑

6月25日（第11回）　テキストエディタと正規表現によるテキストデータの整形†

↑

レポートテーマ（仮）提出について†

次回7月2日までに下記ITC-LMSのアンケートで期末レポートのテーマを回答してください（履修者全員）。
- 複数でも、今後変更しても構いません。現時点で考えていることで結構です。
- https://itc-lms.ecc.u-tokyo.ac.jp/lms/course/surveys/take?idnumber=2021042121510F01&surveyId=12340

↑

(再掲)「中納言」インラインタグ機能の利用†

前後文脈に埋め込んだタグから、必要な情報を取り出して利用
- エディタと正規表現を使うと便利

↑

デモ†

形容詞の連続の傾向
- cf.英語：OPSHACOM

↑

テキストデータについて†

テキストデータとは：すべての基本、文字が並ぶだけのデータ
授業資料/テキストデータとは
- バイナリデータとテキストデータ

テキストファイルの拡張子：TXT,CSV,HTM…
- ファイルの種類と拡張子参考：拡張子辞典
- 拡張子(wikipedia)

サンプルデータ
- ★soseki2.zip

↑

テキストエディタ†

テキストエディタとはどんなものか
- 授業資料/テキストエディタ

↑

テキストエディタのダウンロードとインストール†

★サクラエディタのダウンロード
- (参考) サクラエディタホームページ：https://sakura-editor.github.io/

インストールの手順
- ダウンロードしたzipファイルの中にあるsakura-install*.exeをデスクトップにコピー
- exeファイルを右クリックして「セキュリティ」の右の「許可する」をチェックして「OK」
- ダブルクリックしてインストール

↑

Macの場合（miのダウンロードとインストール）†

miのダウンロード https://www.mimikaki.net/
- ダウンロードされたファイルをダブルクリック

↑

テキストエディタの基本操作†

検索・置換、grep
- 検索で初出行を調べる
- 置換で用例数を数える
- grepで用例リストを作る
- タグジャンプで文脈を確認する
たいていのことはショートカットキーでできる

↑

正規表現とは†

正規表現　＞用語
- 文字を表すための特殊な文字（メタ文字）を使って文字列のパターンを表現する
- テキストエディタでは置換・検索・grepで利用できる　（エディタ以外にもさまざまなアプリケ－ションやプログラミング言語で利用されている）
- 特殊な文字（メタ文字）はすべて半角

↑

正規表現を使ってみる†

文字クラス
- 例：読[まみむめもん]
  - 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字

↑

正規表現のいろいろ†

授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定（補集合）[^ ]
- 繰り返し ? + *
- グループ化 ()
- or（論理和） |
- 文頭 ^、文末 $

↑

正規表現の応用†

カタカナ語
- カタカナ（外来語）の形容動詞語幹
送りがなの揺れ（行う／行なう）
会話文中（"「"で始まる文中）の用例を検索する
同一文中での共起
- 全然～ない。
- もし～なら（ば）

↑

タグ付き正規表現†

走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
  - 検索文字列：走[らりるれろっ]
  - 置換文字列：★走[らりるれろっ]
タグ付き正規表現・カッコ（半角丸カッコ）と\1（\2，\3…）を使う
授業資料/タグつき正規表現

↑

最長一致の原則（greedy matching）†

正規表現は、パターンが一致する最も長い範囲にマッチする
- 例：あ+ → 【\1】
  - ああああああああ →　【ああああああああ】そのせいで…
- 例：「(.+)」 → 【\1】
  - 「こんにちは」「さようなら」 →　【こんにちは」「さようなら】
- 括弧の組ごとに置換するためには「([^」]+)」 → 【\1】　のように書かなければならない
  - 「こんにちは」「さようなら」 →　【こんにちは】【さようなら】
よりかんたんに指定するには（最短一致，ものぐさ指定）
- 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける

（参考）タグ付き正規表現の応用：grepと置換でKWICを作る

↑

検索文字列の中での後方参照†

検索語の中で\1を使う
- (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
- (..)\1\1
- (...)\1

↑

正規表現に関する参考資料†

サクラエディタの正規表現：http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本　amazonで検索

↑

（参考）テキストデータ（青空文庫）の配布†

aozoradoc2.zip（青空文庫全テキスト・参考）

↑

6月18日（第10回）　VLOOKUP関数による辞書引き集計†

↑

質問コーナー回答†

Q1:Vし手
Q2:自動詞受動文

↑

VLOOKUP関数の利用†

授業資料/VLOOKUP関数参照

↑

（参考）分類語彙表†

https://ccd.ninjal.ac.jp/goihyo.html

↑

（参考）ジップ（Zipf）の法則 †

順位×頻度≒定数

（参考）授業資料/正規表現

↑

「中納言」インラインタグ機能の利用†

前後文脈に埋め込んだタグから、必要な情報を取り出して利用
- エディタと正規表現を使うと便利

↑

6月11日（第9回）検索結果集計のための応用：調整頻度の計算／文字列関数†

↑

調整頻度（pmw）†

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」からExcelでダウンロードできる
  - 短単位語数表：http://doi.org/10.15084/00003226
  - 語数ファイルをピボットテーブルで集計して分母に

調整頻度には100万語あたりの頻度（pmw）がよく使われる
- 粗頻度/コーパス総語数*1000000
  - 数字が小さくなりすぎないようにするため

※割合を比較するだけなら調整頻度を出す必要はない。

↑

（Excel基礎）セルの相対参照と絶対参照†

A1：相対参照
$A$1：絶対参照
$A1：列のみ絶対参照

↑

『日本語歴史コーパス』で復習†

頻度で見る「あはれ」「をかし」と源氏・枕

↑

Excelの文字列関数†

集計に必要な情報をフィールドから切り出すことで集計に使う

授業資料/EXCELの文字列関数参照

（参考）Mac版Excelと文字種
- フィルタのオプションで平仮名と片仮名が区別されないので、文字コードで区別する
  - =unicode(文字列) ：文字列の先頭文字の文字コード（Unicode、10進数）を返す

↑

6月4日（第8回） Excelによる検索結果の集計2：ちょっとした応用と注意点†

↑

複数の検索結果の結合（復習）†

例：蒲公英・向日葵・菫

ショートカットキーを活用すると便利

Ctrl+End　ファイルの末尾/表のいちばん右下に移動
Shift+Ctrl+End　〃範囲を選択

表をコピー
- Ctrl+Home, ↓（列名はコピーしないようにする）,Shift+Ctrl+End, Ctrl+C
コピーした表を既存の表の下に貼り付け
- Ctrl+↓, ↓, Ctrl+V

↑

（参考）ショートカットキー†

授業資料/覚えておきたいショートカットキー

↑

ランダムサンプリング調査†

※BCCWJでも「中納言」の出力結果は十分にランダムではない

大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列： =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

ex.「られる」（意味・用法）、「全然」（陳述副詞の呼応）のように多数あり全例チェックが必要な場合

↑

出現サンプル数の調査（重複の削除）†

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

たとえば同一サンプル内での繰り返しが多いものを調査するとき（例：一人称代名詞など）
- 「データ」→「重複の削除」

↑

BCCWJ利用の落とし穴†

BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
  - レジスターの偏りを年代の偏りと勘違いしないこと
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ

もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
- cf.人口あたりの事故件数，１平方キロあたりの…etc.

BCCWJの語数
- https://ccd.ninjal.ac.jp/bccwj/bcc-chu-suw.html
短単位語数表をピボットテーブルで集計
- 短単位語数表：http://doi.org/10.15084/00003226

↑

「中納言」検索結果のダウンロードとExcelでの利用†

ダウンロード
Excelでインポート

データの形式
- タブ区切りテキストの各列

複数ファイルの一括検索結果（zip圧縮）

↑

Excelの基礎†

並べ替え（ソート）
- 反転前文脈の使い方
フィルタ（絞り込み）
- テキストフィルタ
- 多重フィルター（複数の条件指定）

↑

【重要】ピボットテーブルの使い方†

ピボットテーブル
ピボットグラフ

↑

集計用の列を自分で用意する†

例：「可能性が＋形容詞」の集計

↑

複数の検索結果の結合†

例：犬／猫／駱駝
- 文字種（ひらがな・カタカナ・漢字）別集計

↑

5月21日（第6回）「中納言」の使い方†

「中納言」https://chunagon.ninjal.ac.jp/
- BCCWJ: https://chunagon.ninjal.ac.jp/bccwj-nt
- CHJ: https://chunagon.ninjal.ac.jp/chj

中納言の使い方（PDF）
- 3.4補足、4．～

↑

位置情報と用例へのパーマリンク†

位置検索
- サンプルID,開始位置*1のセットでコーパス上の用例の位置を一意に指定できる
- 位置検索での区切り記号はカンマのほかタブやスペースでも可

用例へのpermalink
- BCCWJコアの「やぱ」：https://chunagon.ninjal.ac.jp/bccwj-nt/permalink?unit=short&position=OY14_13636,1930
- CHJ源氏冒頭の「やんごとなし」：https://chunagon.ninjal.ac.jp/chj/permalink?unit=short&position=20-%E6%BA%90%E6%B0%8F1010_00001,330

↑

検索条件式の利用†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 IN ((registerName="出版・新聞" AND core="true") OR (registerName="出版・雑誌" AND core="true") OR (registerName="出版・書籍" AND core="true") OR (registerName="特定目的・白書" AND core="true") OR (registerName="特定目的・知恵袋" AND core="true") OR (registerName="特定目的・ブログ" AND core="true"))

NOTの使い方

キー: 語彙素="カレー"
 AND 後方共起: (品詞 LIKE "助詞-格助詞%" AND NOT(語彙素 LIKE "[がをに]")) ON 1 WORDS FROM キー

※NOT演算子ではなく、条件句（○○="□□"や○○ LIKE "□□"）の否定にのみ使える*2

↑

5月7日（第5回）コーパス検索アプリケーション「中納言」†

「中納言」https://chunagon.ninjal.ac.jp/
- BCCWJ: https://chunagon.ninjal.ac.jp/bccwj-nt
- CHJ: https://chunagon.ninjal.ac.jp/chj

中納言の使い方

↑

4月30日（第4回）コーパスの形態論情報と形態素解析†

↑

コーパスの形態論情報†

https://ccd.ninjal.ac.jp/bccwj/morphology.html

短単位と長単位
- （スライド）長単位と短単位参照
- 長単位と短単位・資料単位切りの例
- （参考）動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

コーパス検索アプリケーション「中納言」と短単位と長単位
- 中納言の使い方

品詞体系
- BCCWJはUniDicの品詞体系にもとづく
  - 形態論情報の例
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：Comainu（など）で短単位を組み上げる

BCCWJ関連報告書 https://ccd.ninjal.ac.jp/bccwj/doc.html
- 形態論情報規程集(PDF)　第4版上・第4版下

形態素解析：「Mecab」と「UniDic」†

↑

形態素解析とは†

どんなものか

デモ: Web茶まめ　(MeCab + UniDic）
- https://chamame.ninjal.ac.jp/

日本語の自然言語処理の基礎技術
今ではかなり枯れた技術
機械学習による言語処理のはしり

形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな（形態論上の）単位は形態素だけではない（訳語に問題がある）
- 日本語の形態素解析の単位は一般に「語」（語をどう定義するかという問題は残る）

形態素解析の仕組み
- 生起コストと連接コスト
  - その語はどれくらい出てくるか、どんな語とつながりやすいか
  - コーパスから統計的に取得（機械学習）
- 経路の選択（参考：ビタビアルゴリズム）

↑

形態素解析用ソフトウェア†

以前から使われているソフトウェア

形態素解析器（解析エンジン・プログラム）
解析用辞書
- IPADIC
- NAIST-jdic
- UniDic

Web茶まめ（解析用のお助けツール）
- MeCab＋UniDic/IPAdic

↑

UniDicの特長†

見出し語が短単位という斉一な単位に揃えられている
見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
アクセントや音変化の情報を付与することができる
語種など言語研究のための豊富な情報が付与されている

UniDicはChaSen, MeCabのどちらの解析器でも利用可能*3
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ

↑

比較的新しい形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
- 深層学習（RNN）を使った形態素解析器

↑

形態素解析に関する専門書†

工藤拓『形態素解析の理論と実装』近代科学社（2018）

↑

（参考）長単位解析器†

Comainu*4
- https://ja.osdn.net/projects/comainu/

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

↑

（参考）係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

最近の形態素解析器†

KyTea
- http://www.phontron.com/kytea/index-ja.html
- 点予測という系列ラベリングとは別の手法による形態素解析器
JUMAN++
- https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
- 深層学習（RNN）を使った形態素解析器

↑

長単位解析器†

Comainu
- https://ja.osdn.net/projects/comainu/

↑

係り受け解析器†

CaboCha
- https://taku910.github.io/cabocha/ ※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

↑

日本語コーパスのタグ付けのレベル†

テキストのレベル	ツール	必要な技術
プレーンテキスト	テキストエディタ	grepと正規表現
構造化テキスト	ひまわり→ Excel	XML・マークアップの基礎，ピボットテーブル
形態素解析済み	UniDic+MeCab→中納言・ChaKi	形態素解析の知識，ChaKi等の使い方
係り受け情報付き	+CaboChaなど→ChaKi

プレーンテキスト：テキストエディタ（grepと正規表現）
構造化テキスト（旧「太陽コーパス」など）：XMLと「ひまわり」
形態素解析済みテキスト（BCCWJ, CHJなど）：「中納言」
係り受け情報・統語情報付き（NWJC, NPCMJなど）：ChaKi, NPCMJ Searchなど

↑

4月23日（第3回）コーパスの設計（2）†

↑

前回続き（スライド残り）†

著作権をめぐる問題
- 科研・昭和平成書き言葉コーパス（構築中）
  - 改正著作権法に則り、権利処理なしでオンライン公開予定

↑

「日本語歴史コーパス」（CHJ）の構成†

https://ccd.ninjal.ac.jp/chj/

残された資料に限りがある（そもそも偏りがある）歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難

近世以前: 残されている資料が少なく、できるだけ（可能なら全部）コーパスに入れたい
近世（後期）以降: 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい（作品など資料単位で調査したい）

『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本：年代・著者（・地域）のバランスを取って作品単位でサンプリング

↑

近代語コーパスの場合†

近代雑誌（現在はCHJの一部）
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
  - 「太陽コーパス」：8年おきに12冊ずつを対象
- その後の雑誌コーパスも8年おきに収録
  - 明六雑誌・東洋学芸雑誌・国民之友・太陽（・中央公論・文藝春秋）
近代小説 ※今日の夕方に公開予定
- 複数の有識者が日本語資料として選定・投票した結果（1980年代に作成した資料）をもとにサンプリング
- https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf

↑

利用する側から見たコーパスの設計†

BCCWJでもCHJでも、どのように設計されているかを知らないと大きな誤りを犯す可能性がある
- サブコーパスのサイズを無視した比較
- バランスのとれていない項目間の単純比較（BCCWJの年代、CHJの時代・ジャンル等）

↑

紙の資料からコーパスまで～テキストの電子化とアノテーションの高度化†

(紙の)本文
(紙の)総索引（コンコーダンス）
電子テキスト：テキスト（199x年代～）
- 授業資料/テキストデータ紹介
構造化テキスト：テキスト+XMLによる構造化タグ（200x年代～）
- 太陽コーパスなど
単語情報付きのコーパス：テキスト+XMLによる構造化タグ+形態論情報　（201x年代～）
- 現代日本語書き言葉均衡コーパス（BCCWJ）など
- 日本語歴史コーパス（CHJ）など

↑

電子化とアノテーション（明六雑誌コーパスを例に）†

明六雑誌コーパス：https://ccd.ninjal.ac.jp/cmj/meiroku/

ファイル形式と実例
1. 電子テキスト：プレーンテキスト
2. 構造化テキスト：XMLファイル
3. 単語情報付きデータ：単語情報を埋め込んだXML　／XMLファイル＋CSVファイル →RDB
  - （発展）XMLの限界とスタンドオフアノテーション

それぞれの利用アプリケーション
1. 電子テキスト：テキストエディタ＋grepなど
2. 構造化テキスト：全文検索システム「ひまわり」
3. 単語情報付きデータ：中納言（オンライン）／Chaki.Net（PC上）

↑

4月16日（第2回）コーパスの設計†

「中納言」授業アカウントの配布について

※以下、スライド（学部授業用）（大学院授業用・同内容）も参照

↑

コーパスとは†

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

言語学分野では前者、自然言語処理分野などでは後者の意味で使いがち。

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」と「日本語歴史コーパス（CHJ）」

↑

コーパスに求められるもの†

コーパス以前の電子化日本語資料（とその限界）
- 個人研究者による電子化テキスト
  - cf. 日本文学等テキストファイル(岡島昭浩)
- 出版社による電子出版物（CD-ROM）
  - 新潮文庫の100冊 etc.
- 新聞のデータベース（CD-ROM）
  - 毎日新聞CD-ROM etc.
- Web上のテキストアーカイブ
  - 青空文庫 etc.
- Webそのもの
  - Web as Corpus

（現代語）コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://ccd.ninjal.ac.jp/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性がある（representative）」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
著作権をめぐる問題★次回、ここから

↑

参考リンク†

英語のコーパスリファレンス
- ブラウンコーパスマニュアル http://khnt.aksis.uib.no/icame/manuals/brown/
- BNCリファレンスガイド http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス（BCCWJ）
- 現代日本語書き言葉均衡コーパス：概要
- BCCWJの基本設計：https://ccd.ninjal.ac.jp/bccwj/basic-design.html
- サンプリング：https://ccd.ninjal.ac.jp/bccwj/sampling.html
- XMLによる電子化：https://ccd.ninjal.ac.jp/bccwj/XML.html

↑

4月9日（第1回）イントロダクション/日本語コーパスの紹介†

↑

イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://ccd.ninjal.ac.jp/

（参考）国語研オープンハウス2020　https://www2.ninjal.ac.jp/openhouse2020/
- 動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E

↑

授業内容等の確認†

シラバスの確認
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

「中納言」アカウントについて†

「授業アカウント」について
「中納言」オンライン利用申込み
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
Web茶まめ	形態素解析
テキストエディタサクラエディタ	正規表現を使ったテキストの検索・整形
ワープロWord	「スタイル」を利用したレポート作成
全文検索ソフトひまわり	データの検索,ミニコーパスの作成
R	データの統計分析

↑

授業内容デモ†

コーパスの利用
- 「現代日本語書き言葉均衡コーパス（BCCWJ）」
  - 梵天（BCCWJ文字列検索）
  - 中納言
- 「日本語歴史コーパス（CHJ）」
Excelによる集計（ピボットテーブル）
形態素解析
- Web茶まめ
テキストエディタとgrep
全文検索システムひまわり
R