学習院2021 の履歴(No.22)

FrontPage

日本語学講義Ⅱ（コーパス日本語学入門）†

前期金曜4限：14:40-16:10
Mail: ogiso@ogiso.net

Zoomによるリアルタイムのオンライン授業形式で行います。ZoomのURLはLMS（WebClass）の授業ページで確認してください。
- WebClassの授業ページ
中納言

↑

11月19日　第9回　文字列関数の利用†

↑

調整頻度（pmw）（復習＋補足）†

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」のリンク先からExcel形式でダウンロードできる
  - 語数ファイルをピボットテーブルで集計して分母にする

調整頻度には100万語あたりの頻度（pmw）がよく使われる
- 粗頻度/コーパス総語数*1000000
  - 数字が小さくなりすぎないようにするため

例：「パソコン」「立ち上げる」【済】
例：「矢張り」
※割合を比較するだけなら調整頻度を出す必要はない。

↑

（Excel基礎）セルの相対参照と絶対参照†

A1：相対参照
$A$1：絶対参照
$A1：列のみ絶対参照

↑

調整頻度の例：『日本語歴史コーパス』†

頻度で見る「あはれ」「をかし」と源氏・枕
- ※最低限、調査対象の語数を考慮した（＝調整頻度による）比較が必要
- ファイル

↑

Excelの文字列関数†

集計に必要な情報をフィールドから切り出すことで集計に使う

授業資料/EXCELの文字列関数参照

（参考）Mac版Excelと文字種
- フィルタのオプションで平仮名と片仮名が区別されないので、文字コードで区別する
  - =unicode(文字列) ：文字列の先頭文字の文字コード（Unicode、10進数）を返す

↑

「中納言」インラインタグ機能の利用†

前後文脈に埋め込んだタグから、必要な情報を取り出して利用
- 後述のエディタと正規表現を使うと便利だが、テキストフィルタや文字列関数でも利用できる
  - （参考）授業資料/正規表現

↑

VLOOKUP関数の利用†

授業資料/VLOOKUP関数参照

↑

辞書引き集計†

自分で作った（または誰かが用意してくれた）辞書データ（コーパスの見出し語に対する追加情報）を利用する

例：形容詞の意味分類付与
- （参考）分類語彙表 https://ccd.ninjal.ac.jp/goihyo.html

↑

アノテーションの利用†

自分で作った（または誰かが用意してくれた）コーパスへのアノテーション（用例に対する注釈データ）を利用する

例：中古ラレルの用法分類
- 『日本語歴史コーパス』中古「る」「らる」用法分類アノテーションデータ ver.0.5

↑

11月12日　第8回　 Excelによる検索結果の集計2 ：ちょっとした応用†

↑

「中納言」検索課題（補足）†

「中納言」検索課題 PDF

↑

複数の検索結果の結合（復習）†

例：ワイン・葡萄酒　※単位数が違うので検索条件式でも一つの式では書けない

キー: 語彙素="ワイン";
キー: 語彙素="葡萄" AND 後方共起: 語彙素="酒" ON 1 WORDS FROM キー;

一度にピボットテーブルで集計できるように一つの表にまとめる

※必ず表をくっつけること（空行を入れるとそこで表が切れていると認識される）

または、「検索条件式ごとに出力ファイルを分割する」を外して検索条件式で一度にダウンロード（ZIPファイルの中のcsvファイルを利用）

授業資料/覚えておきたいショートカットキー

↑

ランダムサンプリング調査†

大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列： =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される

例：「られる」「全然」

↑

出現サンプル数の調査（重複の削除）†

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

たとえば同一サンプル内での繰り返しが多いものを調査するとき（例：一人称代名詞など）
- 「データ」→「重複の削除」
例：「俺・僕・私」

↑

BCCWJ利用の落とし穴†

BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
  - レジスターの偏りを年代の偏りと勘違いしないこと
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ

もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない
- →調整頻度の計算
  - cf.人口あたりの事故件数，１平方キロあたりの…etc.

BCCWJの語数
- https://ccd.ninjal.ac.jp/bccwj/bcc-chu-suw.html
短単位語数表をピボットテーブルで集計
- 短単位語数表：http://doi.org/10.15084/00003226

↑

調整頻度（pmw）†

粗頻度を総語数で割る
- レジスターごとの語数データ：中納言ページの「語数について」のリンク先からExcel形式でダウンロードできる
  - 語数ファイルをピボットテーブルで集計して分母にする

調整頻度には100万語あたりの頻度（pmw）がよく使われる
- 粗頻度/コーパス総語数*1000000
  - 数字が小さくなりすぎないようにするため

例：「パソコン」「立ち上げる」
例：「矢張り」
※割合を比較するだけなら調整頻度を出す必要はない。

↑

11/5　第7回　Excelによる検索結果の集計†

↑

前回補足†

検索条件式による周辺語の検索

中納言の使い方 (PDF)ダウンロード

↑

「中納言」検索結果のダウンロードとExcelでの利用†

ダウンロード
Excelでインポート

データの形式
- タブ区切りテキストの各列

↑

Excelの基礎†

並べ替え（ソート）
- 反転前文脈の使い方
フィルタ（絞り込み）
- テキストフィルタ
- 多重フィルター（複数の条件指定）

↑

【重要】ピボットテーブルの使い方†

ピボットテーブル
ピボットグラフ

例：CHJの犬と猫
（参考）国語研オープンハウス2021　https://www2.ninjal.ac.jp/openhouse/2021/
- 動画：『日本語歴史コーパス』のかんたんな使い方─犬派？猫派？編─ https://youtu.be/672LMkV6GxU

↑

複数の検索結果の結合†

一度にピボットテーブルで集計できるように一つの表にまとめる

※必ず表をくっつけること（空行を入れるとそこで表が切れていると認識される）

ショートカットキーを活用すると便利

Ctrl*1+End*2　ファイルの末尾/表のいちばん右下に移動
Shift+Ctrl+End*3　〃範囲を選択

表をコピー
- Ctrl+Home*4（表の左上へ移動）, ↓（列名は選択しないようにするため1行下へ）,Shift+Ctrl+End, Ctrl+C（コピー）
コピーした表を既存の表の下に貼り付け
- Ctrl+↓（表の一番下の行に移動）, ↓（1行下へ）, Ctrl+V（貼り付け）

または、「検索条件式ごとに出力ファイルを分割する」を外して検索条件式で一度にダウンロード（ZIPファイルの中のcsvファイルを利用）

↑

（補足）ショートカットキーについて†

授業資料/覚えておきたいショートカットキー

↑

集計用の列を自分で用意する†

検索例：蒲公英・向日葵・蓮華
- 表記（ひらがな・カタカナ・漢字）別集計

応用：用法分類などなど

↑

10/29　第6回『中納言』の使い方(2)：検索条件の指定†

「中納言」 https://chunagon.ninjal.ac.jp/
- BCCWJ: https://chunagon.ninjal.ac.jp/bccwj-nt
- CHJ: https://chunagon.ninjal.ac.jp/chj

↑

復習†

検索語の条件指定
複数単位の組み合わせ

↑

位置情報と用例へのパーマリンク†

位置検索
- サンプルID,開始位置*5のセットでコーパス上の用例の位置を一意に指定できる
- 位置検索での区切り記号はカンマのほかタブやスペースでも可

用例へのpermalink
- CHJ源氏冒頭の「やんごとなし」：https://chunagon.ninjal.ac.jp/chj/permalink?unit=short&position=20-%E6%BA%90%E6%B0%8F1010_00001,330

↑

検索条件式の利用†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

↓これだけでもいい（WITH OPTIONS 以下は式で指定がない場合、検索画面での設定に従う）

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー

↑

OR検索†

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: (語彙素="言葉" OR 語彙素="言語") ON 1 WORDS FROM キー

↑

周辺語検索†

「美しい」の前後3語以内に出現する名詞（平安仮名文学）

キー: 品詞 LIKE "名詞%"
 AND 共起: 語彙素="美しい" BETWEEN -3 AND 3 WORDS FROM キー
 IN subcorpusName="平安-仮名文学" AND core="true"

↑

10/22　休み（四大戦）†

↑

10/15　第5回『中納言』の使い方†

↑

『中納言』の使い方†

配布資料「『中納言』の使い方」ダウンロード

（3．6まで）

↑

10/8　第4回コーパスの形態論情報†

↑

コーパスの形態論情報†

http://ccd.ninjal.ac.jp/bccwj/morphology.html

短単位と長単位
- （スライド）長単位と短単位参照
- 長単位と短単位・資料単位切りの例
- （参考）動画：コーパス検索システムの言語単位『短単位』 https://youtu.be/s5akpYOzNIU

コーパス検索アプリケーション「中納言」と短単位と長単位
- 中納言の使い方

↑

品詞体系†

BCCWJ・CHJはUniDicの品詞体系にもとづく（BCCWJのために開発されたのがUniDic）
- 授業資料/UniDicの品詞体系
- 授業資料/UniDicの見出し語階層

↑

コーパスへの形態論情報の付与†

短単位：MeCabとUniDicを使った形態素解析で情報付与
長単位：Comainu（など）で短単位を組み上げる

↑

残された資料に限りがある（そもそも偏りがある）歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難

近世以前: 残されている資料が少なく、できるだけ（可能なら全部）コーパスに入れたい
近世（後期）以降: 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい（作品など資料単位で調査したい）

『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本：年代・著者（・地域）のバランスを取って作品単位でサンプリング

↑

近代語コーパスの場合†

近代雑誌（現在はCHJの一部）
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
  - 「太陽コーパス」：8年おきに12冊ずつを対象
- その後の雑誌コーパスも8年おきに収録
  - 明六雑誌・東洋学芸雑誌・国民之友・太陽（・中央公論・文藝春秋）
近代小説
- 複数の有識者が日本語資料として選定・投票した結果（1980年代に作成した資料）をもとにサンプリング
- https://www.jpling.gr.jp/taikai/happyo/yosi/2019/b/yosi_2019b_e3.pdf

↑

「日本語日常会話コーパス」（CEJC）の構成†

『日本語日常会話コーパス』
- 現在はモニター版100時間分を公開
- https://www2.ninjal.ac.jp/conversation/cejc-monitor/design.html

↑

利用する側から見たコーパスの設計†

BCCWJでもCHJでも、どのように設計されているかを知らないと大きな誤りを犯す可能性がある
- サブコーパスのサイズを無視した比較
- バランスのとれていない項目間の単純比較（BCCWJの年代、CHJの時代・ジャンル等）

↑

9/24　第2回日本語コーパスの紹介（1）『現代日本語書き言葉均衡コーパス』†

↑

コーパスを使ってみる†

細かい話は抜きで「中納言」でコーパスを使ってみよう
- 『現代日本語書き言葉均衡コーパス』（BCCWJ）コアのみ
- 文字列検索
- 短単位検索

↑

コーパスとは†

（以下スライド参照）

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

現代日本語書き言葉均衡コーパス（BCCWJ） / 日本語歴史コーパス（CHJ）

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
- 参考：「ひまわり」パッケージ
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス（BCCWJ）」と「日本語歴史コーパス（CHJ）」

↑

コーパスへの要請†

大規模であること
各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
著作権の問題がないこと
言語研究に利用できる情報がついていること

↑

「現代日本語書き言葉均衡コーパス」（BCCWJ）の構成とサンプリング†

https://ccd.ninjal.ac.jp/bccwj/

均衡コーパス（Balanced corpus）
- 「バランスがとれている」「代表性」とは？
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長

著作権をめぐる問題

↑

参考リンク†

英語のコーパスリファレンス
- ブラウンコーパスマニュアル http://khnt.aksis.uib.no/icame/manuals/brown/
- BNCリファレンスガイド http://www.natcorp.ox.ac.uk/docs/URG/
現代日本語書き言葉均衡コーパス（BCCWJ）
- 現代日本語書き言葉均衡コーパス：概要
- BCCWJの基本設計：https://ccd.ninjal.ac.jp/bccwj/basic-design.html
- サンプリング：https://ccd.ninjal.ac.jp/bccwj/sampling.html
- XMLによる電子化：https://ccd.ninjal.ac.jp/bccwj/XML.html

↑

09/17 第1回　イントロダクション†

自己紹介
- 大学共同利用機関法人人間文化研究機構国立国語研究所 https://www.ninjal.ac.jp/
- 国立国語研究所コーパス開発センター https://ccd.ninjal.ac.jp/

↑

授業内容等の確認†

オンライン授業の進め方について
- 原則としてZoomでのリアルタイム授業
- 録画を共有するので復習すること

シラバスの確認
- シラバス(G-Port)
- この授業の目的
- 授業の進め方
- 評価方法

受講者アンケート
- 関心のある分野について
- PC等のスキルについて

↑

「中納言」アカウントについて†

「授業アカウント」について
「中納言」オンライン利用申込み
- https://chunagon.ninjal.ac.jp/useraccount/register

↑

授業で利用する主なソフトウェア・Webアプリケーション（予定）†

ソフトウェアの種類・名前	利用目的
コーパス検索アプリケーション「中納言」	コーパスの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成
ワープロWord	「スタイル」を利用したレポート作成
Web茶まめ	形態素解析
テキストエディタサクラエディタ	正規表現を使ったテキストの検索・整形

↑

授業内容デモ†

コーパスの利用
- 「現代日本語書き言葉均衡コーパス（BCCWJ）」
  - 中納言
- 「日本語歴史コーパス（CHJ）」
Excelによる集計（ピボットテーブル）
形態素解析
- Web茶まめ
テキストエディタと正規表現

↑

（オープンハウス）†

（参考）国語研オープンハウス2020　https://www2.ninjal.ac.jp/openhouse2020/
- 動画「日本語歴史コーパス」の紹介 https://youtu.be/tKvVR2K2h2E
（参考）国語研オープンハウス2021　https://www2.ninjal.ac.jp/openhouse/2021/
- 動画：『日本語歴史コーパス』のかんたんな使い方─犬派？猫派？編─ https://youtu.be/672LMkV6GxU