名古屋大学2020・コーパス日本語学入門†
もくじ†
日程等†
- 集中講義
- 9月23日 3-5限(13:00~)
- 9月24日,25日,28日 2-5限(10:30~)
- オンライン授業
- 原則としてオンラインのリアルタイム講義 (Teams)
- TeamsのURLはNUCTで告知する
- 資料はこのページまたはNUCTで配布する
- Remo
- 連絡先
- togiso◎ninjal.ac.jp (←◎を@に)
2020年9月23日(水)†
第1回(3限) イントロダクション/日本語コーパスの紹介†
イントロダクション†
授業内容等の確認†
- オンライン授業の進め方について
- 原則としてTeamsでのリアルタイム授業
- 休み時間のほか、課題時間を挟む
「中納言」アカウントについて†
- 「授業アカウント」について
- 「中納言」オンライン利用申込み
授業で利用する主なソフトウェア・Webアプリケーション(予定)†
授業内容デモ†
- コーパスの利用
- Excelによる集計(ピボットテーブル)
- 形態素解析
- テキストエディタとgrep
- 全文検索システムひまわり
- R
第2回(4限) コーパスの設計†
コーパスとは†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
- さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
- Web上のデータ
- 検索サイトの利用
- WAC(Web as Corpus)
- この授業で主に扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
紙の資料からコーパスまで (日本語研究資料の変遷)†
- (紙の)本文
- (紙の)総索引(コンコーダンス)
- 各種の電子テキスト
- 構造化テキスト
- 形態論情報付きコーパス
コーパスに求められるもの†
- コーパス以前の電子化日本語資料(とその限界)
- 個人研究者による電子化テキスト
- 出版社による電子出版物(CD-ROM)
- 新聞のデータベース(CD-ROM)
- 研究機関のデータベース
- Web上のテキストアーカイブ
- Webそのもの
- コーパスへの要請
- 大規模であること
- 各種のテキストが含まれていて、ジャンルなどのバランスがとれていること
- 著作権の問題がないこと
- 言語研究に利用できる情報がついていること
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング†
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」「代表性」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
「日本語歴史コーパス」(CHJ)の構成†
参考リンク†
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
第3回(5限) コーパスの形態論情報と形態素解析†
コーパスの形態論情報†
コーパスへの形態論情報の付与†
- 短単位:MeCabとUniDicを使った形態素解析で情報付与
- 長単位:Comainu(など)で短単位を組み上げる
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*2
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
最近の形態素解析器†
長単位解析器†
係り受け解析器†
日本語コーパスのタグ付けのレベル†
テキストのレベル | ツール | 必要な技術 |
プレーンテキスト | テキストエディタ | grepと正規表現 |
構造化テキスト | ひまわり→ Excel | XML・マークアップの基礎,ピボットテーブル |
形態素解析済み | UniDic+MeCab→中納言・ChaKi | 形態素解析の知識,ChaKi等の使い方 |
係り受け情報付き | +CaboChaなど→ChaKi | |
- プレーンテキスト:テキストエディタ(grepと正規表現)
- 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」
- 形態素解析済みテキスト(BCCWJ,CHJなど):「中納言」
- 係り受け情報・統語情報付き(NWJC,NPCMJなど):ChaKi, NPCMJ Searchなど
2020年9月24日(木)†
第4回(2限) 『中納言』の使い方(基礎)†
形態論情報を利用した検索†
第5回(3限) 『中納言』の使い方†
検索条件式の利用†
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
交流会(Remo)†
第6回(4限) 検索結果の集計(Excelとピボットテーブル)†
「中納言」検索結果のダウンロードとExcelでの利用†
- ダウンロード
- アーカイブの展開(解凍)
- Excelでインポート
Excelの基礎†
【重要】ピボットテーブルの使い方†
第7回(5限)†
「検索課題」†
【宿題】レポートテーマについて†
- 普段から見聞きする言葉に気をつけるとともに、図書館も活用すること
- ひとつの言葉から、同種の別の語や違う観点からの観察などへと膨らませていく
- 表記
- 「雀」「すずめ」「スズメ」動植物名の表記・・・レジスター別用例数、文体差
- 「卵」「玉子」「たまご」「タマゴ」・・・意味の違い?文体差?
- 「斡旋」「あっ旋」「あっせん」、「石鹸」「石けん」「せっけん」・・・常用漢字表外字を含む漢語の表記の揺れ
- 類義語・対義語
- 「奇麗」と「美しい」・・・連体修飾する名詞の違い(→意味の違い)
- 「うるさい」「やかましい」「さわがしい」「かしましい」「かまびすしい」類義語・・・共起語、文体差
- 「男性」と「女性」(「男」と「女」)・・・語彙の非対称性、社会言語学的分析
- 語形、語法
- 「好ましい」「好もしい」・・・語形の揺れと文体差
- 「煙草を吸う」と「煙草をのむ」・・・用例数の割合、「煙草をのむ」の出現条件
- 意味変化・新語
- 「役不足」「確信犯」・・・”誤用”と”正用”
- 「断トツ」「定番」「夜ご飯」・・・新語の広がり
2020年9月25日(金)†
第8回(2限) ちょっとした応用†
複数の検索結果の結合†
ショートカットキーを活用すると便利
- Ctrl+End ファイルの末尾/表のいちばん右下に移動
- Shift+Ctrl+End 〃範囲を選択
- 表をコピー
- Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
- コピーした表を既存の表の下に貼り付け
- Ctrl+↓, ↓, Ctrl+V, Ctrl+Home
ショートカットキー†
集計用の列を自分で用意する†
- 例:表記(ひらがな・カタカナ・漢字)別集計
- 例:用法分類
ランダムサンプリング調査†
- 大量に用例があり、調査内容からすべて対象にできない場合
- ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列: =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
第9回(3限) BCCWJ利用の注意点†
出現サンプル数の調査(重複の削除)†
用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合
- たとえば同一サンプル内での繰り返しが多いものを調査するとき(例:一人称代名詞など)
BCCWJ利用の落とし穴†
- BCCWJはあくまでも「現代語」のためのコーパスなので通時的な調査には向かない
- レジスターによって母集団の年が違っている
- 30年あるのは白書・ベストセラー・国会会議録など一部のものだけ
- もともとテキスト量の多いレジスターにたくさん用例があるからといって「そのレジスターでよく使われる」とはいえない→調整頻度の計算
- cf.人口あたりの事故件数,1平方キロあたりの…etc.
調整頻度の計算†
- 粗頻度を総語数で割る
- レジスターごとの語数データ:中納言ページの「語数について」からExcelでダウンロードできる
- 調整頻度には100万語あたりの頻度(pmw)が比較的よく使われる
- ※割合の違いを比較するだけなら調整頻度を出す必要はない。
第10回(4限) 集計のための応用(文字列関数)†
(補足)CHJでの復習†
Excelの文字列関数†
第11回(5限) 集計のための応用2(VLOOKUP関数)†
VLOOKUPを用いた辞書引き集計†
(補足)「中納言」インラインタグ機能の利用†
2020年9月28日(月)†
レポートテーマおよび質問について(NUCT課題)†
第12回(2限) テキストエディタと正規表現†
テキストデータ†
テキストエディタ†
サクラエディタのダウンロードとインストール†
- インストールの手順
- ダウンロードしたzipファイルの中にあるsakura-install*.exeをデスクトップにコピー
- exeファイルを右クリックして「セキュリティ」の右の「許可する」をチェックして「OK」
- ダブルクリックしてインストール
Macの場合(miのダウンロードとインストール)†
テキストエディタを使ってみる†
- テキストエディタの設定
- 行の折り返し
- 行番号表示
- スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
- 検索・置換、grep
- 検索で初出行を調べる
- 置換で用例数を数える
- grepで用例リストを作る
- タグジャンプで文脈を確認する
- サブフォルダのgrep
grepと置換でKWIC(CSVファイル)を作る(簡易版)†
- CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
- KWIC:KeyWord In Context
正規表現を使ってみる†
- 文字クラス
- 例:読[まみむめもん]
- 半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
第13回(3限) 正規表現†
正規表現とは†
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- テキストエディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 特殊な文字(メタ文字)はすべて半角
正規表現のいろいろ†
- 授業資料/正規表現
- 文字クラス [ ]
- 文字クラスの否定(補集合)[^ ]
- 繰り返し ? + *
- グループ化 ()
- or(論理和) |
- 文頭 ^、文末 $
正規表現の応用†
- カタカナ語
- 送りがなの揺れ(行う/行なう)
- 会話文中("「"で始まる文中)の用例を検索する
- 同一文中での共起
タグ付き正規表現†
- 走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
- 検索文字列:走[らりるれろっ]
- 置換文字列:★走[らりるれろっ]
- タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
- 授業資料/タグつき正規表現
最長一致の原則(greedy matching)†
- 正規表現は、パターンが一致する最も長い範囲にマッチする
- 例:あ+ → 【\1】
- ああああああああ → 【ああああああああ】
そのせいで…
- 例:「(.+)」 → 【\1】
- 「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
- 括弧の組ごとに置換するためには「([^」]+)」 → 【\1】 のように書かなければならない
- 「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
- よりかんたんに指定するには(最短一致,ものぐさ指定)
- 「(.+?)」「(.*?)」のように、繰り返し指定の+*の後に「?」をつける
検索文字列の中での後方参照†
- 検索語の中で\1を使う
- (..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
- (..)\1\1
- (...)\1
正規表現に関する参考資料†
(参考)テキストデータ(青空文庫)の配布†
第14回(4限) Excel応用編 / さらなる活用に向けて†
アノテーションデータとVLOOKUP†
- 資料:小木曽(2019)「『日本語歴史コーパス』への追加情報の付与と共有―中古和文の「る」「らる」を例に―」
コロケーション強度†
- 資料:小木曽(2014)「コーパス活用の勘所(第6回)【中古語の文法】助動詞と上接動詞のコロケーション」日本語学 33(11) pp.82 - 87
コーパスの語彙表†
特徴語抽出†
- 地の文・会話文・歌ごとの語彙の位相差の話
- 資料:小木曽(2015)「中古和文における文体別の特徴語」ひつじ書房『コーパスと日本語史研究』 pp.93 - 117
Rの利用†
第15回(5限) レポートの書き方/ 質問コーナー†
Wordでレポートを書く†
文書の構造化とWordの使い方(レポートの書き方)
- 文書の構造化*
- スタイルと見出し
- ナビゲーション ウィンドウ(見出しマップ)の使い方
- 章・節番号
- 図表の貼り込み*
- 「形式を選択して貼り付け」
- 図表番号とキャプション
- 脚注
- 相互参照
- ページ番号*
- PDFとして保存(ブックマークを付加)*
打ち上げ(Remo)†