FrontPage

言語学特殊講義XI/コーパス日本語学


7月2日(第12回) レポートについて/コロケーション強度

レポートテーマについて

コロケーション強度

コーパス中に出現する語同士の結びつきの強さをはかる

特徴語抽出

複数コーパスの語彙を比較してコーパスに特徴的な語を抽出する

6月25日(第11回) テキストエディタと正規表現によるテキストデータの整形

レポートテーマ(仮)提出について

(再掲)「中納言」インラインタグ機能の利用

デモ

テキストデータについて

テキストエディタ

テキストエディタのダウンロードとインストール

Macの場合(miのダウンロードとインストール)

テキストエディタの基本操作

正規表現とは

正規表現を使ってみる

正規表現のいろいろ

正規表現の応用

タグ付き正規表現

最長一致の原則(greedy matching)

検索文字列の中での後方参照

正規表現に関する参考資料

(参考)テキストデータ(青空文庫)の配布

6月18日(第10回) VLOOKUP関数による辞書引き集計

質問コーナー回答

VLOOKUP関数の利用

(参考)分類語彙表

(参考)ジップ(Zipf)の法則

「中納言」インラインタグ機能の利用

6月11日(第9回) 検索結果集計のための応用:調整頻度の計算/文字列関数

調整頻度(pmw)

(Excel基礎)セルの相対参照と絶対参照

『日本語歴史コーパス』で復習

Excelの文字列関数

集計に必要な情報をフィールドから切り出すことで集計に使う

6月4日(第8回) Excelによる検索結果の集計2:ちょっとした応用と注意点

複数の検索結果の結合(復習)

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓, ↓, Ctrl+V

(参考)ショートカットキー

ランダムサンプリング調査

※BCCWJでも「中納言」の出力結果は十分にランダムではない

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプルの数を調べたい場合

BCCWJ利用の落とし穴

5月28日(第7回)「中納言」の使い方2:Excelによる検索結果の集計

復習

Excel

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. Excelでインポート

Excelの基礎

【重要】ピボットテーブルの使い方

集計用の列を自分で用意する

複数の検索結果の結合

5月21日(第6回) 「中納言」の使い方

位置情報と用例へのパーマリンク

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 IN ((registerName="出版・新聞" AND core="true") OR (registerName="出版・雑誌" AND core="true") OR (registerName="出版・書籍" AND core="true") OR (registerName="特定目的・白書" AND core="true") OR (registerName="特定目的・知恵袋" AND core="true") OR (registerName="特定目的・ブログ" AND core="true"))
キー: 語彙素="カレー"
 AND 後方共起: (品詞 LIKE "助詞-格助詞%" AND NOT(語彙素 LIKE "[がをに]")) ON 1 WORDS FROM キー

※NOT演算子ではなく、条件句(○○="□□"や○○ LIKE "□□")の否定にのみ使える*2

5月7日(第5回) コーパス検索アプリケーション「中納言」

4月30日(第4回) コーパスの形態論情報と形態素解析

コーパスの形態論情報

コーパスへの形態論情報の付与

形態素解析:「Mecab」と「UniDic」

形態素解析とは

どんなものか



morph.png

形態素解析用ソフトウェア

以前から使われているソフトウェア

UniDicの特長

  1. 見出し語が短単位という斉一な単位に揃えられている
  2. 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
  3. アクセントや音変化の情報を付与することができる
  4. 語種など言語研究のための豊富な情報が付与されている

比較的新しい形態素解析器

形態素解析に関する専門書

(参考)長単位解析器

※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる

(参考)係り受け解析器

※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き

最近の形態素解析器

長単位解析器

係り受け解析器

日本語コーパスのタグ付けのレベル

テキストのレベルツール必要な技術
プレーンテキストテキストエディタgrepと正規表現
構造化テキストひまわり→ ExcelXML・マークアップの基礎,ピボットテーブル
形態素解析済みUniDic+MeCab→中納言・ChaKi形態素解析の知識,ChaKi等の使い方
係り受け情報付き+CaboChaなど→ChaKi
  1. プレーンテキスト:テキストエディタ(grepと正規表現)
  2. 構造化テキスト(旧「太陽コーパス」など):XMLと「ひまわり」
  3. 形態素解析済みテキスト(BCCWJ, CHJなど):「中納言」
  4. 係り受け情報・統語情報付き(NWJC, NPCMJなど):ChaKi, NPCMJ Searchなど

4月23日(第3回) コーパスの設計(2)

前回続き(スライド残り)

「日本語歴史コーパス」(CHJ)の構成

近世以前
残されている資料が少なく、できるだけ(可能なら全部)コーパスに入れたい
近世(後期)以降
偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい(作品など資料単位で調査したい)

近代語コーパスの場合

利用する側から見たコーパスの設計

紙の資料からコーパスまで ~テキストの電子化とアノテーションの高度化

  1. (紙の)本文
  2. (紙の)総索引(コンコーダンス)
  3. 電子テキスト:テキスト (199x年代~)
  4. 構造化テキスト:テキスト+XMLによる構造化タグ (200x年代~)
  5. 単語情報付きのコーパス:テキスト+XMLによる構造化タグ+形態論情報 (201x年代~)

電子化とアノテーション(明六雑誌コーパスを例に)

4月16日(第2回) コーパスの設計

※以下、スライド(学部授業用)大学院授業用・同内容)も参照

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • 現代日本語書き言葉均衡コーパス(BCCWJ) / 日本語歴史コーパス(CHJ)
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

コーパスに求められるもの

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

参考リンク

4月9日(第1回)イントロダクション/日本語コーパスの紹介

イントロダクション

授業内容等の確認

「中納言」アカウントについて

授業で利用する主なソフトウェア・Webアプリケーション(予定)

ソフトウェアの種類・名前利用目的
コーパス検索アプリケーション「中納言」コーパスの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
Web茶まめ形態素解析
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
ワープロWord「スタイル」を利用したレポート作成
全文検索ソフトひまわりデータの検索,ミニコーパスの作成
Rデータの統計分析

授業内容デモ


*1 サンプル先頭からの文字数を10倍したもの
*2 NOT(△△="□□")はok。△△=NOT("□□")や△△ NOT LIKE "□□"は不可
*3 最新版はMeCab版のみ
*4 現在では動かすのがたいへん

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS