日本語学講義(I) 日本語コーパス研究入門†
- 授業に関するメールはこちらへ。
小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください
- 授業フォルダ \\Linkstation\share\日本語コーパス
レポートについて
- 締め切り:2月11日
- 枚数:A4用紙 3枚~20枚
2013/02/25 総まとめ
まとめ
- できたものを利用
- 自分でデータをなんとかする
テキストのレベル | ツール | 必要な技術 |
プレーンテキストレベル | テキストエディタ | grepと正規表現 |
タグ付きテキストレベル | ひまわり→ Excel | XML・マークアップの基礎,ピボットテーブル |
形態素解析済みテキストレベル | UniDic,MeCab→ChaKi | ChaKiの使い方 |
発展
- 今後、コンピュータを活用した言語研究を本格的に行っていくために覚えると良いこと
- テキスト処理のための言語なにか一つ Perl(or Ruby,Python)
- データベース(RDB)とSQL
- 統計処理・R言語
- マークアップ言語と関連技術 XML/XSLT
- 授業資料/コンピュータ言語 (関連書籍の情報,ちょっと古い)
質問
- レポートについて、またはこれまでの授業内容に関して質問を受け付けます
2013/01/18 特別授業@国語研(ChaKi)
- MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
- UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
- ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
- データの解析と取り込み
- 茶器による検索
- 文字列検索
- 正規表現検索
- タグ検索(形態論情報を利用した検索)
- ワードリスト
- 解析結果の修正
2013/01/11 Wordでレポートや論文を書く
ひまわり補足
Wordでレポートや論文を書く
- 文書の構造化
- スタイルと見出し*
- ナビゲーション ウィンドウ(見出しマップ)*
- 章・節番号
- 図表の貼り込み
- 「形式を選択して貼り付け」*
- 図表番号とキャプション*
- 脚注*
- 相互参照
- リスト
- 少なくとも*印の機能はこの授業のレポートで実際に利用すること
サンプルファイル:中納言概説
質問
2012/12/21 ひまわり
ひまわり
- ひまわり用データ(授業フォルダ)
- テキストデータを「ひまわり」で利用するには
- えだまめ
- 同等機能が最新版「ひまわり」(1.5)に内蔵された
- 「名大会話コーパス」をひまわりで
Excelを使った集計(補足)
- 調整頻度
- レジスターごとの総語数が違うので、粗頻度ではなく1,000,000語あたり頻度(WPM)などに直して比較する
2012/12/14 文字列検索と正規表現 (少納言,テキストエディタ)
レポートテーマ
少納言
テキストエディタ
- サクラエディタのダウンロード
- grepとタグジャンプ
正規表現
- 正規表現 >用語
- 文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
- エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
- 授業資料/正規表現
2012/12/7 UniDicによる形態素解析
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
- 応用:テキストのジャンルと語種,品詞の割合をグラフ化してみる
- ブログのテキストと新聞記事のテキストの解析結果を比較
2012/11/30
復習と補足
- 連体修飾(である可能性が高いもの)の検索と集計
- ジップの法則
ショートカットキー
長単位と短単位の仕様の違い
- 複合辞
- 可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(長単位)
- 可能動詞の語彙素
集計のための処理
- 集計用の列を用意する
- 文字列関数による置き換え
- 品詞の大分類を使う
- =LEFT(<品詞>,SEARCH("-",<品詞>)-1)
- Excelの文字列関数とif関数
- left,right,mid,len,search,substitute
利用例:「訊く」の話
2012/11/16
「中納言」検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
中納言の検索結果をExcelで利用する
Excelの基本
Excel:ピボットテーブルとピボットグラフ
- ピボットテーブル
- Excelのバージョンによってかなり操作方法が違うので注意
- ピボットグラフ
2012/11/09
検索条件式
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true"
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"
BCCWJの形態論情報
- UniDicの品詞体系 (配付資料)
- 品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う
- サ変動詞を 名詞+動詞スル として扱う
- 活用語に助動詞「う」が付いた形を意志推量形として扱う
長単位の品詞
- 短単位との違い
- 可能性に基づく品詞付与ではなく、出現例に即した品詞付与
- 複合辞
- 可能動詞の扱い
2012/10/26
「中納言」の利用
中納言によるコーパスの検索方法
2012/10/19
- 受講者の専門分野・関心領域
- 「中納言」アカウント確認
コーパスの設計とサンプリング
- ★スライド参照(授業フォルダ)
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
2012/10/12 コーパスとは
はじめに
- 授業フォルダの説明
- \\Linkstation\share\日本語コーパス
コーパスとは
- ★スライド参照(授業フォルダ)
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
「少納言」を使ってみる
参考リンク
2012/10/05 イントロダクション†
- デモンストレーション
- BCCWJ中納言+Excel
- 茶まめ(形態素解析)
- ひまわり
授業で利用する主なソフトウェア†