阪大2013
12月18日
今日の授業で利用する主なソフトウェア†
構造化文書とタグ付きコーパス
太陽コーパス
全文検索ソフト:「ひまわり」
- 列名★
前文脈 | キー | 後文脈 | 作品名 | 副題 | 著者 | 役割 | 初出 | 分類番号 | 文字遣い | 作品ID | 人物ID | 生年月日 | 没年月日 | 文字数 | メモ1 | メモ2 |
「ひまわり」で使用できる正規表現†
- 授業資料/Himawariの正規表現
- 検索語/キー:普通の文字と、列挙型の文字クラス([あいう]のようなもの。
- 例:[寂淋]し
- 前文脈/後文脈:ほぼ全ての正規表現
- [あ-う]のような範囲指定はモード切替で(インデックスが使えないので遅い)
検索結果の集計:Excelとピボットテーブル
Excelの基礎
- 並べ替え(ソート)
- フィルター(絞り込み)
- テキストフィルター
- 多重フィルター(複数の条件指定)
- ピボットテーブル
Excelを使った集計†
- ピボットテーブル・ピボットグラフを使う
- グラフの種類について
- 用例の分類と集計
- 分類記号を入れる列を用意し、自分で入力する
- ピボットテーブルで入力した分類を使う
- 関数を使う
- NDCの最上位だけを取り出すには
- 生年を10年ごとの生まれた年代に変換するには
- =LEFT(TEXT(生年月日,"yyyy"),3)*10
(補足)テキストエディタと組み合わせて使う†
- Excelの列をテキストエディタに貼り付けて編集することができる
- エディタと組み合わせて工夫することでExcelだけでは簡単にできない処理が可能
- 特定の列をエディタにコピーして正規表現を使った置換を行う
えだまめによるミニコーパス作成
- テキストデータを「ひまわり」で利用するには
- えだまめ
- 同等機能が最新版「ひまわり」(1.5)に内蔵された
形態素解析
形態素解析:「Mecab」と「UniDic」†
形態素解析とは†
どんなものか
- デモ: Web茶まめ (MeCab + UniDic)
- 日本語の自然言語処理の基礎技術
- 今ではかなり枯れた技術
- 機械学習による言語処理のはしり
- 形態素解析の解析単位は言語学で言う「形態素」ではないことに注意
- 「形態素解析」= "Morphological analysis"
- morphologicalな(形態論上の)単位は形態素だけではない(訳語に問題がある)
- 日本語の形態素解析の単位は一般に「語」(語をどう定義するかという問題は残る)
- 形態素解析の仕組み
- 生起コストと連接コスト
- その語はどれくらい出てくるか、どんな語とつながりやすいか
- コーパスから統計的に取得(機械学習)
- 経路の選択(参考:ビタビアルゴリズム)
形態素解析用ソフトウェア†
以前から使われているソフトウェア
- 形態素解析器(解析エンジン・プログラム)
- 解析用辞書
UniDicの特長†
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
- 語種など言語研究のための豊富な情報が付与されている
- UniDicはChaSen, MeCabのどちらの解析器でも利用可能*1
- 後から開発されたMeCabの方が解析精度が高いのでおすすめ
比較的新しい形態素解析器†
形態素解析に関する専門書†
- 工藤拓『形態素解析の理論と実装』近代科学社(2018)
(参考)長単位解析器†
※BCCWJの長単位を付けるのに使われた。短単位を組み上げて品詞を長単位規定に合わせることができる
(参考)係り受け解析器†
※BCCWJには係り受け情報は付いていない。NWJCは自動解析した係り受け情報付き
授業用UniDic+MeCabパッケージのダウンロード
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
- テキストのジャンルと語種,品詞の割合をグラフ化してみる
- ブログのテキストと新聞記事のテキストの解析結果を比較
歴史的資料を対象とした形態素解析
形態素解析結果を使って索引を作る
- 「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発
形態論情報付きの近代語コーパス
明六雑誌コーパス