[[阪大2013]] *12月18日 #contents ***''今日''の授業で利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索| |[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]|形態素解析を実行するプログラム| |[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpus_center/unidic/]]|BCCWJやCHJと同じ短単位で解析できる辞書| &br; #hr *構造化文書とタグ付きコーパス **太陽コーパス -[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]] &ref(Taiyo190101.jpg,,50%); -スライド *全文検索ソフト:「ひまわり」 -「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]★ --プレーンテキストではなく、XML形式にして、インデックスを付けた専用のデータを利用 -近代女性雑誌コーパス --http://www.ninjal.ac.jp/corpus_center/cmj/woman-mag/ --列名(近代女性雑誌コーパス)★ |前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|文体|話者|種別|位置| -「ひまわり」で青空文庫を検索 --[[ひまわり用「青空文庫」パッケージのダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]] --列名★ |前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|文字遣い|作品ID|人物ID|生年月日|没年月日|文字数|メモ1|メモ2| ***「ひまわり」で使用できる正規表現 [#t52b1fee] -[[授業資料/Himawariの正規表現]] -検索語/キー:普通の文字と、列挙型の文字クラス([あいう]のようなもの。 --例:[寂淋]し --前文脈/後文脈:ほぼ全ての正規表現 -[あ-う]のような範囲指定はモード切替で(インデックスが使えないので遅い) *検索結果の集計:Excelとピボットテーブル ***Excelの基礎 -並べ替え(ソート) -フィルター(絞り込み) --テキストフィルター --多重フィルター(複数の条件指定) -ピボットテーブル --ピボットグラフ ***Excelを使った集計 [#l7da4009] -ピボットテーブル・ピボットグラフを使う ---それきり・それぎり --参考:http://office.microsoft.com/ja-jp/excel/CH062528071041.aspx -グラフの種類について --http://office.microsoft.com/ja-jp/help/HA012337371041.aspx --扱う対象・方法に適したグラフを選択する 上記URL参照 -用例の分類と集計 ++ピボットテーブルで自分で用意した列名を使う ---ミタヨウダ/ミタイダ ++分類記号を入れる列を用意し、自分で入力する ---新聞紙 -関数を使う --[[NDC>http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%8D%81%E9%80%B2%E5%88%86%E9%A1%9E%E6%B3%95]]の最上位だけを取り出すには --生年を10年ごとの生まれた年代に変換するには ---=LEFT(TEXT(生年月日,"yyyy"),3)*10 ***ランダムサンプリング調査 --大量に用例があり、調査内容からすべて対象にできない場合 --ランダムに並べ替え→先頭n例を調査対象に ---ランダムな数字の列: =RAND() ---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される ***テキストエディタと組み合わせて使う [#uc1f5bff] -Excelの列をテキストエディタに貼り付けて編集することができる -エディタと組み合わせて工夫することでExcelだけでは簡単にできない処理が可能 --特定の列をエディタにコピーして正規表現を使った置換を行う ---例:前文脈を「.+。」→「」置換、後文脈を「。.+」→「。」に置換 **えだまめによるミニコーパス作成 -テキストデータを「ひまわり」で利用するには --[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]] --同等機能が最新版「ひまわり」(1.5)に内蔵された &br; #hr *形態素解析 #include(授業資料/形態素解析,notitle) &br; #hr --形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***授業用UniDic+MeCabパッケージのダウンロード -https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる --ブログのテキストと新聞記事のテキストの解析結果を比較 **歴史的資料を対象とした形態素解析 -http://www.ninjal.ac.jp/corpus_center/unidic/ ***形態素解析結果を使って索引を作る -「近代文語UniDic」「中古和文UniDic」を利用した 総索引作成システムの開発 --&ref(JMC2010_concorcance.pdf); *形態論情報付きの近代語コーパス -(国定)高等小学読本コーパス -明六雑誌コーパス **明六雑誌コーパス -[[「形態論情報付き近代語コーパスのアノテーション ―『明六雑誌コーパス』を例として―」>http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf]] --http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-2.pdf -Excelによる集計(ピボットテーブル)