阪大2013/12月18日
をテンプレートにして作成
開始行:
[[阪大2013]]
*12月18日
#contents
***''今日''の授業で利用する主なソフトウェア [#i06478d2]
|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''サクラエディタ'' sakura2>http://sou...
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lr...
|[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/...
|[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpu...
&br;
#hr
*構造化文書とタグ付きコーパス
**太陽コーパス
-[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_ce...
&ref(Taiyo190101.jpg,,50%);
-スライド
*全文検索ソフト:「ひまわり」
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
--プレーンテキストではなく、XML形式にして、インデックスを...
-近代女性雑誌コーパス
--http://www.ninjal.ac.jp/corpus_center/cmj/woman-mag/
--列名(近代女性雑誌コーパス)★
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|...
-「ひまわり」で青空文庫を検索
--[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
--列名★
|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|...
***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]の...
--例:[寂淋]し
--前文脈/後文脈:ほぼ全ての正規表現
-[あ-う]のような範囲指定はモード切替で(インデックスが使...
*検索結果の集計:Excelとピボットテーブル
***Excelの基礎
-並べ替え(ソート)
-フィルター(絞り込み)
--テキストフィルター
--多重フィルター(複数の条件指定)
-ピボットテーブル
--ピボットグラフ
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う
---それきり・それぎり
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
-用例の分類と集計
++ピボットテーブルで自分で用意した列名を使う
---ミタヨウダ/ミタイダ
++分類記号を入れる列を用意し、自分で入力する
---新聞紙
-関数を使う
--[[NDC>http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E...
--生年を10年ごとの生まれた年代に変換するには
---=LEFT(TEXT(生年月日,"yyyy"),3)*10
***ランダムサンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND()
---ランダムな数字の列をコピーして「値として貼り付ける」と...
***テキストエディタと組み合わせて使う [#uc1f5bff]
-Excelの列をテキストエディタに貼り付けて編集することがで...
-エディタと組み合わせて工夫することでExcelだけでは簡単に...
--特定の列をエディタにコピーして正規表現を使った置換を行う
---例:前文脈を「.+。」→「」置換、後文脈を「。.+」→「。」...
**えだまめによるミニコーパス作成
-テキストデータを「ひまわり」で利用するには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
&br;
#hr
*形態素解析
#include(授業資料/形態素解析,notitle)
&br;
#hr
--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/tru...
***授業用UniDic+MeCabパッケージのダウンロード
-https://dl.dropboxusercontent.com/u/134600/portable-unid...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較
**歴史的資料を対象とした形態素解析
-http://www.ninjal.ac.jp/corpus_center/unidic/
***形態素解析結果を使って索引を作る
-「近代文語UniDic」「中古和文UniDic」を利用した 総索引作...
--&ref(JMC2010_concorcance.pdf);
終了行:
[[阪大2013]]
*12月18日
#contents
***''今日''の授業で利用する主なソフトウェア [#i06478d2]
|ソフトウェアの種類・名前|利用目的|h
|[[テキストエディタ ''サクラエディタ'' sakura2>http://sou...
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lr...
|[[形態素解析器''MeCab''>http://mecab.googlecode.com/svn/...
|[[形態素解析辞書''UniDic''>http://www.ninjal.ac.jp/corpu...
&br;
#hr
*構造化文書とタグ付きコーパス
**太陽コーパス
-[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_ce...
&ref(Taiyo190101.jpg,,50%);
-スライド
*全文検索ソフト:「ひまわり」
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
--プレーンテキストではなく、XML形式にして、インデックスを...
-近代女性雑誌コーパス
--http://www.ninjal.ac.jp/corpus_center/cmj/woman-mag/
--列名(近代女性雑誌コーパス)★
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|...
-「ひまわり」で青空文庫を検索
--[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
--列名★
|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|...
***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]の...
--例:[寂淋]し
--前文脈/後文脈:ほぼ全ての正規表現
-[あ-う]のような範囲指定はモード切替で(インデックスが使...
*検索結果の集計:Excelとピボットテーブル
***Excelの基礎
-並べ替え(ソート)
-フィルター(絞り込み)
--テキストフィルター
--多重フィルター(複数の条件指定)
-ピボットテーブル
--ピボットグラフ
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う
---それきり・それぎり
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
-用例の分類と集計
++ピボットテーブルで自分で用意した列名を使う
---ミタヨウダ/ミタイダ
++分類記号を入れる列を用意し、自分で入力する
---新聞紙
-関数を使う
--[[NDC>http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E...
--生年を10年ごとの生まれた年代に変換するには
---=LEFT(TEXT(生年月日,"yyyy"),3)*10
***ランダムサンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND()
---ランダムな数字の列をコピーして「値として貼り付ける」と...
***テキストエディタと組み合わせて使う [#uc1f5bff]
-Excelの列をテキストエディタに貼り付けて編集することがで...
-エディタと組み合わせて工夫することでExcelだけでは簡単に...
--特定の列をエディタにコピーして正規表現を使った置換を行う
---例:前文脈を「.+。」→「」置換、後文脈を「。.+」→「。」...
**えだまめによるミニコーパス作成
-テキストデータを「ひまわり」で利用するには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
&br;
#hr
*形態素解析
#include(授業資料/形態素解析,notitle)
&br;
#hr
--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/tru...
***授業用UniDic+MeCabパッケージのダウンロード
-https://dl.dropboxusercontent.com/u/134600/portable-unid...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較
**歴史的資料を対象とした形態素解析
-http://www.ninjal.ac.jp/corpus_center/unidic/
***形態素解析結果を使って索引を作る
-「近代文語UniDic」「中古和文UniDic」を利用した 総索引作...
--&ref(JMC2010_concorcance.pdf);
ページ名: