阪大2013/12月19日
をテンプレートにして作成
開始行:
[[阪大2013]]
*12月19日
#contents
**復習
+199x~ 電子化テキスト+テキストエディタ+正規表現
+200x~ 構造化文書+ひまわり+ピボットテーブル
+201x~ +形態素解析+(中納言,茶器)+R
*形態論情報付きの近代語コーパス
-(国定)高等小学読本コーパス
-明六雑誌コーパス
**明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六...
-[[明六雑誌コーパス>http://www.ninjal.ac.jp/corpus_center...
-ひまわりによる検索とピボットテーブルによる集計
*日本語歴史コーパス(CHJ)
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http:...
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://histo...
-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中
***日本語歴史コーパス(CHJ)の登録
-アカウントを作ります
**日本語歴史コーパス(CHJ)を使う
-CHJ中納言
--https://maro.ninjal.ac.jp
***短単位について
-資料参照 [[PDF>https://dl.dropboxusercontent.com/u/13460...
***中納言の使い方
-資料参照 [[PDF>http://www.ogiso.net/wiki/index.php?plugi...
**Excelでの集計
***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v...
***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
--品詞の大分類を使う
=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
--後文脈の「。」より後を消す(「。」がない場合はそのまま)
=IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈...
--前文脈の「。」以前を消す(「。」がない場合はそのまま)(...
=RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&...
終了行:
[[阪大2013]]
*12月19日
#contents
**復習
+199x~ 電子化テキスト+テキストエディタ+正規表現
+200x~ 構造化文書+ひまわり+ピボットテーブル
+201x~ +形態素解析+(中納言,茶器)+R
*形態論情報付きの近代語コーパス
-(国定)高等小学読本コーパス
-明六雑誌コーパス
**明六雑誌コーパス
-[[「形態論情報付き近代語コーパスのアノテーション ―『明六...
-[[明六雑誌コーパス>http://www.ninjal.ac.jp/corpus_center...
-ひまわりによる検索とピボットテーブルによる集計
*日本語歴史コーパス(CHJ)
-[[共同研究プロジェクト> 基幹型> 通時コーパスの設計>http:...
--http://www.ninjal.ac.jp/research/project/pdf/a_corpus.pdf
-NINJAL通時コーパスプロジェクト ホームページ http://histo...
-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
--第1弾「平安時代編」の先行公開中
***日本語歴史コーパス(CHJ)の登録
-アカウントを作ります
**日本語歴史コーパス(CHJ)を使う
-CHJ中納言
--https://maro.ninjal.ac.jp
***短単位について
-資料参照 [[PDF>https://dl.dropboxusercontent.com/u/13460...
***中納言の使い方
-資料参照 [[PDF>http://www.ogiso.net/wiki/index.php?plugi...
**Excelでの集計
***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v...
***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
--品詞の大分類を使う
=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
--後文脈の「。」より後を消す(「。」がない場合はそのまま)
=IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈...
--前文脈の「。」以前を消す(「。」がない場合はそのまま)(...
=RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&...
ページ名: