阪大2013
12月20日
コーパス管理システム「茶器」の利用
- MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
- UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/
- ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/
- データの解析と取り込み
- 茶器による検索
- 文字列検索
- 正規表現検索
- タグ検索(形態論情報を利用した検索)
- ワードリスト
- 解析結果の修正
コーパスを利用した研究例:近代編
形容動詞連体形の話
- クラスター分析
- S字カーブ(ロジスティック回帰) cf.真田治子, 横山
コーパスを利用した研究例:中古編
文体別の特徴語
- 地の文・会話文・歌ごとの語彙の位相差の話
- 特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
コロケーション強度の利用
まとめ
- できたものを利用
- 自分でデータをなんとかする
テキストのレベル | ツール | 必要な技術 |
プレーンテキストレベル | テキストエディタ | grepと正規表現 |
タグ付きテキストレベル | ひまわり→ Excel | XML・マークアップの基礎,ピボットテーブル |
形態素解析済みテキストレベル | UniDic,MeCab→ChaKi | ChaKiの使い方 |
発展
- 今後、コンピュータを活用した言語研究を本格的に行っていくために覚えると良いこと
- テキスト処理のための言語なにか一つ Perl, Ruby, Python
- データベース(RDB)とSQL
- 統計処理・R言語
- マークアップ言語と関連技術 XML/XSLT
- 授業資料/コンピュータ言語 (関連書籍の情報,←ちょっと古い)
(おまけ)Wordでレポートや論文を書く
- 文書の構造化
- スタイルと見出し*
- ナビゲーション ウィンドウ(見出しマップ)*
- 章・節番号
- 図表の貼り込み
- 「形式を選択して貼り付け」*
- 図表番号とキャプション*
- 脚注*
- 相互参照
- リスト