[[阪大2013]] *12月20日 #contents **復習 -CHJ中納言 --https://maro.ninjal.ac.jp *現代日本語書き言葉均衡コーパス(BCCWJ) **BCCWJについて -BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/ -少納言 -中納言 -DVD **BCCWJ 少納言 http://shonagon.ninjal.ac.jp -BCCWJの一般公開ページ(登録不要) -文字列検索のみ,表示500件などの制限 -一部の正規表現が利用可能 *コーパス管理システム「茶器」の利用 +MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html +UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/ +ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/ +データの解析と取り込み +茶器による検索 ++文字列検索 ++正規表現検索 ++タグ検索(形態論情報を利用した検索) +ワードリスト +解析結果の修正 -係り受け解析 --CaboCha https://code.google.com/p/cabocha/ ---UniDicモデル :chakiのページからダウンロード可能 *コーパスを利用した研究例 **近代編 ***形容動詞連体形の話 -クラスター分析 -S字カーブ(ロジスティック回帰) cf.真田治子, 横山 --http://ci.nii.ac.jp/naid/110008438032 **中古編 ***文体別の特徴語 -地の文・会話文・歌ごとの語彙の位相差の話 --特徴語抽出(対数尤度比 LLR) cf.宮島・近藤 ***コロケーション強度の利用 -「~なし」がどこまで一語かという話(須永) --コロケーション強度(Tスコア) --http://www.ninjal.ac.jp/publication/papers/02/pdf/NINJAL-Papers0205.pdf *まとめ +できたものを利用 --BCCWJ中納言 + Excelピボットテーブル --中納言 + Excelピボットテーブル --ひまわり + 既存パッケージ + Excelピボットテーブル +自分でデータをなんとかする |テキストのレベル|ツール|必要な技術|h |プレーンテキストレベル|テキストエディタ|grepと正規表現| |タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップの基礎,ピボットテーブル| |形態素解析済みテキストレベル|UniDic+MeCab→ChaKi|ChaKiの使い方| **発展 -今後、コンピュータを活用した言語研究を本格的に行っていくために覚えると良いこと ++テキスト処理のための言語なにか一つ Perl, Ruby, Python ++データベース(RDB)とSQL ++統計処理・R言語 ++マークアップ言語と関連技術 XML/XSLT -[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと古い) *(おまけ)Wordでレポートや論文を書く -文書の構造化 --スタイルと見出し* --ナビゲーション ウィンドウ(見出しマップ)* --章・節番号 -図表の貼り込み --「形式を選択して貼り付け」* --図表番号とキャプション* -脚注* --脚注と文末脚注 -相互参照 --節番号、図表番号と相互参照 --目次、図表目次 -リスト --例文番号