阪大2013/12月20日
をテンプレートにして作成
開始行:
[[阪大2013]]
*12月20日
#contents
**復習
-CHJ中納言
--https://maro.ninjal.ac.jp
*現代日本語書き言葉均衡コーパス(BCCWJ)
**BCCWJについて
-BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/
-少納言
-中納言
-DVD
**BCCWJ 少納言 http://shonagon.ninjal.ac.jp
-BCCWJの一般公開ページ(登録不要)
-文字列検索のみ,表示500件などの制限
-一部の正規表現が利用可能
*コーパス管理システム「茶器」の利用
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
-係り受け解析
--CaboCha https://code.google.com/p/cabocha/
---UniDicモデル :chakiのページからダウンロード可能
*コーパスを利用した研究例
**近代編
***形容動詞連体形の話
-クラスター分析
-S字カーブ(ロジスティック回帰) cf.真田治子, 横山
--http://ci.nii.ac.jp/naid/110008438032
**中古編
***文体別の特徴語
-地の文・会話文・歌ごとの語彙の位相差の話
--特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
***コロケーション強度の利用
-「~なし」がどこまで一語かという話(須永)
--コロケーション強度(Tスコア)
--http://www.ninjal.ac.jp/publication/papers/02/pdf/NINJA...
*まとめ
+できたものを利用
--中納言 + Excelピボットテーブル
--ひまわり + 既存パッケージ + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic+MeCab→ChaKi|ChaKiの...
**発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl, Ruby, Python
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと...
*(おまけ)Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
終了行:
[[阪大2013]]
*12月20日
#contents
**復習
-CHJ中納言
--https://maro.ninjal.ac.jp
*現代日本語書き言葉均衡コーパス(BCCWJ)
**BCCWJについて
-BCCWJの概要 http://www.ninjal.ac.jp/corpus_center/bccwj/
-少納言
-中納言
-DVD
**BCCWJ 少納言 http://shonagon.ninjal.ac.jp
-BCCWJの一般公開ページ(登録不要)
-文字列検索のみ,表示500件などの制限
-一部の正規表現が利用可能
*コーパス管理システム「茶器」の利用
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
-係り受け解析
--CaboCha https://code.google.com/p/cabocha/
---UniDicモデル :chakiのページからダウンロード可能
*コーパスを利用した研究例
**近代編
***形容動詞連体形の話
-クラスター分析
-S字カーブ(ロジスティック回帰) cf.真田治子, 横山
--http://ci.nii.ac.jp/naid/110008438032
**中古編
***文体別の特徴語
-地の文・会話文・歌ごとの語彙の位相差の話
--特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
***コロケーション強度の利用
-「~なし」がどこまで一語かという話(須永)
--コロケーション強度(Tスコア)
--http://www.ninjal.ac.jp/publication/papers/02/pdf/NINJA...
*まとめ
+できたものを利用
--中納言 + Excelピボットテーブル
--ひまわり + 既存パッケージ + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic+MeCab→ChaKi|ChaKiの...
**発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl, Ruby, Python
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと...
*(おまけ)Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
ページ名: