[[東京外大2013]] *日本語教育学研究 **コーパス日本語研究入門 -授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください -[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=501M0900.pdf&refer=%C5%EC%B5%FE%B3%B0%C2%E72013]] -中納言: https://chunagon.ninjal.ac.jp **2013/07/26 最終回 ***統計的処理 -http://www.kisnet.or.jp/nappa/software/star/ -js-STAR 2012 http://www.kisnet.or.jp/nappa/software/star/ --フィッシャーの正確検定 --χ二乗検定 -R ***まとめ +既製のコーパスを利用 --BCCWJ中納言 + Excelピボットテーブル +自分でデータをなんとかする |テキストのレベル|ツール|必要な技術|h |プレーンテキストレベル|テキストエディタ|grepと正規表現| |タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップの基礎,ピボットテーブル| |形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの使い方| ***発展 -今後、コンピュータを活用した言語研究を本格的に行っていくために覚えると良いこと ++テキスト処理のための言語なにか一つ Perl or Ruby or Python) ++データベース(RDB)とSQL ++統計処理・R言語 ++マークアップ言語と関連技術 XML/XSLT -[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと古い) **2013/07/19 ***質問 -コーパスとレポートに関する質問受付 ***コーパス管理システム「茶器」の利用 +MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html +UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/ +ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/ +データの解析と取り込み +茶器による検索 ++文字列検索 ++正規表現検索 ++タグ検索(形態論情報を利用した検索) +ワードリスト +解析結果の修正 -係り受け解析 --CaboCha ---UniDicモデル **2013/07/12 ***期末レポートについて -締切:7月31日(水) -提出先:メールで直接送付(必ず返信を確認すること) -分量:A4用紙で3~10枚 ***質問 -コーパスとレポートに関する質問受付 -[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%83%E3%83%97%E3%81%AE%E6%B3%95%E5%89%87]] **全文検索システム「ひまわり」の利用 ***ひまわり -全文検索システム「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] -ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用 ***全文検索システム「ひまわり」について -[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] --[[ひまわり のダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.3]] -ひまわり用データ --青空文庫 ---[[ひまわり用「青空文庫」パッケージのダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]] --国会会議録 --その他 -テキストデータを「ひまわり」で利用できるようにするには --[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]] --同等機能が最新版「ひまわり」(1.5)に内蔵された -「ひまわり」の検索結果をピボットテーブルで集計する **2013/07/05 ***Wordでレポートや論文を書く -文書の構造化 --スタイルと見出し* --ナビゲーション ウィンドウ(見出しマップ)* --章・節番号 -図表の貼り込み --「形式を選択して貼り付け」* --図表番号とキャプション* -脚注* --脚注と文末脚注 -相互参照 --節番号、図表番号と相互参照 --目次、図表目次 -リスト --例文番号 -''少なくとも*印の機能はこの授業のレポートで実際に利用すること'' **テキストエディタと正規表現の利用 -資料:サクラエディタの使い方 --https://dl.dropboxusercontent.com/u/134600/%E3%82%B5%E3%82%AF%E3%83%A9%E3%82%A8%E3%83%87%E3%82%A3%E3%82%BF%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9.doc ***テキストエディタ -サクラエディタのダウンロード --[[サクラエディタのダウンロード:sakura.zip(授業用に用意したもの)>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura.zip&refer=%C0%AE%EC%FE2012%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考)サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -grepとタグジャンプ ***正規表現 -''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] --文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する --エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている) -[[授業資料/正規表現]] **2013/06/28 ***調整頻度 -100万語あたりの頻度 --語数データのダウンロード //--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v10.zip ***テキストエディタの活用 -前後文脈から不要な部分を消す --正規表現を使った置換 ***Excelの文字列関数とIF関数・補足 --後文脈の「。」より後を消す(「。」がない場合はそのまま) =IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈>,SEARCH("。",<後文脈>))) --前文脈の「。」以前を消す(「。」がない場合はそのまま)((「。」が複数ある場合の処理があるので難しい。「~」は前文脈に決して出現しない文字を指定)) =RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&<前文脈>,"。","~",LEN("。"&<前文脈>)-LEN(SUBSTITUTE("。"&<前文脈>,"。",""))),1)-1)) ***レポートテーマについて //***「ひまわり」を使った自作ミニコーパス作成の講習会について **2013/06/21 ***コーパス開発センター:ホームページリニューアル -http://www.ninjal.ac.jp/corpus_center/ ***ランダムサンプリング調査(Excelでの集計・補足) --大量に用例があり、調査内容からすべて対象にできない場合 --ランダムに並べ替え→先頭n例を調査対象に ---ランダムな数字の列: =RAND() ---ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される ***Excelの文字列関数とIF関数 -LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE --品詞の大分類を使う =LEFT(<品詞>,SEARCH("-",<品詞>)-1) ***NINJAL LWP for BCCWJの紹介 -http://nlb.ninjal.ac.jp/ -ワードプロファイラー -語の振る舞いの概略を見るのに非常に便利 -注意点 --UniDic体系でない(=本来のBCCWJではない) --データソースはBCCWJの一部だけ --係り受け解析は誤りも多い ***レポートテーマについて -次回、レポートテーマを聞きます! **2013/06/14 ***形態素解析とUniDic ---- #include(授業資料/形態素解析,notitle) ---- --形態素解析器[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***授業用UniDic+MeCabパッケージのダウンロード -https://dl.dropboxusercontent.com/u/134600/portable-unidic-mecab.zip ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる --ブログのテキストと新聞記事のテキストの解析結果を比較 **2013/06/07 -中納言新システムの再確認 --キャッシュに注意 ***短単位と長単位(復習) -新参考配付資料 ***中納言検索課題 -前回配布プリント参照 ***Excelの文字列関数とif関数 -集計用に用意した列で文字列処理関数を利用する -left,right,mid,len,search,substitute -応用例:品詞の大分類を使う =LEFT(<品詞>,SEARCH("-",<品詞>)-1) **2013/05/31 -中納言契約書返却 ***中納言システムアップデート(5月30日)について -中納言のシステムが新しくなりました -新機能の紹介 --検索対象の指定が柔軟にできるようになった --短単位検索の条件指定において「検索キーの位置をずらす」指定ができるようになった --検索キーの前後位置に条件指定を行ったとき、キーに条件を指定しない検索ができるようになった --検索キーの前後の単位を結合してKWICキーに指定することができるようになった --検索結果のダウンロード時に圧縮の有無や文字コードを指定できるようになった --文字列検索で(解析単位ではなく)検索文字列をキーにしたKWIC表示ができるようになった --サーバの負荷状況が表示されるようになった ***Excelによる集計・つづき -ピボットテーブル --ピボットグラフ -複数の検索結果の結合 -集計用の列を自分で用意する **2013/05/24 ***長単位と短単位 -スライド参照 --複合辞 --可能性に基づく品詞付与ではなく、出現例に則した品詞付与 --可能動詞の語彙素 ***「中納言」検索結果の利用 -検索結果のダウンロード ++ダウンロード ++アーカイブの展開(解凍) ++インポート -中納言の検索結果をExcelで利用する --前々回資料(4.)参照 ***Excelの利用 -Excelの基本 --フィルタ ---テキストフィルタ --並べ替え ---ユーザー設定の並べ替え -ピボットテーブルとピボットグラフ --ピボットテーブル ---Excelのバージョンによってかなり操作方法が違うので注意 --ピボットグラフ **2013/05/17 ***中納言によるコーパスの検索方法(つづき) -中納言の使い方(つづき) -配布資料:''UniDicマニュアル 解説編'' ***BCCWJの形態論情報 -[[UniDic>http://download.unidic.org]]の品詞体系 --品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(>細分類)) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 ***学校文法との違い --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う --サ変動詞は語幹と「する」に分かれる **2013/05/10 ***「中納言」の利用 -アカウント作成とログイン ***中納言によるコーパスの検索方法 -配布資料:''中納言の使い方'' &br;(次回も持ってきてください) **2013/04/26 -中納言申込み確認 ***コーパスの設計とサンプリング --「バランスがとれている」とは? --現代日本語の書き言葉の縮図としてのコーパスを作る --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス(レジスター) --可変長と固定長 -著作権をめぐる問題 -参考リンク --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ --[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]] --[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]] ***「少納言」を使ってみる -[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]] ------ ***テキストエディタ [#q7ae852c] 前回つづき -サクラエディタのダウンロードとインストール --[[サクラエディタのダウンロード:sakura2.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura2.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考) サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -サンプルテキストデータ --[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sample.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] **2013/04/19 //***授業の進め方 //-発表について ***「中納言」利用申込み -申込用紙を配布します。 ------ ***コーパスとは -スライド参照 --コーパスとはどんなものか --日本語コーパス以外(以前)の電子資料 :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***参考リンク -[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]] ***テキストエディタ [#q7ae852c] -テキストエディタとはどんなものか --[[授業資料/テキストエディタ]] **4/12 第1回 イントロダクション/日本語コーパスの紹介 -[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] --[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_center/]] -国語研のコーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] ---[[少納言>http://shonagon.ninjal.ac.jp]] ---[[中納言>http://chunagon.ninjal.ac.jp]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) --日本語歴史コーパス(平安時代編先行公開版) ---[[CHJ 中納言>http://maro.ninjal.ac.jp]] -受講者アンケート --専門・関心領域 --PCスキル -授業の進め方について --受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。