*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22] -授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@ogiso.net ←@を半角に置き換えてください -授業フォルダ \\Linkstation\share\日本語コーパス //--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/Syllabus/WFS02030S.aspx?target=_blank]] -BCCWJ中納言: https://chunagon.ninjal.ac.jp/ ***レポートについて -締め切り:2月11日 -枚数:A4用紙 3枚~20枚 **2013/02/25 総まとめ ***まとめ +できたものを利用 --BCCWJ中納言 + Excelピボットテーブル +自分でデータをなんとかする |テキストのレベル|ツール|必要な技術|h |プレーンテキストレベル|テキストエディタ|grepと正規表現| |タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップの基礎,ピボットテーブル| |形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの使い方| ***発展 -今後、コンピュータを活用した言語研究を本格的に行っていくために覚えると良いこと ++テキスト処理のための言語なにか一つ Perl(or Ruby,Python) ++データベース(RDB)とSQL ++統計処理・R言語 ++マークアップ言語と関連技術 XML/XSLT -[[授業資料/コンピュータ言語]] (関連書籍の情報,ちょっと古い) ***質問 -レポートについて、またはこれまでの授業内容に関して質問を受け付けます **2013/01/18 特別授業@国語研(ChaKi) -希望者のみ参加してください(成績評価の対象外です) -''午前10:30から行います''(午後の予定でしたが,変更になりました) -場所:国立国語研究所 4階 ''405室'' -自分のノートパソコン持参のこと -http://dl.dropbox.com/u/134600/meidai.zip +MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html +UniDic 2.xのインストール http://sourceforge.jp/projects/unidic/ +ChaKi.NETのインストール http://sourceforge.jp/projects/chaki/ +データの解析と取り込み +茶器による検索 ++文字列検索 ++正規表現検索 ++タグ検索(形態論情報を利用した検索) +ワードリスト +解析結果の修正 **2013/01/11 Wordでレポートや論文を書く ***ひまわり補足 -検索結果をピボットテーブルで集計する ***Wordでレポートや論文を書く -文書の構造化 --スタイルと見出し* --ナビゲーション ウィンドウ(見出しマップ)* --章・節番号 -図表の貼り込み --「形式を選択して貼り付け」* --図表番号とキャプション* -脚注* --脚注と文末脚注 -相互参照 --節番号、図表番号と相互参照 --目次、図表目次 -リスト --例文番号 -''少なくとも*印の機能はこの授業のレポートで実際に利用すること'' サンプルファイル:[[中納言概説>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=sample_chunagon.doc&refer=%B0%EC%B6%B62011]] ***質問 -コーパスとレポートに関する質問受付 **2012/12/21 ひまわり ***ひまわり -全文検索システム「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] -ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用 -ひまわり用データ(授業フォルダ) --青空文庫 --国会会議録 --その他 -テキストデータを「ひまわり」で利用するには --[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]] --同等機能が最新版「ひまわり」(1.5)に内蔵された --「名大会話コーパス」をひまわりで ***Excelを使った集計(補足) -グラフの種類について --http://office.microsoft.com/ja-jp/help/HA012337371041.aspx --扱う対象・方法に適したグラフを選択する 上記URL参照 -調整頻度 --レジスターごとの総語数が違うので、粗頻度ではなく1,000,000語あたり頻度(WPM)などに直して比較する --レジスターごとの総語数が違うので、粗頻度ではなく1,000,000語あたり頻度(pmw)などに直して比較する **2012/12/14 文字列検索と正規表現 (少納言,テキストエディタ) ***レポートテーマ -レポートテーマ発表(第1回) ***少納言 -BCCWJ 少納言 http://shonagon.ninjal.ac.jp --BCCWJの一般公開ページ --文字列検索のみ,表示500件などの制限 --一部の正規表現が利用可能 ***テキストエディタ -サクラエディタのダウンロード --[[サクラエディタのダウンロード:sakura.zip(授業用に用意したもの)>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura.zip&refer=%C0%AE%EC%FE2012%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考)サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -grepとタグジャンプ ***正規表現 -''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] --文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する --エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている) -[[授業資料/正規表現]] **2012/12/7 UniDicによる形態素解析 ---- #include(授業資料/形態素解析,notitle) ---- --[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]](Windows用)最新版 [[Download>http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.exe]] ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -応用:テキストのジャンルと語種,品詞の割合をグラフ化してみる ---ブログのテキストと新聞記事のテキストの解析結果を比較 **2012/11/30 ***復習と補足 -連体修飾(である可能性が高いもの)の検索と集計 --形容動詞(形状詞+助動詞「だ」) -[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%83%E3%83%97%E3%81%AE%E6%B3%95%E5%89%87]] ***ショートカットキー -[[授業資料/覚えておきたいショートカットキー]] ***長単位と短単位の仕様の違い -複合辞 -可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(長単位) -可能動詞の語彙素 ***集計のための処理 -集計用の列を用意する --ex.「割合が{大きい/小さい, 高い/低い, 多い/少ない}」 --[[データダウンロード>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=wariai.zip&refer=%B0%EC%B6%B62012]] -文字列関数による置き換え --品詞の大分類を使う --=LEFT(<品詞>,SEARCH("-",<品詞>)-1) -Excelの文字列関数とif関数 --left,right,mid,len,search,substitute ***利用例:「訊く」の話 -現代書き言葉における動詞「聞く」の表記をBCCWJ中納言で検索 キー: 語彙素 = "聞く" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" --「訊く」のレジスタ別分布(コアデータのみ)&br; &ref("kiku_bccwj_core.png"); --用法分類は(手作業で行わない限り)できない --割合と粗頻度について -参考blog ++[[なぜ広まった? 「『訊く』が正しい」という迷信 - アスペ日記>http://d.hatena.ne.jp/takeda25/20121113/1352799353]] ++[[「訊く」という表記について - 蟹亭奇譚>http://d.hatena.ne.jp/kanimaster/20121113/1352815776]] ++[[「訊く」のこと - あくまのぬいぐるみ>http://d.hatena.ne.jp/YMZ/20121115/p1 ]] **2012/11/16 ***「中納言」検索結果のダウンロード +ダウンロード +アーカイブの展開(解凍) +インポート ***中納言の検索結果をExcelで利用する -前々回資料(4.)参照 ***Excelの基本 -フィルタ --テキストフィルタ -並べ替え --ユーザー設定の並べ替え ***Excel:ピボットテーブルとピボットグラフ -ピボットテーブル --Excelのバージョンによってかなり操作方法が違うので注意 -ピボットグラフ **2012/11/09 -契約書返却 **検索条件式 キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1 WORDS FROM キー AND 後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 WORDS FROM キー IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2" **BCCWJの形態論情報 -[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料) //--IT's Class >日本語学講義E>教材>その他の教材>UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 ***学校文法との違い -形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う -サ変動詞を 名詞+動詞スル として扱う -活用語に助動詞「う」が付いた形を意志推量形として扱う ***長単位の品詞 -短単位との違い --可能性に基づく品詞付与ではなく、出現例に即した品詞付与 --複合辞 --可能動詞の扱い **2012/10/26 ***「中納言」の利用 -アカウント作成とログイン ***中納言によるコーパスの検索方法 -★配布資料:中納言の使い方 **2012/10/19 -受講者の専門分野・関心領域 -「中納言」アカウント確認 ***コーパスの設計とサンプリング -★スライド参照(授業フォルダ) --「バランスがとれている」とは? --現代日本語の書き言葉の縮図としてのコーパスを作る --コーパスの母集団の設定とサンプリング --BCCWJのサブコーパス --可変長と固定長 -著作権をめぐる問題 -参考リンク --[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/icame/manuals/brown/]] http://khnt.aksis.uib.no/icame/manuals/brown/ --[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/docs/URG/]] http://www.natcorp.ox.ac.uk/docs/URG/ --[[現代日本語書き言葉均衡コーパスの基本方針>http://www.ninjal.ac.jp/kotonoha/ex_2.html]] --[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>http://www.ninjal.ac.jp/kotonoha/ex_3.html]] **2012/10/12 コーパスとは ***はじめに -「中納言」利用申込み用紙回収 --申込用紙と契約書を回収します。 -授業フォルダの説明 -- \\Linkstation\share\日本語コーパス ***コーパスとは -★スライド参照(授業フォルダ) --コーパスとはどんなものか --日本語コーパス以外(以前)の電子資料 :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***「少納言」を使ってみる -[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]] ***参考リンク -[[コーパス日本語学のための情報館>http://www30.atwiki.jp/corpus-ling/pages/17.html]] **2012/10/05 イントロダクション [#p494942d] -[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] -国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] ---[[検索デモサイト>http://shonagon.ninjal.ac.jp]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) --通時コーパス(設計中) -授業の進め方について --受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。 --シラバス確認 https://mercas.hit-u.ac.jp/ -受講者アンケート --専門・関心領域 --PCスキル -デモンストレーション --BCCWJ中納言+Excel --茶まめ(形態素解析) --ひまわり ***授業で利用する主なソフトウェア [#i06478d2] |名前|種類|利用目的|h |''[[Excel>http://office.microsoft.com/ja-jp/excel/default.aspx]]''◎|表計算ソフト|集計・分析・グラフ作成| |''[[Word>http://office.microsoft.com/ja-jp/word/default.aspx]]''|ワープロ|レポート作成| |''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]''|全文検索システム|検索・集計| |''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器|形態素解析| |''[[UniDic>http://download.unidic.org]]''|形態素解析辞書|~| |''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサービス(文字列検索)|コーパス検索| |''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Webサービス(単語情報付き検索)|~|