*日本言語研究(講義) **コーパス日本語学入門 -前期 金2 (2単位) -連絡先:ogiso@ogiso.net ←@を半角に **期末レポートについて -締切:8月13日(土) -分量:A4で3枚以上 -提出方法:メールにWordファイルを添付して提出 ***2011/07/22の期末試験日は授業を行いません **2011/07/15 (13) レポート作成準備・質問対応(最終回) -各自、レポート作成に向けての調査を行います。 -積極的に質問してください。 **2011/07/08 (12) Wordレポートの書き方,レポートテーマ -「現代日本語書き言葉均衡コーパス」完成記念講演会 8/2,3 --http://www.ilcc.com/corpus/ ***レポートテーマについて ***Wordを使ってレポートを書く -図表の取り扱い --「形式を選択して貼り付け」 --図表番号、キャプション -文書の構造化 --章・節番号 --「スタイル」「見出しマップ」の活用 -節番号、図表番号と相互参照 -目次、図表目次 **2011/07/01 (11) 形態論情報つきコーパス検索システム「中納言」 -[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]] --全文検索と短単位検索の違い --短単位の指定方法 --短単位連続の検索 --同一文中における共起の検索 -検索結果のダウンロード --検索結果をExcelにインポートする ***レポートテーマについて **2011/06/24 (10) 形態素解析 -形態素解析とは --配付資料:シリーズ国語研究の現場から「日本語研究と自動形態素解析」 --デモ(茶まめでUniDic) --形態素解析の解析単位は言語学で言う「形態素」ではないことに注意 ---「形態素解析」= "Morphological analysis" ---morphologicalな(形態論上の)単位は形態素だけではない。訳語に問題がある(誤訳) ---日本語の形態素解析の単位は一般に「語」。(語をどう定義するかという問題は残る) -形態素解析の仕組み --生起コストと連接コスト --経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***形態素解析用ソフトウェア 主なソフトウェア -形態素解析器(解析エンジン・プログラム) --[[茶筌(ChaSen)>http://chasen-legacy.sourceforge.jp/]] <[[HMM>http://en.wikipedia.org/wiki/Hidden_Markov_model]] --[[和布蕪(MeCab)>http://mecab.sourceforge.net/]] <[[CRF>http://en.wikipedia.org/wiki/Conditional_random_field]] -解析辞書 --[[IPADIC>http://sourceforge.jp/projects/ipadic/]] --[[NAIST-jdic>http://sourceforge.jp/projects/naist-jdic/]] --[[UniDic>http://download.unidic.org]] ---[[歴史的資料を対象としたUniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]] 茶まめ(解析用のお助けツール) -授業用パッケージ(MeCab+UniDic+茶まめ) ---[[パッケージのダウンロード>http://www2.ninjal.ac.jp/togiso/download/tufs/unidic+mecab.zip]] ***UniDicの特長 +見出し語が[[短単位>http://www.ninjal.ac.jp/kotonoha/ex_5.html]]という斉一な単位に揃えられている +見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/modules/system/modules/menu/main.php?page_id=3468&op=change_page]]ており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる -UniDicはChaSen, MeCabのどちらの解析器でも利用可能 --後から開発されたMeCabの方が解析精度が高いのでおすすめ ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する -テキストのジャンルと語種,品詞の割合をグラフ化してみる ***UniDicの品詞体系 --cf.UniDicマニュアル --品詞:名詞-固有名詞-姓 (大分類>中分類>小分類) --活用型:下一段-ア行 (大分類>行分類(>小分類)) --可能性に基づく品詞体系 ---名詞-普通名詞-サ変可能 --形状詞 (=形容動詞語幹) --助動詞「う」が付いた形を意志推量形として扱う **2011/06/17 (9) 「ひまわり」の検索結果の集計2 ***復習 -ひまわりとExcelピボットテーブルの組み合わせ -例:「それぎり」と「それきり」 &ref(sorekiri.png,,100%); ***文字列関数 -文字列関数で必要な情報を取り出す --年代=left(<year>,3)*10 ***エディタの応用 -ひまわりの検索結果をエディタ(正規表現を使った置換)で加工する ***応用・意味に関わる分析 -分類用のフィールドを作って自分で分類後、集計する --例:「新聞紙」の意味・用法の変化 ---ランダム→先頭100 ***相対頻度の計算 ***調整頻度の計算 --''Himawari版青空文庫・文字数データ''&br;[[Aozora2009GWchars.xls>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=Aozora2009GWchars.xls&refer=%C0%AE%EC%FE2010%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BFa]] **2011/06/10 (8) 「ひまわり」の検索結果の集計 / 正規表現小テスト ***Excel -並び替え・絞り込み -ピボットテーブル -列名(青空文庫) ||前文脈|キー|後文脈|著者|タイトル|著者ID|生年|没年|原著者|原著者ID|仮名遣い|コーパス| &ref(teki.png,,50%); ***「ひまわり」用追加データ -国会会議録ひまわり用データ --[[ダウンロードkokkai.zip>http://www2.ninjal.ac.jp/togiso/download/tufs/kokkai.zip]] ***正規表現小テスト **2011/06/03 (7) 全文検索システム「ひまわり」 ***「ひまわり」とは [#g59679c3] -「ひまわり」 [[国立国語研究所/言語データベースとソフトウェア/ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] --ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用 ***ひまわりとデータのセットアップ -ひまわり本体と[[青空文庫>http://http://www.aozora.gr.jp/]](XHTML版)データ --[[ダウンロードHimawari+aozora.zip>http://www2.ninjal.ac.jp/togiso/download/tufs/Himawari+aozora.zip]] ---USBメモリにダウンロード ***ひまわりと正規表現 [#lde4da4e] -「ひまわり」で使用できる正規表現 --検索語/キー:普通の文字と、文字クラスの一部([あいう]のようなもの。[あ-う]のような範囲指定は不可) --前文脈/後文脈:ほぼ全ての正規表現 -「本文(grep)」を指定することですべての正規表現が利用可能 --ただしインデックスが利用できないので検索に時間がかかる ***検索とExcelでの集計デモ -○○的[なの] --○○的の連体修飾の形が「な」「の」どちらをとるか **2011/05/27 (6) タグ付き正規表現 -&color(red){午後から出張のため少し早めに終わります。}; -走[らりるれろ] でGrepした結果を置換するにはどうしたらいいか --次のように置換するととんでもないことに… ---検索文字列:走[らりるれろ] ---置換文字列:★走[らりるれろ] -タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う -[[授業資料/タグつき正規表現]] ***最長一致の原則(greedy matching)と最小一致[#y047e9bd] -正規表現は、パターンが一致する最も長い範囲にマッチする --例:''「(.+)」'' → ''【\1】'' ---「こんにちは」「さようなら」 → 【こんにちは」「さようなら】 --''「([^」]+)」'' → ''【\1】'' のように書けばよい ---「こんにちは」「さようなら」 → 【こんにちは】【さようなら】 -最短一致を指定するには(ものぐさ指定) --''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に「?」をつける ***後方参照 -(..)\1 ***テキストデータのダウンロード --[[青空文庫テキストデータ(unicode版)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=aozora.zip&refer=%C5%EC%B5%FE%B3%B0%C2%E72011]] //***ひまわりのデモ //-動作チェック **2011/05/20 (5) 正規表現を使う ***正規表現とは -''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] --文字を表すための特殊な文字(メタキャラクタ) --置換・検索・grepで利用できる ---メタキャラクタはすべて半角 ---キャラクタそのものを表す場合には\でエスケープする(特別な意味を打ち消す) ---例:1\+2 ※「\」は「¥」の半角 -[[授業資料/正規表現]] -''Unicodeでは漢字の正規表現は次のものを使ってください'' --[一-龠] ***正規表現の応用 [#c7a3ea2d] --漢語サ変動詞を検索する --カタカナ語のリストを作る --副詞の呼応の例を検索する 「全然~ない。」 --会話文中("「"で始まる文中)の用例を検索する --同一文中での共起 #amazon(4873111706) #amazon(4873113598) #clear **2011/05/13 (4) テキストエディタと正規表現 ***復習 --検索・置換 --grepとタグジャンプ ***ショートカットキー [#da449f25] -[[授業資料/覚えておきたいショートカットキー]] ***grepと置換で簡易KWIC(CSVファイル)を作る[#u3ab2d6f] -CSVファイルとは:テキストファイルで表を表現する [[用語:CSVファイル>http://www.microsoft.com/japan/Terminology/query.asp?id=3334&q=CSV&kbid=&key=&ui=L&dev=]] -KWIC:KeyWord In Context **正規表現 ***正規表現を使ってみる [#u471d57b] -キャラクタクラス --例:読[まみむめもん] ---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字 **2011/05/06 (3) テキストエディタ --[[授業資料/テキストデータ紹介]] -参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/article/NPC/20080116/291169/]](日経パソコンPC online) ***テキストエディタ [#q7ae852c] -テキストエディタとはどんなものか --[[授業資料/テキストエディタ]] -テキストエディタ選び --[[Sakura Editor>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=sakura.zip&refer=%C5%EC%B5%FE%B3%B0%C2%E72011]] **テキストエディタの利用 -[[サンプルデータ(青空文庫夏目漱石unicode版)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%A4%CA%A4%C4%A4%E1%A4%BD%A4%A6%A4%BB%A4%AD%A1%CA%B2%C6%CC%DC%DE%FB%C0%D0%A1%CB.zip&refer=%C5%EC%B5%FE%B3%B0%C2%E72011]]のダウンロード -圧縮ファイルの展開(解凍) --圧縮・展開ソフト(アーカイバ [[用語>http://e-words.jp/w/E382A2E383BCE382ABE382A4E38390.html]]) -テキストエディタの設定 --行の折り返し --行番号表示 ---スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号) -検索・置換、grep --検索で初出行を調べる --置換で用例数を数える --USBメモリ(1GB以上の空き)の準備 **2011/04/22 (2) テキストファイルとテキストエディタ -授業ページへのショートカット ***先週の補足 -コーパスとは :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。 ***授業で利用する主なソフトウェア [#i06478d2] |テキストエディタ|検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|検索・分析| |表計算ソフト''Excel''|分析・グラフ作成| |ワープロ''Word''|「スタイル」を利用したレポート作成| -デモ --''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]'' --形態素解析 ***テキストデータ --[[授業資料/テキストデータとは]] --バイナリファイルとテキストファイル --ファイルの種類と拡張子 参考:[[拡張子辞典>http://www.jisyo.com/viewer/]] --[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E5%AD%90]] --テキストファイルとHTML -TXT,CSV,HTM・・・ //htmlのごく簡単な入門 -授業で使うテキストデータ **2011/04/15 (1) イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ -コーパスとは ---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/kotonoha/]] ---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]] ---[[形態素解析辞書UniDic>http://download.unidic.org/]] -[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?%C5%EC%B5%FE%B3%B0%C2%E72011]]確認 --この授業の目的 --授業の進め方 --評価方法