[[東京外大2010]] *コーパスを用いた近代日本語の調査法 **教室変更のお知らせ -4/23より''206教室''(PC教室)に変更になりました。 //-&color(red){7/9は海外出張のため休講です。}; #br **2010/07/23 -レポートテーマについて/個別質問 -[[授業資料/コンピュータ言語]] 発展:コーパスを利用するために覚えるとよい言語 **2010/07/16 検索結果の利用 -ひまわりや大納言の検索結果をRDBに取り込んで利用する --記事一覧(XMLからXSLTで抽出したものとRDBのファイルとの対照表) &ref(taiyo_kiji.zip); -https://202.245.103.10:8111/ ***レポートについて -締め切り:8月13日(金) -枚数:A4用紙3枚以上 **2010/07/09 (休講) **2010/07/02 データベース検索用ツール //-https://202.245.103.10:8111/ //-&ref(DynaGonKin.zip); -短単位検索 -全文検索 -高度な検索(短単位複合検索) -ファイル検索 -検索結果のダウンロード -ツールのダウンロード、認証ページへのリンク掲載は終了しました。この日休んだ人は出席した人に聞くか、私宛にメールで連絡してください。 **2010/06/25 関係データベース(3) -連続する形態素の取り出し(つづき) -参考資料:形態素解析結果をAccessで集計する(PDF) --&ref(access_morph.pdf); -[[授業資料/表の正規化]] -参考文献(データベース入門) --Accessはじめてのデータベース #amazon(4774140929) --SQLの絵本 #amazon(4798106690) #amazon(,clear) ***集計結果の利用 -異なり語数とのべ語数 -異なり語数/のべ語数:TTR(Type-Token Ratio) --語彙の豊かさの指標の一つ とされる -名詞率 --要約的な文章ほど高い とされる -MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb) で割った比率(Ratio) --高「ありさま描写的」<--->低「動き描写的」といわれる **2010/06/18 関係データベース(2) ***データ -現代語用を含む形態素解析パッケージ --&ref(portable-unidic-mecab.zip); (要パスワード) -集計用品詞テーブル --&ref(pos.xls); ***Access -データを取り出す・集計する(復習) --選択クエリ ---列を選択 ---行を選択(条件で絞り込む) --集計 ---カウント(何例あるか) ---合計・平均・・・ -表の結合 --内部結合と外部結合 --表を結合して選択 -連続する形態素を取り出す・集計する ++次の形態素の連番を付ける +++列を用意する +++更新クエリ ++連続する形態素を抜き出す +++解析結果テーブル自身をずらして結合する +++前後の形態素で条件指定した選択クエリ **2010/06/11 形態素解析結果の利用(2) 関係データベース ***データ -%%現代語用を含む形態素解析パッケージ%% -サンプルデータ //--[[sample.zip>http://dl.dropbox.com/u/134600/sample.zip]] (dropbox) //--&ref(sample_info.xls); ***Access -練習用データ -データを取り出す・集計する --選択クエリ ---列を選択 ---行を選択(条件で絞り込む) --集計 ---カウント(何例あるか) ---合計・平均・・・ **2010/06/04 形態素解析結果の利用 -Excel -Access ***茶まめで形態素解析・Excelで集計(2) +茶まめで解析(解析器はMeCab+解析辞書はUniDic) --複数のファイルを一度に解析する:ワイルドカード *.txt +ファイルに出力する --単一ファイルに出力(merge) +Excelに読み込む +ピボットテーブルで集計する ***データベースの利用:「Access」 -関係データベースとは --[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%BF%82%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9]] -[[形態素解析結果をAccessで使う>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%B7%C1%C2%D6%C1%C7%B2%F2%C0%CF%B7%EB%B2%CC%A4%F2Access%A4%C7%BB%C8%A4%A6.pdf&refer=%BC%F8%B6%C8%BB%F1%CE%C1]](PDF)☆ -データベースに取り込む ++Accessで新規データベースを作成(mdbファイル) ++インポート ---文字コード(コードページをUTF-8に指定する) ++連番を付ける -データを取り出す・集計する --選択クエリ ---列を選択 ---行を選択(条件で絞り込む) --集計 ---カウント(何例あるか) **2010/05/28 形態素解析 ***形態素解析器と解析辞書 -解析器 --[[ChaSen>http://chasen-legacy.sourceforge.jp/]] --[[MeCab>http://mecab.sourceforge.net/]] -解析辞書 --IPADIC --NAIST-jdic --UniDic ***UniDicファミリ -[[UniDic>http://download.unidic.org]](現代語用) -[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]] ->太陽コーパスの文語文向け -[[中古和文UniDic>http://home.ogiso.net/wiki/pukiwiki.php?%CF%C2%CA%B8UniDic]] -その他 ***UniDicの特長 +見出し語が[[短単位>http://www.kokken.go.jp/kotonoha/ex_5.html]]という斉一な単位に揃えられている +見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/modules/system/modules/menu/main.php?page_id=3468&op=change_page]]ており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる +アクセントや音変化の情報を付与することができる UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCabがおすすめ)。 ***ソフトウェア・資料 -授業用ソフトウェア --tufs-unidic.zip (要パスワード) -配付資料:「日本語研究と自動形態素解析」 -近代文語UniDicの紹介 --[[日本語学会デモ(ppt)>http://home.ogiso.net/public/download/MLJ/20080518_unidic-mlj_demo.ppt]] --[[日本語学会デモ(pdf)>http://home.ogiso.net/public/download/MLJ/20080518_unidic-mlj_demo.pdf]] -形態素解析の仕組み --生起コストと連接コスト --経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0]]) &ref(morph.png,,40%); ***茶まめで形態素解析・Excelで集計 +茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic) +Excelに出力する +ピボットテーブルで集計する **2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す ***太陽コーパスの記事種別分量 +プリズムで記事ごとの字数を出力(単一ファイルに出力) +ピボットテーブルで集計 --年別 --文体別 --ジャンル別 ---NDC大分類別 =mid('''NDC''',4,1) ***XSLT -[[XSLTとは>http://e-words.jp/w/XSLT.html]] -リンク --[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]] #amazon(4881662201) --[[Studying XML for Beginners>http://www015.upp.so-net.ne.jp/StudyingXML/xml/index.html]] ---[[Studying XSLT 1.0>http://www015.upp.so-net.ne.jp/StudyingXML/xml/xslt10_1/new.html]] --[[サンプルで覚えるXSLTプログラミング>http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xslt00.html]] ***太陽コーパス付属のXSLTをいじってみる <?xml version="1.0" encoding="Shift_JIS"?> <xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0" xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx"> <xsl:output method="text" omit-xml-declaration="yes"/> <xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/> <xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>
</xsl:text> <xsl:apply-templates/></xsl:template> <xsl:template match="tx:記事"> <xsl:if test='./@文体="口語"'> 【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>
</xsl:text> <xsl:apply-templates/><xsl:text>
</xsl:text> </xsl:if> </xsl:template> <xsl:template match="tx:br"><xsl:text>
</xsl:text> </xsl:template> <xsl:template match="*"><xsl:apply-templates/></xsl:template> </xsl:stylesheet> **2010/05/14 「ひまわり」の使い方と正規表現(2) ***高度な正規表現 -検索語に使える正規表現は列挙型の文字クラスのみ --ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる -前文脈・後文脈では自由な正規表現が利用可能 --Javaの正規表現が使えるのでunicodeブロックなども利用できる -[[授業資料/Himawariの正規表現]] ***参考:太陽コーパス以外のひまわり用データ -青空文庫 -新潮文庫の百冊 -国会会議録 -法令データベース -etc. -現代日本語書き言葉均衡コーパス(BCCWJ)[[BCCWJモニター版>http://www.ninjal.ac.jp/kotonoha/ex_8.html]] -ミニコーパスを自作する --[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%BB%D9%B1%E7%A5%C4%A1%BC%A5%EB%2F%A4%A8%A4%C0%A4%DE%A4%E1]] **2010/05/07 「ひまわり」の使い方と正規表現 **[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]の検索オプション -フィルタ -検索オプション -検索キーワードと前後文脈の使い分け **ひまわりで利用できる正規表現 -正規表現とは[[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] -[[授業資料/正規表現]] -[[授業資料/Himawariの正規表現]] **例題 -「みたようだ」と「みたいだ」をピボットテーブルで集計 -表記のバリエーションに正規表現で対応 --[見み]た[やよ]う[だなに] [見み]た[様樣][だなに] ---%%[見み]た([やよ]う|[様樣])[だなに]%%(ひまわりは非対応) -活用形別に集計(Right関数で)''→次回'' |前文脈|キー|後文脈|雑誌名|年|号|題名|著者|位置|欄名|ジャンル|文体|話者|種別| #br **2010/04/30 &color(red){休講}; #br **2010/04/23 「太陽コーパス」のプログラムとデータ形式 -ディスクの中に何が入っているか **収録されているプログラム -[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] ---XML形式のデータの全文検索ツール ---あらかじめインデックス(suffix arrayによる)を作るので検索が高速 -[[XMLデータを直接扱うツール>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]] --[[変換ツール「プリズム」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]] ---XSLTスタイルシートで形式を変換したり情報を抽出したりする ---テキストファイルやHTMLなどに変換できる --[[検索ツール「たんぽぽ」>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9]] ---ルビを開いた検索ができる ---XMLを直接上からなめて行くので遅いが、XMLへの修正は即座に反映される -多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する --(XSLTについては後日) **とりあえずの使い方(「ひまわり」) -【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う -Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある([[ver.1.3>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.3]]) +ひまわりを起動 +検索 +検索結果をExcelにコピー +ゴミを削除後ピボットテーブルで集計 -検索結果画面でダブルクリックすると本文が見られる -検索には正規表現が利用可能(制限あり) --(正規表現については後日) **データの形式 -XML形式の[[文書定義>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9%2F%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9%A4%CE%CA%B8%BD%F1%C4%EA%B5%C1]] -XMLとは --[[Extensible Markup Language>http://ja.wikipedia.org/wiki/Extensible_Markup_Language]] (Wikipedia) -参考 --[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]] --[[授業資料/コンピュータ言語]] **2010/04/16 イントロダクション ***[[自己紹介]] -[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]] -国語研コーパスの紹介([[KOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]) --現代日本語書き言葉均衡コーパス(BCCWJ) ---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]] --日本語話し言葉コーパス(CSJ) --太陽コーパス(明治・大正期の総合雑誌) ---[[近代女性雑誌コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%B6%E1%C2%E5%BD%F7%C0%AD%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9]] --通時コーパス(設計中) ---cf.[[Oxford>http://vsarpj.orinst.ox.ac.uk/index.html]] ***デモンストレーション -[[太陽コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9]]([[プリズム>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]) -[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic]](形態素解析)+Excel -利用例 --[[東京外大2009-12-02]] ***授業について -[[シラバス>http://syllabus.tufs.ac.jp/syllabus/querymaster.php]] -受講者アンケート --専門・関心領域 --PCスキル