東京外大2010/コーパスを用いた近代日本語の調査法 (1)
をテンプレートにして作成
開始行:
[[東京外大2010]]
*コーパスを用いた近代日本語の調査法
**教室変更のお知らせ
-4/23より''206教室''(PC教室)に変更になりました。
//-&color(red){7/9は海外出張のため休講です。};
#br
**2010/07/23
-レポートテーマについて/個別質問
-[[授業資料/コンピュータ言語]] 発展:コーパスを利用するた...
**2010/07/16 検索結果の利用
-ひまわりや大納言の検索結果をRDBに取り込んで利用する
--記事一覧(XMLからXSLTで抽出したものとRDBのファイルとの...
-https://202.245.103.10:8111/
***レポートについて
-締め切り:8月13日(金)
-枚数:A4用紙3枚以上
**2010/07/09 (休講)
**2010/07/02 データベース検索用ツール
//-https://202.245.103.10:8111/
//-&ref(DynaGonKin.zip);
-短単位検索
-全文検索
-高度な検索(短単位複合検索)
-ファイル検索
-検索結果のダウンロード
-ツールのダウンロード、認証ページへのリンク掲載は終了しま...
**2010/06/25 関係データベース(3)
-連続する形態素の取り出し(つづき)
-参考資料:形態素解析結果をAccessで集計する(PDF)
--&ref(access_morph.pdf);
-[[授業資料/表の正規化]]
-参考文献(データベース入門)
--Accessはじめてのデータベース
#amazon(4774140929)
--SQLの絵本
#amazon(4798106690)
#amazon(,clear)
***集計結果の利用
-異なり語数とのべ語数
-異なり語数/のべ語数:TTR(Type-Token Ratio)
--語彙の豊かさの指標の一つ とされる
-名詞率
--要約的な文章ほど高い とされる
-MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合...
で割った比率(Ratio)
--高「ありさま描写的」<--->低「動き描写的」といわれる
**2010/06/18 関係データベース(2)
***データ
-現代語用を含む形態素解析パッケージ
--&ref(portable-unidic-mecab.zip); (要パスワード)
-集計用品詞テーブル
--&ref(pos.xls);
***Access
-データを取り出す・集計する(復習)
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
---合計・平均・・・
-表の結合
--内部結合と外部結合
--表を結合して選択
-連続する形態素を取り出す・集計する
++次の形態素の連番を付ける
+++列を用意する
+++更新クエリ
++連続する形態素を抜き出す
+++解析結果テーブル自身をずらして結合する
+++前後の形態素で条件指定した選択クエリ
**2010/06/11 形態素解析結果の利用(2) 関係データベース
***データ
-%%現代語用を含む形態素解析パッケージ%%
-サンプルデータ
//--[[sample.zip>http://dl.dropbox.com/u/134600/sample.zi...
//--&ref(sample_info.xls);
***Access
-練習用データ
-データを取り出す・集計する
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
---合計・平均・・・
**2010/06/04 形態素解析結果の利用
-Excel
-Access
***茶まめで形態素解析・Excelで集計(2)
+茶まめで解析(解析器はMeCab+解析辞書はUniDic)
--複数のファイルを一度に解析する:ワイルドカード *.txt
+ファイルに出力する
--単一ファイルに出力(merge)
+Excelに読み込む
+ピボットテーブルで集計する
***データベースの利用:「Access」
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-[[形態素解析結果をAccessで使う>http://home.ogiso.net/wik...
-データベースに取り込む
++Accessで新規データベースを作成(mdbファイル)
++インポート
---文字コード(コードページをUTF-8に指定する)
++連番を付ける
-データを取り出す・集計する
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
**2010/05/28 形態素解析
***形態素解析器と解析辞書
-解析器
--[[ChaSen>http://chasen-legacy.sourceforge.jp/]]
--[[MeCab>http://mecab.sourceforge.net/]]
-解析辞書
--IPADIC
--NAIST-jdic
--UniDic
***UniDicファミリ
-[[UniDic>http://download.unidic.org]](現代語用)
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?...
-[[中古和文UniDic>http://home.ogiso.net/wiki/pukiwiki.php...
-その他
***UniDicの特長
+見出し語が[[短単位>http://www.kokken.go.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCab...
***ソフトウェア・資料
-授業用ソフトウェア
--tufs-unidic.zip (要パスワード)
-配付資料:「日本語研究と自動形態素解析」
-近代文語UniDicの紹介
--[[日本語学会デモ(ppt)>http://home.ogiso.net/public/do...
--[[日本語学会デモ(pdf)>http://home.ogiso.net/public/do...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
**2010/05/21 XSLTスタイルシートを使ってXMLファイルから情...
***太陽コーパスの記事種別分量
+プリズムで記事ごとの字数を出力(単一ファイルに出力)
+ピボットテーブルで集計
--年別
--文体別
--ジャンル別
---NDC大分類別 =mid('''NDC''',4,1)
***XSLT
-[[XSLTとは>http://e-words.jp/w/XSLT.html]]
-リンク
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
#amazon(4881662201)
--[[Studying XML for Beginners>http://www015.upp.so-net.n...
---[[Studying XSLT 1.0>http://www015.upp.so-net.ne.jp/Stu...
--[[サンプルで覚えるXSLTプログラミング>http://www.atmarki...
***太陽コーパス付属のXSLTをいじってみる
<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Tr...
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-...
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑...
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"...
<xsl:apply-templates/></xsl:template>
<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="...
select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl...
<xsl:apply-templates/><xsl:text>
</xsl:text>
</xsl:if>
</xsl:template>
<xsl:template match="tx:br"><xsl:text>
</xsl:text>
</xsl:template>
<xsl:template match="*"><xsl:apply-templates/></xsl:temp...
</xsl:stylesheet>
**2010/05/14 「ひまわり」の使い方と正規表現(2)
***高度な正規表現
-検索語に使える正規表現は列挙型の文字クラスのみ
--ver.1.3では他の正規表現も使えるが、インデックスが聞かな...
-前文脈・後文脈では自由な正規表現が利用可能
--Javaの正規表現が使えるのでunicodeブロックなども利用できる
-[[授業資料/Himawariの正規表現]]
***参考:太陽コーパス以外のひまわり用データ
-青空文庫
-新潮文庫の百冊
-国会会議録
-法令データベース
-etc.
-現代日本語書き言葉均衡コーパス(BCCWJ)[[BCCWJモニター版...
-ミニコーパスを自作する
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
**2010/05/07 「ひまわり」の使い方と正規表現
**[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B...
-フィルタ
-検索オプション
-検索キーワードと前後文脈の使い分け
**ひまわりで利用できる正規表現
-正規表現とは[[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A...
-[[授業資料/正規表現]]
-[[授業資料/Himawariの正規表現]]
**例題
-「みたようだ」と「みたいだ」をピボットテーブルで集計
-表記のバリエーションに正規表現で対応
--[見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
---%%[見み]た([やよ]う|[様樣])[だなに]%%(ひまわりは非対...
-活用形別に集計(Right関数で)''→次回''
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|位置|欄名|ジャ...
#br
**2010/04/30 &color(red){休講};
#br
**2010/04/23 「太陽コーパス」のプログラムとデータ形式
-ディスクの中に何が入っているか
**収録されているプログラム
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
---XML形式のデータの全文検索ツール
---あらかじめインデックス(suffix arrayによる)を作るので...
-[[XMLデータを直接扱うツール>http://www2.ninjal.ac.jp/lrc...
--[[変換ツール「プリズム」>http://www2.ninjal.ac.jp/lrc/i...
---XSLTスタイルシートで形式を変換したり情報を抽出したりする
---テキストファイルやHTMLなどに変換できる
--[[検索ツール「たんぽぽ」>http://www2.ninjal.ac.jp/lrc/i...
---ルビを開いた検索ができる
---XMLを直接上からなめて行くので遅いが、XMLへの修正は即座...
-多くの場合には「ひまわり」で利用できれば十分なので、今回...
--(XSLTについては後日)
**とりあえずの使い方(「ひまわり」)
-【注意】かならずハードディスクやUSBメモリなど書き込み可...
-Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアッ...
+ひまわりを起動
+検索
+検索結果をExcelにコピー
+ゴミを削除後ピボットテーブルで集計
-検索結果画面でダブルクリックすると本文が見られる
-検索には正規表現が利用可能(制限あり)
--(正規表現については後日)
**データの形式
-XML形式の[[文書定義>http://www2.ninjal.ac.jp/lrc/index.p...
-XMLとは
--[[Extensible Markup Language>http://ja.wikipedia.org/wi...
-参考
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
--[[授業資料/コンピュータ言語]]
**2010/04/16 イントロダクション
***[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパスの紹介([[KOTONOHA>http://www.ninjal.ac.jp...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
---[[近代女性雑誌コーパス>http://www2.ninjal.ac.jp/lrc/in...
--通時コーパス(設計中)
---cf.[[Oxford>http://vsarpj.orinst.ox.ac.uk/index.html]]
***デモンストレーション
-[[太陽コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%C...
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?...
-利用例
--[[東京外大2009-12-02]]
***授業について
-[[シラバス>http://syllabus.tufs.ac.jp/syllabus/querymast...
-受講者アンケート
--専門・関心領域
--PCスキル
終了行:
[[東京外大2010]]
*コーパスを用いた近代日本語の調査法
**教室変更のお知らせ
-4/23より''206教室''(PC教室)に変更になりました。
//-&color(red){7/9は海外出張のため休講です。};
#br
**2010/07/23
-レポートテーマについて/個別質問
-[[授業資料/コンピュータ言語]] 発展:コーパスを利用するた...
**2010/07/16 検索結果の利用
-ひまわりや大納言の検索結果をRDBに取り込んで利用する
--記事一覧(XMLからXSLTで抽出したものとRDBのファイルとの...
-https://202.245.103.10:8111/
***レポートについて
-締め切り:8月13日(金)
-枚数:A4用紙3枚以上
**2010/07/09 (休講)
**2010/07/02 データベース検索用ツール
//-https://202.245.103.10:8111/
//-&ref(DynaGonKin.zip);
-短単位検索
-全文検索
-高度な検索(短単位複合検索)
-ファイル検索
-検索結果のダウンロード
-ツールのダウンロード、認証ページへのリンク掲載は終了しま...
**2010/06/25 関係データベース(3)
-連続する形態素の取り出し(つづき)
-参考資料:形態素解析結果をAccessで集計する(PDF)
--&ref(access_morph.pdf);
-[[授業資料/表の正規化]]
-参考文献(データベース入門)
--Accessはじめてのデータベース
#amazon(4774140929)
--SQLの絵本
#amazon(4798106690)
#amazon(,clear)
***集計結果の利用
-異なり語数とのべ語数
-異なり語数/のべ語数:TTR(Type-Token Ratio)
--語彙の豊かさの指標の一つ とされる
-名詞率
--要約的な文章ほど高い とされる
-MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合...
で割った比率(Ratio)
--高「ありさま描写的」<--->低「動き描写的」といわれる
**2010/06/18 関係データベース(2)
***データ
-現代語用を含む形態素解析パッケージ
--&ref(portable-unidic-mecab.zip); (要パスワード)
-集計用品詞テーブル
--&ref(pos.xls);
***Access
-データを取り出す・集計する(復習)
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
---合計・平均・・・
-表の結合
--内部結合と外部結合
--表を結合して選択
-連続する形態素を取り出す・集計する
++次の形態素の連番を付ける
+++列を用意する
+++更新クエリ
++連続する形態素を抜き出す
+++解析結果テーブル自身をずらして結合する
+++前後の形態素で条件指定した選択クエリ
**2010/06/11 形態素解析結果の利用(2) 関係データベース
***データ
-%%現代語用を含む形態素解析パッケージ%%
-サンプルデータ
//--[[sample.zip>http://dl.dropbox.com/u/134600/sample.zi...
//--&ref(sample_info.xls);
***Access
-練習用データ
-データを取り出す・集計する
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
---合計・平均・・・
**2010/06/04 形態素解析結果の利用
-Excel
-Access
***茶まめで形態素解析・Excelで集計(2)
+茶まめで解析(解析器はMeCab+解析辞書はUniDic)
--複数のファイルを一度に解析する:ワイルドカード *.txt
+ファイルに出力する
--単一ファイルに出力(merge)
+Excelに読み込む
+ピボットテーブルで集計する
***データベースの利用:「Access」
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-[[形態素解析結果をAccessで使う>http://home.ogiso.net/wik...
-データベースに取り込む
++Accessで新規データベースを作成(mdbファイル)
++インポート
---文字コード(コードページをUTF-8に指定する)
++連番を付ける
-データを取り出す・集計する
--選択クエリ
---列を選択
---行を選択(条件で絞り込む)
--集計
---カウント(何例あるか)
**2010/05/28 形態素解析
***形態素解析器と解析辞書
-解析器
--[[ChaSen>http://chasen-legacy.sourceforge.jp/]]
--[[MeCab>http://mecab.sourceforge.net/]]
-解析辞書
--IPADIC
--NAIST-jdic
--UniDic
***UniDicファミリ
-[[UniDic>http://download.unidic.org]](現代語用)
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?...
-[[中古和文UniDic>http://home.ogiso.net/wiki/pukiwiki.php...
-その他
***UniDicの特長
+見出し語が[[短単位>http://www.kokken.go.jp/kotonoha/ex_5...
+見出し語が[[階層化され>http://www.tokuteicorpus.jp/dist/...
+アクセントや音変化の情報を付与することができる
UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCab...
***ソフトウェア・資料
-授業用ソフトウェア
--tufs-unidic.zip (要パスワード)
-配付資料:「日本語研究と自動形態素解析」
-近代文語UniDicの紹介
--[[日本語学会デモ(ppt)>http://home.ogiso.net/public/do...
--[[日本語学会デモ(pdf)>http://home.ogiso.net/public/do...
-形態素解析の仕組み
--生起コストと連接コスト
--経路の選択([[参考:ビタビアルゴリズム>http://ja.wikipe...
&ref(morph.png,,40%);
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
**2010/05/21 XSLTスタイルシートを使ってXMLファイルから情...
***太陽コーパスの記事種別分量
+プリズムで記事ごとの字数を出力(単一ファイルに出力)
+ピボットテーブルで集計
--年別
--文体別
--ジャンル別
---NDC大分類別 =mid('''NDC''',4,1)
***XSLT
-[[XSLTとは>http://e-words.jp/w/XSLT.html]]
-リンク
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
#amazon(4881662201)
--[[Studying XML for Beginners>http://www015.upp.so-net.n...
---[[Studying XSLT 1.0>http://www015.upp.so-net.ne.jp/Stu...
--[[サンプルで覚えるXSLTプログラミング>http://www.atmarki...
***太陽コーパス付属のXSLTをいじってみる
<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Tr...
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-...
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑...
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"...
<xsl:apply-templates/></xsl:template>
<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="...
select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl...
<xsl:apply-templates/><xsl:text>
</xsl:text>
</xsl:if>
</xsl:template>
<xsl:template match="tx:br"><xsl:text>
</xsl:text>
</xsl:template>
<xsl:template match="*"><xsl:apply-templates/></xsl:temp...
</xsl:stylesheet>
**2010/05/14 「ひまわり」の使い方と正規表現(2)
***高度な正規表現
-検索語に使える正規表現は列挙型の文字クラスのみ
--ver.1.3では他の正規表現も使えるが、インデックスが聞かな...
-前文脈・後文脈では自由な正規表現が利用可能
--Javaの正規表現が使えるのでunicodeブロックなども利用できる
-[[授業資料/Himawariの正規表現]]
***参考:太陽コーパス以外のひまわり用データ
-青空文庫
-新潮文庫の百冊
-国会会議録
-法令データベース
-etc.
-現代日本語書き言葉均衡コーパス(BCCWJ)[[BCCWJモニター版...
-ミニコーパスを自作する
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
**2010/05/07 「ひまわり」の使い方と正規表現
**[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B...
-フィルタ
-検索オプション
-検索キーワードと前後文脈の使い分け
**ひまわりで利用できる正規表現
-正規表現とは[[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A...
-[[授業資料/正規表現]]
-[[授業資料/Himawariの正規表現]]
**例題
-「みたようだ」と「みたいだ」をピボットテーブルで集計
-表記のバリエーションに正規表現で対応
--[見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
---%%[見み]た([やよ]う|[様樣])[だなに]%%(ひまわりは非対...
-活用形別に集計(Right関数で)''→次回''
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|位置|欄名|ジャ...
#br
**2010/04/30 &color(red){休講};
#br
**2010/04/23 「太陽コーパス」のプログラムとデータ形式
-ディスクの中に何が入っているか
**収録されているプログラム
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
---XML形式のデータの全文検索ツール
---あらかじめインデックス(suffix arrayによる)を作るので...
-[[XMLデータを直接扱うツール>http://www2.ninjal.ac.jp/lrc...
--[[変換ツール「プリズム」>http://www2.ninjal.ac.jp/lrc/i...
---XSLTスタイルシートで形式を変換したり情報を抽出したりする
---テキストファイルやHTMLなどに変換できる
--[[検索ツール「たんぽぽ」>http://www2.ninjal.ac.jp/lrc/i...
---ルビを開いた検索ができる
---XMLを直接上からなめて行くので遅いが、XMLへの修正は即座...
-多くの場合には「ひまわり」で利用できれば十分なので、今回...
--(XSLTについては後日)
**とりあえずの使い方(「ひまわり」)
-【注意】かならずハードディスクやUSBメモリなど書き込み可...
-Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアッ...
+ひまわりを起動
+検索
+検索結果をExcelにコピー
+ゴミを削除後ピボットテーブルで集計
-検索結果画面でダブルクリックすると本文が見られる
-検索には正規表現が利用可能(制限あり)
--(正規表現については後日)
**データの形式
-XML形式の[[文書定義>http://www2.ninjal.ac.jp/lrc/index.p...
-XMLとは
--[[Extensible Markup Language>http://ja.wikipedia.org/wi...
-参考
--[[たのしいXML>http://www6.airnet.ne.jp/manyo/xml/]]
--[[授業資料/コンピュータ言語]]
**2010/04/16 イントロダクション
***[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパスの紹介([[KOTONOHA>http://www.ninjal.ac.jp...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
---[[近代女性雑誌コーパス>http://www2.ninjal.ac.jp/lrc/in...
--通時コーパス(設計中)
---cf.[[Oxford>http://vsarpj.orinst.ox.ac.uk/index.html]]
***デモンストレーション
-[[太陽コーパス>http://www2.ninjal.ac.jp/lrc/index.php?%C...
-[[近代文語UniDic>http://www2.ninjal.ac.jp/lrc/index.php?...
-利用例
--[[東京外大2009-12-02]]
***授業について
-[[シラバス>http://syllabus.tufs.ac.jp/syllabus/querymast...
-受講者アンケート
--専門・関心領域
--PCスキル
ページ名: