コーパスを用いた近代日本語の調査法
教室変更のお知らせ
- 4/23より206教室(PC教室)に変更になりました。
2010/07/23
2010/07/16 検索結果の利用
レポートについて
- 締め切り:8月13日(金)
- 枚数:A4用紙3枚以上
2010/07/09 (休講)
2010/07/02 データベース検索用ツール
- 短単位検索
- 全文検索
- 高度な検索(短単位複合検索)
- ファイル検索
- ツールのダウンロード、認証ページへのリンク掲載は終了しました。この日休んだ人は出席した人に聞くか、私宛にメールで連絡してください。
2010/06/25 関係データベース(3)
- 参考資料:形態素解析結果をAccessで集計する(PDF)
- 参考文献(データベース入門)
- Accessはじめてのデータベース
#amazon(4774140929)
- SQLの絵本
#amazon(4798106690)
集計結果の利用
- 異なり語数とのべ語数
- 異なり語数/のべ語数:TTR(Type-Token Ratio)
- 名詞率
- MVR:「形容詞・形容動詞・副詞・連体詞」(Modifier)の合計数を「動詞」(Verb)
で割った比率(Ratio)
- 高「ありさま描写的」<--->低「動き描写的」といわれる
2010/06/18 関係データベース(2)
データ
- 現代語用を含む形態素解析パッケージ
- 集計用品詞テーブル
Access
- 連続する形態素を取り出す・集計する
- 次の形態素の連番を付ける
- 列を用意する
- 更新クエリ
- 連続する形態素を抜き出す
- 解析結果テーブル自身をずらして結合する
- 前後の形態素で条件指定した選択クエリ
2010/06/11 形態素解析結果の利用(2) 関係データベース
データ
現代語用を含む形態素解析パッケージ
- サンプルデータ
Access
2010/06/04 形態素解析結果の利用
茶まめで形態素解析・Excelで集計(2)
- 茶まめで解析(解析器はMeCab+解析辞書はUniDic)
- 複数のファイルを一度に解析する:ワイルドカード *.txt
- ファイルに出力する
- Excelに読み込む
- ピボットテーブルで集計する
データベースの利用:「Access」
- データベースに取り込む
- Accessで新規データベースを作成(mdbファイル)
- インポート
- 連番を付ける
2010/05/28 形態素解析
形態素解析器と解析辞書
UniDicファミリ
UniDicの特長
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCabがおすすめ)。
ソフトウェア・資料
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す
太陽コーパスの記事種別分量
- プリズムで記事ごとの字数を出力(単一ファイルに出力)
- ピボットテーブルで集計
XSLT
太陽コーパス付属のXSLTをいじってみる
<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0"
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/>
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>
</xsl:text>
<xsl:apply-templates/></xsl:template>
<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of
select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>
</xsl:text>
<xsl:apply-templates/><xsl:text>
</xsl:text>
</xsl:if>
</xsl:template>
<xsl:template match="tx:br"><xsl:text>
</xsl:text>
</xsl:template>
<xsl:template match="*"><xsl:apply-templates/></xsl:template>
</xsl:stylesheet>
2010/05/14 「ひまわり」の使い方と正規表現(2)
高度な正規表現
- 検索語に使える正規表現は列挙型の文字クラスのみ
- ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
- 前文脈・後文脈では自由な正規表現が利用可能
- Javaの正規表現が使えるのでunicodeブロックなども利用できる
参考:太陽コーパス以外のひまわり用データ
- 青空文庫
- 新潮文庫の百冊
- 国会会議録
- 法令データベース
- etc.
2010/05/07 「ひまわり」の使い方と正規表現
- フィルタ
- 検索オプション
- 検索キーワードと前後文脈の使い分け
ひまわりで利用できる正規表現
例題
- 「みたようだ」と「みたいだ」をピボットテーブルで集計
- 表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
[見み]た([やよ]う|[様樣])[だなに](ひまわりは非対応)
- 活用形別に集計(Right関数で)→次回
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 位置 | 欄名 | ジャンル | 文体 | 話者 | 種別 |
2010/04/30 休講
2010/04/23 「太陽コーパス」のプログラムとデータ形式
収録されているプログラム
- 多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
とりあえずの使い方(「ひまわり」)
- 【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
- Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある(ver.1.3)
- ひまわりを起動
- 検索
- 検索結果をExcelにコピー
- ゴミを削除後ピボットテーブルで集計
- 検索結果画面でダブルクリックすると本文が見られる
- 検索には正規表現が利用可能(制限あり)
データの形式
2010/04/16 イントロダクション
デモンストレーション
授業について