コーパスを用いた近代日本語の調査法
教室変更のお知らせ
- 4/23より206教室(PC教室)に変更になりました。
2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す
太陽コーパスの記事種別分量
- プリズムで記事ごとの字数を出力(単一ファイルに出力)
- ピボットテーブルで集計
XSLT
太陽コーパス付属のXSLTをいじってみる
<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0"
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/>
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>
</xsl:text>
<xsl:apply-templates/></xsl:template>
<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of
select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>
</xsl:text>
<xsl:apply-templates/><xsl:text>
</xsl:text>
</xsl:if>
</xsl:template>
<xsl:template match="tx:br"><xsl:text>
</xsl:text>
</xsl:template>
<xsl:template match="*"><xsl:apply-templates/></xsl:template>
</xsl:stylesheet>
2010/05/14 「ひまわり」と正規表現
高度な正規表現
- 検索語に使える正規表現は列挙型の文字クラスのみ
- ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
- 前文脈・後文脈では自由な正規表現が利用可能
- Javaの正規表現が使えるのでunicodeブロックなども利用できる
参考:太陽コーパス以外のひまわり用データ
- 青空文庫
- 新潮文庫の百冊
- 国会会議録
- 法令データベース
- etc.
2010/05/07 「ひまわり」の使い方と正規表現
- フィルタ
- 検索オプション
- 検索キーワードと前後文脈の使い分け
ひまわりで利用できる正規表現
例題
- 「みたようだ」と「みたいだ」をピボットテーブルで集計
- 表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
[見み]た([やよ]う|[様樣])[だなに](ひまわりは非対応)
- 活用形別に集計(Right関数で)→次回
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 位置 | 欄名 | ジャンル | 文体 | 話者 | 種別 |
2010/04/30 休講
2010/04/23 「太陽コーパス」のプログラムとデータ形式
収録されているプログラム
- 多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
とりあえずの使い方(「ひまわり」)
- 【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
- Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある(ver.1.3)
- ひまわりを起動
- 検索
- 検索結果をExcelにコピー
- ゴミを削除後ピボットテーブルで集計
- 検索結果画面でダブルクリックすると本文が見られる
- 検索には正規表現が利用可能(制限あり)
データの形式
2010/04/16 イントロダクション
デモンストレーション
授業について