東京外大2010/コーパスを用いた近代日本語の調査法 (1) の履歴(No.10)

コーパスを用いた近代日本語の調査法

↑

教室変更のお知らせ

4/23より206教室（PC教室）に変更になりました。

↑

2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す

↑

太陽コーパスの記事種別分量

プリズムで記事ごとの字数を出力（単一ファイルに出力）
ピボットテーブルで集計
- 年別
- 文体別
- ジャンル別
  - NDC大分類別 =mid(NDC,4,1)

↑

XSLT

XSLTとは
リンク
- たのしいXML #amazon(4881662201)
- Studying XML for Beginners
  - Studying XSLT 1.0
- サンプルで覚えるXSLTプログラミング

↑

太陽コーパス付属のXSLTをいじってみる

<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0" 
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/>　
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>&#xA;</xsl:text>
<xsl:apply-templates/></xsl:template>

<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/>　<xsl:value-of select="@著者"/>　（<xsl:value-of
 select="@欄名"/>） <xsl:value-of select="@文体"/>】<xsl:text>&#xA;</xsl:text>
<xsl:apply-templates/><xsl:text>&#xA;</xsl:text>
</xsl:if>
</xsl:template>

<xsl:template match="tx:br"><xsl:text>&#xA;</xsl:text>
</xsl:template>

<xsl:template match="*"><xsl:apply-templates/></xsl:template>
</xsl:stylesheet>

↑

2010/05/14 「ひまわり」と正規表現

↑

高度な正規表現

検索語に使える正規表現は列挙型の文字クラスのみ
- ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
前文脈・後文脈では自由な正規表現が利用可能
- Javaの正規表現が使えるのでunicodeブロックなども利用できる

授業資料/Himawariの正規表現

↑

参考：太陽コーパス以外のひまわり用データ

青空文庫
新潮文庫の百冊
国会会議録
法令データベース
etc.

現代日本語書き言葉均衡コーパス（BCCWJ）BCCWJモニター版

ミニコーパスを自作する
- えだまめ

↑

2010/05/07 「ひまわり」の使い方と正規表現

↑

ひまわりの検索オプション

フィルタ
検索オプション
検索キーワードと前後文脈の使い分け

↑

ひまわりで利用できる正規表現

↑

例題

「みたようだ」と「みたいだ」をピボットテーブルで集計
表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに]　[見み]た[様樣][だなに]
  - ~~[見み]た([やよ]う|[様樣])[だなに]~~（ひまわりは非対応）
活用形別に集計（Right関数で）→次回

前文脈

キー

後文脈

雑誌名

年

号

題名

著者

位置

欄名

ジャンル

文体

話者

種別

↑

2010/04/30 休講

↑

2010/04/23 「太陽コーパス」のプログラムとデータ形式

ディスクの中に何が入っているか

↑

収録されているプログラム

全文検索システム「ひまわり」
- XML形式のデータの全文検索ツール
- あらかじめインデックス（suffix arrayによる）を作るので検索が高速
XMLデータを直接扱うツール
- 変換ツール「プリズム」
  - XSLTスタイルシートで形式を変換したり情報を抽出したりする
  - テキストファイルやHTMLなどに変換できる
- 検索ツール「たんぽぽ」
  - ルビを開いた検索ができる
  - XMLを直接上からなめて行くので遅いが、XMLへの修正は即座に反映される

多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
- (XSLTについては後日)

↑

とりあえずの使い方（「ひまわり」）

【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
Vista以降の新しいOSでは、ひまわり（JRE）をバージョンアップする必要がある(ver.1.3)

ひまわりを起動
検索
検索結果をExcelにコピー
ゴミを削除後ピボットテーブルで集計

検索結果画面でダブルクリックすると本文が見られる
検索には正規表現が利用可能（制限あり）
- (正規表現については後日)

↑

データの形式

XML形式の文書定義
XMLとは
- Extensible Markup Language (Wikipedia)

参考
- たのしいXML
- 授業資料/コンピュータ言語

↑

2010/04/16 イントロダクション

↑

自己紹介

国立国語研究所（NINJAL）
国語研コーパスの紹介（KOTONOHA）
- 現代日本語書き言葉均衡コーパス（BCCWJ）
  - 特定領域日本語コーパス
- 日本語話し言葉コーパス（CSJ）
- 太陽コーパス（明治・大正期の総合雑誌）
  - 近代女性雑誌コーパス
- 通時コーパス（設計中）
  - cf.Oxford

↑

デモンストレーション

太陽コーパス（プリズム）
近代文語UniDic（形態素解析）＋Excel
利用例
- 東京外大2009-12-02

↑

授業について

シラバス

受講者アンケート
- 専門・関心領域
- PCスキル