コーパスを用いた近代日本語の調査法
教室変更のお知らせ
- 4/23より206教室(PC教室)に変更になりました。
2010/06/11 形態素解析結果の利用(2) RDB
現代語用の形態素解析辞書
Access
- 連続する形態素を取り出す・集計する
- 次の形態素の連番を付ける
- 列を用意する
- 更新クエリ
- 連続する形態素を抜き出す
- 解析結果テーブル自身をずらして結合する
- 前後の形態素で条件指定した選択クエリ
2010/06/04 形態素解析結果の利用
茶まめで形態素解析・Excelで集計(2)
- 茶まめで解析(解析器はMeCab+解析辞書はUniDic)
- 複数のファイルを一度に解析する:ワイルドカード *.txt
- ファイルに出力する
- Excelに読み込む
- ピボットテーブルで集計する
データベースの利用:「Access」
- データベースに取り込む
- Accessで新規データベースを作成(mdbファイル)
- インポート
- 連番を付ける
2010/05/28 形態素解析
形態素解析器と解析辞書
UniDicファミリ
UniDicの特長
- 見出し語が短単位という斉一な単位に揃えられている
- 見出し語が階層化されており表記の揺れや語形の変異にかかわらず同一の見出しを与えることができる
- アクセントや音変化の情報を付与することができる
UniDicはChaSen, MeCabのどちらの解析器でも利用可能(MeCabがおすすめ)。
ソフトウェア・資料
- 授業用ソフトウェア
- &ref(): File not found: "tufs-unidic.zip" at page "東京外大2010/コーパスを用いた近代日本語の調査法 (1)"; (要パスワード)
茶まめで形態素解析・Excelで集計
- 茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
- Excelに出力する
- ピボットテーブルで集計する
2010/05/21 XSLTスタイルシートを使ってXMLファイルから情報を抜き出す
太陽コーパスの記事種別分量
- プリズムで記事ごとの字数を出力(単一ファイルに出力)
- ピボットテーブルで集計
XSLT
太陽コーパス付属のXSLTをいじってみる
<?xml version="1.0" encoding="Shift_JIS"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0"
xmlns:tx="http://www.kokken.go.jp/taiyo" exclude-result-prefixes="tx">
<xsl:output method="text" omit-xml-declaration="yes"/>
<xsl:template match="tx:雑誌"><xsl:value-of select="@雑誌名"/>
<xsl:value-of select="@年"/>年<xsl:value-of select="@号"/>号<xsl:text>
</xsl:text>
<xsl:apply-templates/></xsl:template>
<xsl:template match="tx:記事">
<xsl:if test='./@文体="口語"'>
【<xsl:value-of select="@題名"/> <xsl:value-of select="@著者"/> (<xsl:value-of
select="@欄名"/>) <xsl:value-of select="@文体"/>】<xsl:text>
</xsl:text>
<xsl:apply-templates/><xsl:text>
</xsl:text>
</xsl:if>
</xsl:template>
<xsl:template match="tx:br"><xsl:text>
</xsl:text>
</xsl:template>
<xsl:template match="*"><xsl:apply-templates/></xsl:template>
</xsl:stylesheet>
2010/05/14 「ひまわり」の使い方と正規表現(2)
高度な正規表現
- 検索語に使える正規表現は列挙型の文字クラスのみ
- ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
- 前文脈・後文脈では自由な正規表現が利用可能
- Javaの正規表現が使えるのでunicodeブロックなども利用できる
参考:太陽コーパス以外のひまわり用データ
- 青空文庫
- 新潮文庫の百冊
- 国会会議録
- 法令データベース
- etc.
2010/05/07 「ひまわり」の使い方と正規表現
- フィルタ
- 検索オプション
- 検索キーワードと前後文脈の使い分け
ひまわりで利用できる正規表現
例題
- 「みたようだ」と「みたいだ」をピボットテーブルで集計
- 表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
[見み]た([やよ]う|[様樣])[だなに](ひまわりは非対応)
- 活用形別に集計(Right関数で)→次回
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 位置 | 欄名 | ジャンル | 文体 | 話者 | 種別 |
2010/04/30 休講
2010/04/23 「太陽コーパス」のプログラムとデータ形式
収録されているプログラム
- 多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
とりあえずの使い方(「ひまわり」)
- 【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
- Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある(ver.1.3)
- ひまわりを起動
- 検索
- 検索結果をExcelにコピー
- ゴミを削除後ピボットテーブルで集計
- 検索結果画面でダブルクリックすると本文が見られる
- 検索には正規表現が利用可能(制限あり)
データの形式
2010/04/16 イントロダクション
デモンストレーション
授業について