コーパスを用いた近代日本語の調査法
教室変更のお知らせ
- 4/23より206教室(PC教室)に変更になりました。
2010/05/14 「ひまわり」と正規表現(補足) / 太陽コーパスの記事種別分量
高度な正規表現
- 検索語に使える正規表現は列挙型の文字クラスのみ
- ver.1.3では他の正規表現も使えるが、インデックスが聞かないのでgrep相当の速度に落ちる
- 前文脈・後文脈では自由な正規表現が利用可能
- Javaの正規表現が使えるのでunicodeブロックなども利用できる
参考:太陽コーパス以外のひまわり用データ
- 青空文庫
- 新潮文庫の百冊
- 国会会議録
- 法令データベース
- etc.
太陽コーパスの記事種別分量
- プリズムで記事ごとの字数を出力(単一ファイルに出力)
- ピボットテーブルで集計
2010/05/07 「ひまわり」の使い方と正規表現
- フィルタ
- 検索オプション
- 検索キーワードと前後文脈の使い分け
ひまわりで利用できる正規表現
例題
- 「みたようだ」と「みたいだ」をピボットテーブルで集計
- 表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
[見み]た([やよ]う|[様樣])[だなに](ひまわりは非対応)
- 活用形別に集計(Right関数で)★→次回
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 位置 | 欄名 | ジャンル | 文体 | 話者 | 種別 |
2010/04/30 休講
2010/04/23 「太陽コーパス」のプログラムとデータ形式
収録されているプログラム
- 多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
とりあえずの使い方(「ひまわり」)
- 【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
- Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある(ver.1.3)
- ひまわりを起動
- 検索
- 検索結果をExcelにコピー
- ゴミを削除後ピボットテーブルで集計
- 検索結果画面でダブルクリックすると本文が見られる
- 検索には正規表現が利用可能(制限あり)
データの形式
2010/04/16 イントロダクション
デモンストレーション
授業について