コーパスを用いた近代日本語の調査法
教室変更のお知らせ
- 4/23より206教室(PC教室)に変更になりました。
2010/05/07 「ひまわり」の使い方と正規表現
- フィルタ
- 検索オプション
- 検索キーワードと前後文脈の使い分け
ひまわりで利用できる正規表現
例題
- 「みたようだ」と「みたいだ」をピボットテーブルで集計
- 表記のバリエーションに正規表現で対応
- [見み]た[やよ]う[だなに] [見み]た[様樣][だなに]
[見み]た([やよ]う|[様樣])[だなに](ひまわりは非対応)
- 活用形別に集計(Right関数で)
前文脈 | キー | 後文脈 | 雑誌名 | 年 | 号 | 題名 | 著者 | 位置 | 欄名 | ジャンル | 文体 | 話者 | 種別 |
参考:太陽コーパス以外のひまわり用データ
- 青空文庫
- 新潮文庫の百冊
- 国会会議録
- 法令データベース
- etc.
2010/04/30 休講
2010/04/23 「太陽コーパス」のプログラムとデータ形式
収録されているプログラム
- 多くの場合には「ひまわり」で利用できれば十分なので、今回は「ひまわり」の単純な利用法を紹介する
とりあえずの使い方(「ひまわり」)
- 【注意】かならずハードディスクやUSBメモリなど書き込み可能なメディアにコピーしてから使う
- Vista以降の新しいOSでは、ひまわり(JRE)をバージョンアップする必要がある(ver.1.3)
- ひまわりを起動
- 検索
- 検索結果をExcelにコピー
- ゴミを削除後ピボットテーブルで集計
- 検索結果画面でダブルクリックすると本文が見られる
- 検索には正規表現が利用可能(制限あり)
データの形式
2010/04/16 イントロダクション
デモンストレーション
授業について