FrontPage
2013阪大集中講義・国語史
予定
12/17
- テキストデータと文字コード
- 総索引から電子化テキストへ
- テキストエディタの利用
- 正規表現
- タグ付きテキストへ
- 構造化文書
- 太陽コーパス・近代女性雑誌コーパス
- ひまわり
- ひまわりの使い方
- Excelによる集計(ピボットテーブル)
12/18
- 形態素解析
- MeCabとUniDic
- 歴史的資料を対象としたUniDic
- UniDicの構造
12/19(午後から)
- 現代日本語書き言葉均衡コーパス(BCCWJ)
- 日本語歴史コーパス(CHJ)
12/20
- 中古編
- 地の文・会話文・歌ごとの語彙の位相差の話
- 特徴語抽出(対数尤度比 LLR) cf.宮島・近藤
- 「~なし」がどこまで一語かという話(須永)
シラバス
講義題目:コーパスに基づく日本語史研究
授業の目的:
内省に頼ることができない日本語史の研究において、残された言語資料はすべての研究の基礎である。大量の資料をコンピュータで利用しやすい形に整備したコーパスは、今後の日本語史研究の基盤となるものだといえる。本講義の目的は、受講者が、コーパスに関する知識と技術を身につけ、今後の自らの研究に研究に活用できるようになることである。
講義内容:
近年、現代語の大規模コーパスの公開に続き、古い時代の日本語についてもデータの整備が進み、コーパスに基づく日本語史研究が可能になってきた。
本講義では、テキストデータとコーパスに関する基礎知識、日本語史のデータ作成の歴史について概観したのち、コーパス活用の方法について具体的に解説する。また、近代語の雑誌コーパス、平安仮名文学作品を中心に、コーパスを活用した研究例を紹介する。
最後に、受講者各自の関心に基づき、コーパスを活用した研究テーマに関するレポート作成に取り組む。
授業計画:
下記のテーマについて講義する。
- 日本語史研究とコーパス
- コーパスとテキストデータの基礎知識
- テキストデータ
- 構造化文書
- 形態論情報付きのコーパス
- 日本語史研究に利用できるデータ紹介
- テキストアーカイブ
- 近代雑誌コーパス
- 日本語歴史コーパス
- コーパス活用のためのツール
- 全文検索システム「ひまわり」
- コーパス検索ツール「中納言」
- 古文の形態素解析
- コーパス管理ツール「茶器」
- 表計算ソフトによる集計
- コーパスの活用例
その他
- 教科書:教科書は使用しない。教材は原則としてWebページの形で提示する。
- 参考文献:授業時に指示する
- 成績評価:レポートで評価する
- キーワード:日本語史 コーパス テキスト処理 形態素解析
- 受講生へのメッセージ:授業でPCを使用して実際にコーパスを活用できるようになることを目指します。コーパスやコンピュータ技術に詳しくない者も歓迎します。