上智2016
コーパス日本語学入門(近現代語コーパス)
- 前期・金曜4限
- ogiso@ogiso.net ←@を@に直してください
2016/05/27
(復習)【重要】ピボットテーブルの使い方
テキストエディタとショートカットキー
- zipファイルの展開(解凍)について
- ダウンロードしたファイルのプロパティを見てセキュリティブロックを解除する
- 解凍しないままでも開けるが必ず解凍すること
『日本語歴史コーパス』
- 平安時代編
- 鎌倉時代編Ⅰ説話・随筆
- 室町時代編Ⅰ狂言
- 明治・大正編Ⅰ雑誌
- 「明六雑誌」(全)、「国民之友」(一部)、女性雑誌(「女学雑誌」「女学世界」「婦人倶楽部」の一部)、「太陽」(一部)
2016/05/20
「中納言」の利用(つづき)
検索条件式の利用
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
「中納言」検索結果のダウンロードとExcelでの利用
- ダウンロード
- アーカイブの展開(解凍)
- Excelでインポート
Excelの基礎
【重要】ピボットテーブルの使い方
2016/05/13
形態論情報を利用した検索
UniDicによる形態素解析
2016/05/06
日本語コーパスの形態論情報
品詞体系と見出し語の階層
- BCCWJ,CHJはUniDicの品詞体系にもとづく
2016/04/29(祝日授業実施日)
日本語コーパスの紹介(2) コーパスの設計とサンプリング
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
参考リンク
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
日本語コーパスの形態論情報
2016/04/22
コーパス検索アプリケーション「中納言」の申込みについて(来週以降)
現代日本語書き言葉均衡コーパス(BCCWJ)とは
- BCCWJについて、まず最小限のことを説明します。
日本語コーパスの紹介(1)コーパスとはどんなものか
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
- この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」と「日本語歴史コーパス(CHJ)」
- 「コーパス」以前の日本語研究用データとの違いは
2016/04/16
イントロダクション
- デモ
- 「現代日本語書き言葉均衡コーパス(BCCWJ)」
- 「日本語歴史コーパス(CHJ)」
- Excelによる集計(ピボットテーブル)
- 形態素解析