総研大2024
2024/04/30 国語研の書き言葉コーパス†
国語研の書き言葉コーパスについて最新の研究を含めて概説する。
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング†
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」「代表性」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
参考リンク†
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
BCCWJ2†
「日本語歴史コーパス」(CHJ)の構成†
- 残された資料に限りがある(そもそも偏りがある)歴史的なコーパスの場合、現代語コーパス同様の「代表性」を求めることは困難
- 近世以前
- 残されている資料が少なく、できるだけ(可能なら全部)コーパスに入れたい
- 近世(後期)以降
- 偏りはあるものの選べるだけの資料があるが、それでもなるべく全文でいれたい(作品など資料単位で調査したい)
- 『日本語歴史コーパス』の中身
- 中世以前は重要な資料をまるごと対象に
- 近世の洒落本・人情本:年代・著者(・地域)のバランスを取って作品単位でサンプリング
近代語コーパスの場合†
- 近代雑誌コーパス(現在はCHJの一部)
- 多様な記事を含む「総合雑誌」を対象とすることでバランスを確保
- 発行年での大まかなサンプリング
- その後の雑誌コーパスも8年おきに収録
- 明六雑誌・東洋学芸雑誌・国民之友・太陽(・中央公論・文藝春秋)
- 近代小説
「昭和・平成書き言葉コーパス」(SHC)の構成†
- CHJの後を受けて現代までを通時的に研究するためのコーパス。1933年以降、8年おき11か年分(1933・1941・1949・1957・1965・1973・1981・1989・1997・2005・2013)を収録。
- 2023年5月公開
- 雑誌
- 1933~1957 年刊の『中央公論』と1965~2013 年刊の『文芸春秋』(8年おき11か年分)
- ベストセラー書籍
- 1933年以降、8年おき11か年のベストセラー書籍
- 新聞
- 1933年以降、8年おき11か年の『読売新聞』奇数月2日の朝刊1冊
※参考:配布資料(「『昭和・平成書き言葉コーパス』の構築と公開」)
コーパスと著作権†
2024/05/07 国語研のコーパスの形態論情報†
国語研コーパスへの形態論情報の付与について最新の研究を含めて概説する。
コーパスの形態論情報†
- コーパス検索アプリケーション「中納言」と短単位と長単位
品詞体系†
- BCCWJ・CHJはUniDicの品詞体系にもとづく(BCCWJのために開発されたのがUniDic)
コーパスへの形態論情報の付与†
- 短単位:MeCabとUniDicを使った形態素解析で情報付与
- 長単位:Comainu(など)で短単位を組み上げる
形態素解析を試してみる†
- Web茶まめ(MeCabとUniDicによる形態素解析をオンラインで行うツール)
形態素解析の仕組み†
参考資料†