上智2014

コーパス日本語学入門

2014/5/16

「中納言」の利用:形態論情報を使った検索

検索条件式

キー: 語彙素 = "奇麗" IN core="true" WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|" AND tglFixVariable="2"

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

【重要】ピボットテーブルの使い方

2014/5/9

「中納言」利用申込み

コーパスの形態論情報

短単位と長単位

品詞体系


UniDicの品詞体系

品詞分類

unidic_pos.png

活用型

unidic_cType.png

活用形

unidic_cForm.png

学校文法との主な違い


UniDic見出し語の階層構造

見出し語の階層構造

unidic_hierarchy.png

各レベルが持つ情報*2

※語彙素読み・語形・発音形はカタカナ表記。語彙素は漢字を多用した「代表表記」。

基本形と出現形

語形以下のレベルでは、基本形(辞書見出し形=終止形)と出現形(実際の活用形)の別があり、活用語では違う形になる

例:アザラシが泳ぎます

見出し語の例とBCCWJ中の用例数


形態論情報を活かした検索

2014/5/2

「中納言」利用申込み

日本語コーパスの紹介(2) コーパスの設計とサンプリング

参考リンク

2014/4/25

「中納言」利用申込み

現代日本語書き言葉均衡コーパス(BCCWJ)とは

日本語コーパスの紹介(1)コーパスとはどんなものか

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

2014/04/18

イントロダクション


*1 「行く」は「た」「て」に続く連用形がイ音便ではなく促音便になる
*2 一部のみ。「中納言」で使えるのは更にこの一部分。
*3 この場合、活用形としては「連用形」

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS