東京外大2013
日本語教育学研究
コーパス日本語研究入門
2013/06/07
短単位と長単位(復習)
中納言検索課題
Excelの文字列関数とif関数
- 集計用に用意した列で文字列処理関数を利用する
- left,right,mid,len,search,substitute
2013/05/31
中納言システムアップデート(5月30日)について
- 中納言のシステムが新しくなりました
- 新機能の紹介
- 検索対象の指定が柔軟にできるようになった
- 短単位検索の条件指定において「検索キーの位置をずらす」指定ができるようになった
- 検索キーの前後位置に条件指定を行ったとき、キーに条件を指定しない検索ができるようになった
- 検索キーの前後の単位を結合してKWICキーに指定することができるようになった
- 検索結果のダウンロード時に圧縮の有無や文字コードを指定できるようになった
- 文字列検索で(解析単位ではなく)検索文字列をキーにしたKWIC表示ができるようになった
- サーバの負荷状況が表示されるようになった
Excelによる集計・つづき
- ピボットテーブル
- 複数の検索結果の結合
- 集計用の列を自分で用意する
2013/05/24
長単位と短単位
- スライド参照
- 複合辞
- 可能性に基づく品詞付与ではなく、出現例に則した品詞付与
- 可能動詞の語彙素
「中納言」検索結果の利用
- 検索結果のダウンロード
- ダウンロード
- アーカイブの展開(解凍)
- インポート
- 中納言の検索結果をExcelで利用する
Excelの利用
- Excelの基本
- ピボットテーブルとピボットグラフ
- ピボットテーブル
- Excelのバージョンによってかなり操作方法が違うので注意
- ピボットグラフ
2013/05/17
中納言によるコーパスの検索方法(つづき)
BCCWJの形態論情報
- UniDicの品詞体系
- 品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(>細分類))
- 活用型:下一段-ア行 (大分類>行分類(>小分類))
- 可能性に基づく品詞体系
学校文法との違い
- 形状詞 (=形容動詞語幹)
- 助動詞「う」が付いた形を意志推量形として扱う
- サ変動詞は語幹と「する」に分かれる
2013/05/10
「中納言」の利用
中納言によるコーパスの検索方法
- 配布資料:中納言の使い方
(次回も持ってきてください)
2013/04/26
コーパスの設計とサンプリング
- 「バランスがとれている」とは?
- 現代日本語の書き言葉の縮図としてのコーパスを作る
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス(レジスター)
- 可変長と固定長
「少納言」を使ってみる
テキストエディタ†
前回つづき
- サクラエディタのダウンロードとインストール
- サンプルテキストデータ
2013/04/19
「中納言」利用申込み
コーパスとは
- スライド参照
- コーパスとはどんなものか
- 日本語コーパス以外(以前)の電子資料
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
参考リンク
テキストエディタ†
4/12 第1回 イントロダクション/日本語コーパスの紹介
- 授業の進め方について
- 受講者のレベルにあわせて基礎的なことから始め、自分の研究に実際に活かせるようになることを目指します。