成蹊2019
- 前期・金曜2限
- ogiso@ogiso.net ←@を@に直してください
日本語学講義E†
2019/05/31†
複数の検索結果の結合(再)†
ショートカットキーを活用すると便利
- Ctrl+End ファイルの末尾/表のいちばん右下に移動
- Shift+Ctrl+End 〃範囲を選択
- 表をコピー
- Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
- コピーした表を既存の表の下に貼り付け
- Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home
集計用の列を自分で用意する†
- 例:表記(ひらがな・かたかな・漢字)別集計
- 例:用法分類
「検索課題」†
ランダムサンプリング調査(Excelでの集計・補足)†
- 大量に用例があり、調査内容からすべて対象にできない場合
- ランダムに並べ替え→先頭n例を調査対象に
- ランダムな数字の列: =RAND()
- ランダムな数字の列をコピーして「値として貼り付ける」と数字が固定される
2019/05/24†
「中納言」検索結果のダウンロードとExcelでの利用†
- ダウンロード
- アーカイブの展開(解凍)
- Excelでインポート
Excelの基礎†
【重要】ピボットテーブルの使い方†
2019/05/18(土)†
- 金曜授業実施日ですが,休講です。
- 提出課題がありますので、ポータルサイトで確認してください。
- 掲出が遅れたため28日〆切です。
- 質問があったらメールで連絡して下さい。
2019/05/17†
「中納言」の利用:形態論情報を使った検索†
検索条件式の利用†
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"
2019/05/10†
前回の復習†
品詞体系と見出し語の階層†
- BCCWJ,CHJはUniDicの品詞体系にもとづく
- 配布資料「『中納言』の使い方」
- 配布資料は次回以降も使いますので必ず持ってきてください。
(参考)Web茶まめ†
2019/04/26†
(前回続き)†
- (スライド参照) コーパスの設計とサンプリング
- 著作権をめぐる問題
コーパスの形態論情報:短単位と長単位†
2019/04/19†
日本語コーパス(BCCWJ)の紹介†
- 狭義のコーパス
- 言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
- 広義のコーパス
- コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
- この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」
「中納言」オンライン利用申込み†
日本語コーパス(BCCWJ)の設計†
- 均衡コーパス(Balanced corpus)
- 「バランスがとれている」「代表性」とは?
- コーパスの母集団の設定とサンプリング
- BCCWJのサブコーパス
- 可変長と固定長
- 著作権をめぐる問題
参考リンク†
- 英語のコーパス リファレンス
- 現代日本語書き言葉均衡コーパス(BCCWJ)
2019/04/12†
イントロダクション†