上智2015/国語学演習IIIb
の履歴(No.23)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
上智2015/国語学演習IIIb
へ行く。
1 (2015-10-01 (木) 21:12:06)
2 (2015-10-01 (木) 21:42:45)
3 (2015-10-09 (金) 03:07:33)
4 (2015-10-09 (金) 09:17:50)
5 (2015-10-09 (金) 15:29:33)
6 (2015-10-15 (木) 22:14:34)
7 (2015-10-16 (金) 13:29:39)
8 (2015-10-22 (木) 21:18:26)
9 (2015-10-23 (金) 15:48:17)
10 (2015-10-29 (木) 18:20:42)
11 (2015-10-30 (金) 14:45:53)
12 (2015-10-30 (金) 16:27:04)
13 (2015-11-06 (金) 09:07:48)
14 (2015-11-06 (金) 15:24:05)
15 (2015-11-12 (木) 23:10:02)
16 (2015-11-13 (金) 07:56:16)
17 (2015-11-13 (金) 16:47:08)
18 (2015-11-20 (金) 12:27:50)
19 (2015-11-27 (金) 00:21:29)
20 (2015-12-03 (木) 20:58:21)
21 (2015-12-04 (金) 08:52:24)
22 (2015-12-04 (金) 14:19:58)
23 (2015-12-04 (金) 15:55:33)
24 (2015-12-11 (金) 09:36:50)
25 (2015-12-17 (木) 21:37:35)
26 (2016-01-08 (金) 00:44:23)
27 (2016-01-08 (金) 09:11:29)
上智2015
コーパスにもとづく日本語史研究
後期・金曜4限
ogiso@ogiso.net ←@を@に直してください
CHJ中納言
https://chunagon.ninjal.ac.jp/
↑
2015/12/04
↑
コロケーション強度の話
単純な用例数では危険
もともと頻度が高いもの同士のつながりは多くて当たり前
コロケーション強度には様々なものがある
ダイス係数
Tスコア
MIスコア(相互情報量)
ダイス係数=2×(ABの用例数/(Aの用例数+Bの用例数))
「つ」の前の動詞の場合
AB= 「動詞+つ」の用例数
A=当該動詞の用例数
B=「つ」の用例数
tスコア=(ABの用例数 - Aの用例数×Bの用例数/コーパスの総語数)/√ABの用例数
MIスコア(相互情報量)=log[2]ABの用例数×コーパスの総語数/Aの用例数×Bの用例数
【参考資料】
助動詞と上接動詞のコロケーション
↑
レポートテーマについて
レポートテーマについて全員に聞き、コメントします。
その後、次回以降に小発表できるだけの調査を行ないます。積極的に質問して下さい。
↑
2015/11/27
Excelによる集計のテクニック(ひまわり/中納言共通)
↑
複数の検索結果をまとめる
一つの表に貼り付けて集計する
↑
分類用のフィールドを作って集計する
例:「新聞紙」の意味・用法の変化
データ:
https://dl.dropboxusercontent.com/u/134600/sinbunsi.xlsx
↑
サンプリング調査
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =rand()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
関数の利用
文字列処理関数
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
(注意)ひまわりの検索結果をExcelに貼り付けるとき
生年月日がくる列全体のセルの書式を「文字列」としたうえで貼り付ける
1900年以前の日付が正しく変換されず不統一になるのを防ぐため
↑
日本語歴史コーパス「中納言」補足
地の文・会話文
発話者
↑
レポートテーマについて
次回までにレポートテーマを考えてくること(全員に聞きます)
↑
2015/11/20
↑
短単位について
資料参照
PDF
↑
品詞体系
BCCWJと同様、UniDicの品詞体系↓ にもとづく
授業資料/UniDicの品詞体系
授業資料/UniDicの見出し語階層
↑
中納言の使い方(続き)
資料参照
PDF
4.「検索結果のダウンロード」から
↑
2015/11/13
↑
(補足)研究例
漢語サ変動詞の可能の形
形容動詞の連体修飾の形
↑
(補足)さまざまな「ひまわり」用データ
形態論情報付きの「ひまわり」用データ
「明六雑誌コーパス」
http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/
「洒落本コーパス」「人情本コーパス」試作版
http://pj.ninjal.ac.jp/corpus_center/chj/edo.html
利用可能なデータについて
近代語のデータ
太陽コーパス◎
近代女性雑誌コーパス◎
明六雑誌コーパス◎
国民之友コーパス◎
国定高等小学読本
国会会議録データ
法令データベース
青空文庫◎
口コミサイト
古典文学作品のデータ
↑
『日本語歴史コーパス』(CHJ)を使う
『日本語歴史コーパス』
http://www.ninjal.ac.jp/corpus_center/chj/
中納言
https://chunagon.ninjal.ac.jp
↑
中納言の使い方
資料参照
PDF
4.「検索結果のダウンロード」まで【済】
↑
2015/11/06
↑
青空文庫の「ひまわり」データ
ひまわり『青空文庫』パッケージ
↑
ピボットテーブル(復習)
調査例
「~に/を信頼する」
「それきり」「それぎり」
「気持ち」「心持ち」
「~的の/な」
↑
関数の利用
文字列処理関数
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
↑
参考文献
国立国語研究所編(2005)『雑誌『太陽』による確立期現代語の研究―『太陽コーパス』研究論文集』博文館新社
#amazon(4861151554)
田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書店
#amazon(4000286269)
近藤泰弘・田中牧郎・小木曽智信編(2015)『コーパスと日本語史研究』 (ひつじ研究叢書 言語編 第127巻)
#amazon(4894767511)
↑
中納言ログイン
↑
2015/10/30
↑
「太陽コーパス」
授業用データ
↑
「ひまわり」検索結果をExcelで扱う
ケーススタディ/障がい
↑
Excelの基本操作
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル★
ピボットグラフ
↑
2015/10/23
↑
近代雑誌コーパスと「ひまわり」
近代語のコーパス
「太陽コーパス」(販売中)
「近代女性雑誌コーパス」(公開中)
「明六雑誌コーパス」(公開中)〈形態論情報付き〉
「国民之友コーパス」(公開中)〈形態論情報付き〉
↑
全文検索システム「ひまわり」について
全文検索システム「ひまわり」
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
ひまわり のダウンロードページ
プログラム本体
ひまわり用「青空文庫」パッケージのダウンロードページ
検索対象のデータセット
↑
「ひまわり」の導入
「近代女性雑誌コーパス」のインストールと動作確認
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
↑
2015/10/16
今回からUSBメモリを使います。
日本語歴史コーパス(CHJ)中納言は登録手続き中です。
前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。
↑
テキストエディタ
テキストデータ(青空文庫)の配布
soseki2.zip
(今日の授業で使います)
aozoradoc2.zip
(青空文庫全テキスト・参考)
ダウンロードしてUSBメモリに展開(解凍)してください
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
サブフォルダのgrep
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
記号はすべて半角
記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
文字クラス [ ]
文字クラスの補集合(それ以外の文字)[^ ]
授業資料/正規表現
↑
2015/10/9
次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。
↑
日本語歴史コーパス(CHJ)の登録
申込用紙・契約書2枚
次回、押印して持ってきてください
↑
「コーパス」について
†
狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
Web上のデータ
検索サイトの利用
WAC(Web as Corpus)
↑
紙の資料からコーパスまで
(紙の)本文テキスト
(紙の)総索引
電子テキスト
構造化テキスト
形態論情報付きコーパス
↑
総索引から電子化テキストへ(国語史資料の電子化の歴史)
戦後、総索引が整備されはじめる
1929~31『万葉集総索引』
1952『源氏物語用語索引』
1955『徒然草総索引』
1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤…
総索引作成のための電子化テキスト利用など
1990年代、電子化テキストの利用が広がる
『源氏物語』テキストデータベース(長瀬1990)
国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
日本文学等テキストファイル(岡島)
http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm
J-TEXT日本文学電子図書館(菊池・深沢)
http://www.j-texts.com/
青空文庫 1997~
http://www.aozora.gr.jp/
この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』
↑
テキストファイル
テキストデータとはどんなものか
授業資料/テキストデータとは
授業資料/テキストデータ紹介
(広義のコーパス)
テキストエディタ
授業資料/テキストエディタ
サクラエディタのダウンロードとインストール
サクラエディタのダウンロード:sakura2.zip
(参考) サクラエディタホームページ:
http://sourceforge.net/projects/sakura-editor/
zipファイルの展開(解凍)
解凍しないままでも開けるが必ず解凍すること
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石+芥川)
sample.zip
↑
プレーンテキストからタグ付きテキストへ
2000年代(タグ付きテキスト「コーパス」へ)
狭義の「コーパス」登場
『太陽コーパス』2005
↑
2015/10/02
↑
イントロダクション
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
http://www.ninjal.ac.jp/
コーパスとは
国立国語研究所コーパス開発センター
↑
デモ
テキストエディタ
ひまわり
Excelによる集計(ピボットテーブル)
「日本語歴史コーパス(CHJ)」
CHJ
中納言
形態素解析:茶まめ/MeCab+UniDic
形態素解析辞書UniDic
http://www2.ninjal.ac.jp/lrc/index.php?UniDic
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
sakura2
正規表現を使ったテキストの検索・整形
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成
↑
シラバス確認
シラバス
この授業の目的
授業の進め方
評価方法