[[上智2015]] *コーパスにもとづく日本語史研究 -後期・金曜4限 -ogiso@ogiso.net ←@を@に直してください -CHJ中納言 https://chunagon.ninjal.ac.jp/ ***レポート提出について -締切:2月5日(金) 24:00 -提出先:メールで直接送付(必ず受取確認のメールを確認すること) -分量:A4用紙で3~10枚(4枚以上を推奨) -メール・Wordファイルの両方に氏名・学籍番号を明記すること --Wordファイルのサイズが大きくなりすぎる場合には、PDFファイルとして保存して送ること **2016/01/22 ***最終回:レポートの完成へ ***発展 -Excelの活用 --[[vlookup関数>授業資料/vlookup関数]] -データベースの利用(Access) --クエリによる集計 ***国語研のコーパス --『現代日本語書き言葉均衡コーパス』BCCWJ --『日本語歴史コーパス』CHJの拡張 2016.3 ---形態論情報付き「近代雑誌コーパス」の統合(『太陽』はコアのみで残りは2016年度中) ---「平安時代編」への『大鏡』『蜻蛉日記』の追加 ---「鎌倉時代編Ⅰ説話・随筆」 ---「室町時代編Ⅰ狂言」長単位 --『日本語話し言葉コーパス』CSJ **2016/01/08 ***レポートテーマ調査報告 のこり ***Wordを使ってレポートを書く -図表の取り扱い --「形式を選択して貼り付け」 --図表番号、キャプション -''文書の構造化'' --章・節番号 --「スタイル」「ナビゲーション ウィンドウ」(見出しマップ)の活用 -図表番号と相互参照 --脚注、文末脚注 --目次、図表目次 ***レポート作成のためのコーパス調査・質問(3) **2015/12/17 ***レポートテーマ調査報告(2) -スライドを使った短い発表(ライトニングトーク)+コメント ***レポート作成のためのコーパス調査・質問(2) **2015/12/11 ***レポートテーマ調査報告 -スライドを使った短い発表(ライトニングトーク)+コメント ***レポート作成のためのコーパス調査・質問 -考えてきたテーマについて、実際に用例を検索してレポート作成の準備を進めます。 積極的に質問して下さい。 **2015/12/04 ***コロケーション強度の話 -単純な用例数では危険 -もともと頻度が高いもの同士のつながりは多くて当たり前 -コロケーション強度には様々なものがある --ダイス係数 --Tスコア --MIスコア(相互情報量) -ダイス係数=2×(ABの用例数/(Aの用例数+Bの用例数)) --「つ」の前の動詞の場合 ---AB= 「動詞+つ」の用例数 ---A=当該動詞の用例数 ---B=「つ」の用例数 -tスコア=(ABの用例数 - Aの用例数×Bの用例数/コーパスの総語数)/√ABの用例数 -MIスコア(相互情報量)=log[2]ABの用例数×コーパスの総語数/Aの用例数×Bの用例数 -【参考資料】[[助動詞と上接動詞のコロケーション>https://dl.dropboxusercontent.com/u/134600/20140922_collocation_CHJ.pdf]] ***レポートテーマについて --レポートテーマについて全員に聞き、コメントします。 --その後、次回以降に小発表できるだけの調査を行ないます。積極的に質問して下さい。 **2015/11/27 -Excelによる集計のテクニック(ひまわり/中納言共通) ***複数の検索結果をまとめる --一つの表に貼り付けて集計する ***分類用のフィールドを作って集計する --例:「新聞紙」の意味・用法の変化 --データ:https://dl.dropboxusercontent.com/u/134600/sinbunsi.xlsx ***サンプリング調査 --大量に用例があり、調査内容からすべて対象にできない場合 --ランダムに並べ替え→先頭n例を調査対象に ---ランダムな数字の列: =rand() ---ランダムな数字の列をコピーして値として貼り付けると数字が固定される ***関数の利用 -文字列処理関数 --例: =left(<文字列>,<文字数>) ---生年代: =left(<生年月日が入っているセル>,3)*10 -(注意)ひまわりの検索結果をExcelに貼り付けるとき --生年月日がくる列全体のセルの書式を「文字列」としたうえで貼り付ける --1900年以前の日付が正しく変換されず不統一になるのを防ぐため ***日本語歴史コーパス「中納言」補足 -地の文・会話文 -発話者 **レポートテーマについて -次回までにレポートテーマを考えてくること(全員に聞きます) **2015/11/20 ***短単位について -資料参照 [[PDF>https://dl.dropboxusercontent.com/u/134600/CHJ_SUW_LUW.pdf]] ***品詞体系 -BCCWJと同様、UniDicの品詞体系↓ にもとづく -[[授業資料/UniDicの品詞体系]] -[[授業資料/UniDicの見出し語階層]] --- ***中納言の使い方(続き) -資料参照 [[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_chunagon_howto.pdf]] --4.「検索結果のダウンロード」から **2015/11/13 ***(補足)研究例 -漢語サ変動詞の可能の形 //--https://dl.dropboxusercontent.com/u/134600/ogiso_taiyo_kanou.pdf -形容動詞の連体修飾の形 //--https://dl.dropboxusercontent.com/u/134600/ogiso_taiyo_rentai.pdf ***(補足)さまざまな「ひまわり」用データ -形態論情報付きの「ひまわり」用データ -「明六雑誌コーパス」 --http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/ -「洒落本コーパス」「人情本コーパス」試作版 --http://pj.ninjal.ac.jp/corpus_center/chj/edo.html 利用可能なデータについて -[[近代語のデータ>http://www.ninjal.ac.jp/corpus_center/cmj/]] --太陽コーパス◎ --近代女性雑誌コーパス◎ --明六雑誌コーパス◎ --国民之友コーパス◎ --国定高等小学読本 -国会会議録データ -法令データベース -青空文庫◎ -口コミサイト -古典文学作品のデータ ------ **『日本語歴史コーパス』(CHJ)を使う -『日本語歴史コーパス』 --http://www.ninjal.ac.jp/corpus_center/chj/ -中納言 --https://chunagon.ninjal.ac.jp ***中納言の使い方 -資料参照 [[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_chunagon_howto.pdf]] --4.「検索結果のダウンロード」まで【済】 **2015/11/06 ***青空文庫の「ひまわり」データ --[[ひまわり『青空文庫』パッケージ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]] ***ピボットテーブル(復習) -調査例 --「~に/を信頼する」 --「それきり」「それぎり」 --「気持ち」「心持ち」 --「~的の/な」 ***関数の利用 -文字列処理関数 --例: =left(<文字列>,<文字数>) ---生年代: =left(<生年月日が入っているセル>,3)*10 ***参考文献 -[[国立国語研究所編(2005)『雑誌『太陽』による確立期現代語の研究―『太陽コーパス』研究論文集』博文館新社>http://www.hakubunkan.co.jp/gengo/taiyoC.html]] #amazon(4861151554) -[[田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書店>http://www.iwanami.co.jp/.BOOKS/02/9/0286260.html]] #amazon(4000286269) -[[近藤泰弘・田中牧郎・小木曽智信編(2015)『コーパスと日本語史研究』 (ひつじ研究叢書 言語編 第127巻) >http://www.hituzi.co.jp/hituzibooks/ISBN978-4-89476-751-5.htm]] #amazon(4894767511) #clear **中納言ログイン **2015/10/30 ***「太陽コーパス」 --授業用データ //--[[授業用データ>https://dl.dropboxusercontent.com/u/134600/taiyo_himawari.zip]] ***「ひまわり」検索結果をExcelで扱う -[[ケーススタディ/障がい]] ***Excelの基本操作 -並べ替え(ソート) -フィルター(絞り込み) --テキストフィルター --多重フィルター(複数の条件指定) -ピボットテーブル★ --ピボットグラフ **2015/10/23 ***近代雑誌コーパスと「ひまわり」 -[[近代語のコーパス>http://www.ninjal.ac.jp/corpus_center/cmj/]] --「太陽コーパス」(販売中) --「近代女性雑誌コーパス」(公開中) --「明六雑誌コーパス」(公開中)〈形態論情報付き〉 --「国民之友コーパス」(公開中)〈形態論情報付き〉 ***全文検索システム「ひまわり」について &ref(himawari_aozora.png,,50%); -[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]] --ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用 -[[ひまわり のダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.5]] プログラム本体 -[[ひまわり用「青空文庫」パッケージのダウンロードページ>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%C0%C4%B6%F5%CA%B8%B8%CB%A1%D9%A5%D1%A5%C3%A5%B1%A1%BC%A5%B8]] 検索対象のデータセット ***「ひまわり」の導入 -「近代女性雑誌コーパス」のインストールと動作確認 -ひまわりの正規表現について([[授業資料/Himawariの正規表現]]) **2015/10/16 -今回からUSBメモリを使います。 -日本語歴史コーパス(CHJ)中納言は登録手続き中です。 --前回提出していない人は必ず提出して下さい(申込み用紙1枚、契約書2枚の計3枚を押印して提出)。 ***テキストエディタ -テキストデータ(青空文庫)の配布 //--Web Collaboration : /temporary/ogiso/ ---[[soseki2.zip>https://dl.dropboxusercontent.com/u/134600/soseki2.zip]] (今日の授業で使います) ---[[aozoradoc2.zip>https://dl.dropboxusercontent.com/u/134600/aozoradoc2.zip]](青空文庫全テキスト・参考) --ダウンロードしてUSBメモリに展開(解凍)してください -検索・置換、grep --検索で初出行を調べる --置換で用例数を数える --grepで用例リストを作る --タグジャンプで文脈を確認する --サブフォルダのgrep ***ショートカットキー [#da449f25] -[[授業資料/覚えておきたいショートカットキー]] ***正規表現を使ってみる [#u471d57b] -文字クラス --例:読[まみむめもん] ---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字 ***正規表現とは [#d216d4e0] -''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]] --文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する --エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている) --記号はすべて半角 --記号そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2 -文字クラス [ ] --文字クラスの補集合(それ以外の文字)[^ ] -[[授業資料/正規表現]] **2015/10/9 -次回以降、USBメモリ(少なくとも2GB以上)を持ってきてください。 ***日本語歴史コーパス(CHJ)の登録 -申込用紙・契約書2枚 -次回、押印して持ってきてください ----- ***「コーパス」について [#k44345b6] :狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。 --BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス :広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。 --さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録) --Web上のデータ ---検索サイトの利用 ---WAC(Web as Corpus) ***紙の資料からコーパスまで +(紙の)本文テキスト +(紙の)総索引 +電子テキスト +構造化テキスト +形態論情報付きコーパス ***総索引から電子化テキストへ(国語史資料の電子化の歴史) -戦後、総索引が整備されはじめる --1929~31『万葉集総索引』 --1952『源氏物語用語索引』 --1955『徒然草総索引』 -1980年代から徐々に日本語史資料へのコンピュータ応用が始まる --金水(1984),豊島(1983,1987),西端(1983,1989),岡島,近藤… --総索引作成のための電子化テキスト利用など -1990年代、電子化テキストの利用が広がる --『源氏物語』テキストデータベース(長瀬1990) --国語学会(現日本語学会)1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」 ---日本文学等テキストファイル(岡島)http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm ---J-TEXT日本文学電子図書館(菊池・深沢)http://www.j-texts.com/ --青空文庫 1997~ http://www.aozora.gr.jp/ --この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『角川古語大観 源氏物語』「国文学研究資料館データベース 古典コレクション」『国定読本用語総覧』 ***テキストファイル -テキストデータとはどんなものか --[[授業資料/テキストデータとは]] --[[授業資料/テキストデータ紹介]](広義のコーパス) -テキストエディタ --[[授業資料/テキストエディタ]] -サクラエディタのダウンロードとインストール --[[サクラエディタのダウンロード:sakura2.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sakura2.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ---(参考) サクラエディタホームページ:http://sourceforge.net/projects/sakura-editor/ -zipファイルの展開(解凍) --解凍しないままでも開けるが必ず解凍すること -テキストエディタの設定 --行の折り返し --行番号表示 ---スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号) -練習用サンプルデータ(漱石+芥川) --[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=sample.zip&refer=%C0%AE%EC%FE2013%2F%C6%FC%CB%DC%B8%EC%C6%FC%CB%DC%CA%B8%B3%D8%A4%CE%A4%BF%A4%E1%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF]] ***プレーンテキストからタグ付きテキストへ -2000年代(タグ付きテキスト「コーパス」へ) --狭義の「コーパス」登場 ---『太陽コーパス』2005 **2015/10/02 ***イントロダクション -[[自己紹介]] --大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/ -コーパスとは --[[国立国語研究所コーパス開発センター>http://pj.ninjal.ac.jp/corpus_center/]] ***デモ -テキストエディタ -ひまわり --Excelによる集計(ピボットテーブル) -「日本語歴史コーパス(CHJ)」 --CHJ[[中納言>http://chunagon.ninjal.ac.jp]] -形態素解析:茶まめ/MeCab+UniDic --[[形態素解析辞書UniDic>http://sourceforge.jp/projects/unidic/]] --http://www2.ninjal.ac.jp/lrc/index.php?UniDic ***授業で利用する主なソフトウェア [#i06478d2] |ソフトウェアの種類・名前|利用目的|h |[[テキストエディタ ''サクラエディタ'' sakura2>http://sourceforge.net/projects/sakura-editor/]]|正規表現を使ったテキストの検索・整形| |[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|データの検索| |表計算ソフト''Excel''|ピボットテーブルによる分析・グラフ作成| |ワープロ''Word''|「スタイル」を利用したレポート作成| ***シラバス確認 -[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=2015b_sophia.pdf&refer=%BE%E5%C3%D22015%2F%B9%F1%B8%EC%B3%D8%B1%E9%BD%ACIIIb]] --この授業の目的 --授業の進め方 --評価方法