上智2014/国語学演習Ib
をテンプレートにして作成
開始行:
[[上智2014]]
*コーパスにもとづく日本語史研究
-後期・金曜4限
-ogiso@ogiso.net ←@を@に直してください
-CHJ中納言 https://maro.ninjal.ac.jp/
***レポートについて
-締切:2月6日(金) 24:00
-提出先:メールで直接送付(必ず受取確認のメールを確認する...
-分量:A4用紙で3~10枚(4枚以上を推奨)
-メール・Wordファイルの両方に氏名・学籍番号を明記すること
--Wordファイルのサイズが大きくなりすぎる場合には、PDFファ...
**2015/01/16
***最終回:レポート作成のためのコーパス検索・調査(3)
**2015/01/09
***レポート作成のためのコーパス検索・調査(2)
考えてきたテーマについて、実際に用例を検索してレポート作...
**2014/12/19
***前回補足
-コロケーション強度について:プリント参照
***レポート作成のためのコーパス検索・調査(1)
考えてきたテーマについて、実際に用例を検索してレポート作...
**2014/12/12
***日本語歴史コーパス「中納言」補足
-地の文・会話文
-発話者
***コロケーション強度
-単純な用例数では危険
-もともと頻度が高いもの同士のつながりは多くて当たり前
-コロケーション強度には様々なものがある
--ダイス係数
--Tスコア
--MIスコア(相互情報量)
-ダイス係数=2×(ABの用例数/Aの用例数+Bの用例数)
--「つ」の前の動詞の場合
---AB= 「動詞+つ」の用例数
---A=当該動詞の用例数
---B=「つ」の用例数
***レポートテーマについて
-用紙を配布します
***質問
**2014/12/05
***中納言の使い方(つづき)
-資料参照(修正済み)
[[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_chuna...
-Excelによる集計
**2014/11/28
**日本語歴史コーパス(CHJ)を使う
-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
-CHJ中納言(平安時代編)
--https://maro.ninjal.ac.jp
***中納言の使い方
-資料参照
// [[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_ch...
***短単位について
-資料参照
// [[PDF>https://dl.dropboxusercontent.com/u/134600/CHJ_S...
**2014/11/21
***青空文庫の「ひまわり」データの利用例
-青空文庫データで復習
--例:「それきり」「それぎり」
--データ:https://dl.dropboxusercontent.com/u/134600/sore...
***関数の利用
-文字列処理関数
--例: =left(<文字列>,<文字数>)
---生年代: =left(<生年月日が入っているセル>,3)*10
-(注意)ひまわりの検索結果をExcelに貼り付けるとき
--生年月日の列を一旦コピーしてメモ帳などに貼り付け、列全...
---「青空文庫」データの作品ごとに不揃いな生年月日が日付へ...
***分類用のフィールドを作って集計する
--例:「新聞紙」の意味・用法の変化
--データ:https://dl.dropboxusercontent.com/u/134600/sinb...
-サンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =rand()
---ランダムな数字の列をコピーして値として貼り付けると数字...
**2014/11/14
***青空文庫の「ひまわり」データ
--[[ひまわり『青空文庫』パッケージ>http://www2.ninjal.ac....
***ピボットテーブル(復習)
-列名
|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|...
***調査例
-「~的の」「~的な」
-「気持ち」「心持ち」
-「それきり」「それぎり」
***研究例
-漢語サ変動詞の可能の形
--https://dl.dropboxusercontent.com/u/134600/20141114_tai...
-形容動詞の連体修飾の形
--https://dl.dropboxusercontent.com/u/134600/20141114_tai...
***参考文献
-[[国立国語研究所編(2005)『雑誌『太陽』による確立期現代...
#amazon(4861151554)
-[[田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書...
#amazon(4000286269)
-[[「日本語学」2014.11臨時増刊号「日本語史研究と歴史コー...
#amazon(B00OY8XA38)
#clear
**2014/11/07
***「ひまわり」検索結果をExcelで扱う
-[[ケーススタディ/障がい]]
-列名(近代女性雑誌コーパス)
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|...
***Excelの基本操作
-並べ替え(ソート)
-フィルター(絞り込み)
--テキストフィルター
--多重フィルター(複数の条件指定)
-ピボットテーブル★
--ピボットグラフ
**「ひまわり」データの追加
***「太陽コーパス」
--授業用データ
//--[[授業用データ>https://dl.dropboxusercontent.com/u/13...
***形態論情報付きの「ひまわり」データ
-「明六雑誌コーパス」
--http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/
**''&color(red){10/28みなし金曜日 の授業は休講です};''
**2014/10/24
**「ひまわり」の利用
***正規表現を使ってみる [#u471d57b]
-文字クラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
--記号はすべて半角
--記号そのものを表す場合には\でエスケープする(特殊な意味...
-文字クラス [ ]
--文字クラスの補集合(それ以外の文字)[^ ]
------
-[[授業資料/正規表現]]
-ひまわりの正規表現について([[授業資料/Himawariの正規表...
***ひまわりで利用可能なデータについて
◎を授業で取り上げます。
-現代語のデータ
--国会会議録データ
--法令データベース
--青空文庫◎
--口コミサイト
-[[近代語のデータ>http://www.ninjal.ac.jp/corpus_center/c...
--太陽コーパス◎
--近代女性雑誌コーパス◎
--明六雑誌コーパス◎
--国民之友コーパス◎
--国定高等小学読本◎
-古典文学作品のデータ
**2014/10/17
-今回からUSBメモリを使います。
-日本語歴史コーパス(CHJ)中納言は登録手続き中です。
--前回提出していない人は必ず提出して下さい(申込み用紙1枚...
***近代雑誌コーパスと「ひまわり」
-[[近代語のコーパス>http://www.ninjal.ac.jp/corpus_center...
--「太陽コーパス」(販売中)
--「近代女性雑誌コーパス」(公開中)
--「明六雑誌コーパス」(公開中)〈形態論情報付き〉
--「国民之友コーパス」(公開中)〈形態論情報付き〉
***全文検索システム「ひまわり」について
&ref(himawari_aozora.png,,50%);
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***「ひまわり」の導入
+「ひまわり」のダウンロード
--[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
+「近代女性雑誌コーパス」のダウンロード
--[[近代女性雑誌コーパス>http://www.ninjal.ac.jp/corpus_c...
+インストール
--ダウンロードした二つのZIPファイルを右クリックして、[プ...
--Himawariフォルダ内のCorporaフォルダが重なる(上書きされ...
+動作確認
--Himawari.exeをダブルクリックして起動,configファイルを...
***Himawariの使い方
-使い方の説明
**2014/10/10
-次回以降、USBメモリ(2GB以上)を持ってきてください。
***日本語歴史コーパス(CHJ)の登録
-申込用紙・契約書2枚
-次回、押印して持ってきてください。
-----
***「コーパス」について [#k44345b6]
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
--BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コ...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
--さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫...
--Web上のデータ
---検索サイトの利用
---WAC(Web as Corpus)
***総索引から電子化テキストへ(国語史資料の電子化の歴史)
-戦後、総索引が整備されはじめる
--1929~31『万葉集総索引』
--1952『源氏物語用語索引』
--1955『徒然草総索引』
-1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
--金水(1984),豊島(1983,1987),西端(1983,1989),岡島...
--総索引作成のための電子化テキスト利用など
-1990年代、電子化テキストの利用が広がる
--『源氏物語』テキストデータベース(長瀬1990)
--国語学会(現日本語学会)1992年度春季大会テーマ「国語研...
---日本文学等テキストファイル(岡島)http://www.let.osaka...
---J-TEXT日本文学電子図書館(菊池・深沢)http://www.j-tex...
--青空文庫 1997~ http://www.aozora.gr.jp/
--この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『...
***テキストファイル
-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]](広義のコーパス)
-テキストエディタ
--[[授業資料/テキストエディタ]]
-サクラエディタのダウンロードとインストール
--[[サクラエディタのダウンロード:sakura2.zip>http://www.o...
---(参考) サクラエディタホームページ:http://sourceforge....
-zipファイルの展開(解凍)
--解凍しないままでも開けるが必ず解凍すること
-テキストエディタの設定
--行の折り返し
--行番号表示
---スタイル行番号(ワープロ的行番号)と論理行番号(エディ...
-練習用サンプルデータ(漱石+芥川)
--[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin...
***プレーンテキストからタグ付きテキストへ
-2000年代(タグ付きテキスト「コーパス」へ)
--狭義の「コーパス」登場
---『太陽コーパス』2005
**2014/10/03
***イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
--[[国立国語研究所コーパス開発センター>http://www.ninjal....
--[[形態素解析辞書UniDic>http://sourceforge.jp/projects/u...
---http://www2.ninjal.ac.jp/lrc/index.php?UniDic
-デモ
-「日本語歴史コーパス(CHJ)」
--CHJ[[中納言>http://maro.ninjal.ac.jp]]
--Excelによる集計(ピボットテーブル)
-ひまわり(「太陽コーパス」)
-形態素解析:茶まめ/MeCab+UniDic
-シラバス確認
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=at...
--この授業の目的
--授業の進め方
--評価方法
終了行:
[[上智2014]]
*コーパスにもとづく日本語史研究
-後期・金曜4限
-ogiso@ogiso.net ←@を@に直してください
-CHJ中納言 https://maro.ninjal.ac.jp/
***レポートについて
-締切:2月6日(金) 24:00
-提出先:メールで直接送付(必ず受取確認のメールを確認する...
-分量:A4用紙で3~10枚(4枚以上を推奨)
-メール・Wordファイルの両方に氏名・学籍番号を明記すること
--Wordファイルのサイズが大きくなりすぎる場合には、PDFファ...
**2015/01/16
***最終回:レポート作成のためのコーパス検索・調査(3)
**2015/01/09
***レポート作成のためのコーパス検索・調査(2)
考えてきたテーマについて、実際に用例を検索してレポート作...
**2014/12/19
***前回補足
-コロケーション強度について:プリント参照
***レポート作成のためのコーパス検索・調査(1)
考えてきたテーマについて、実際に用例を検索してレポート作...
**2014/12/12
***日本語歴史コーパス「中納言」補足
-地の文・会話文
-発話者
***コロケーション強度
-単純な用例数では危険
-もともと頻度が高いもの同士のつながりは多くて当たり前
-コロケーション強度には様々なものがある
--ダイス係数
--Tスコア
--MIスコア(相互情報量)
-ダイス係数=2×(ABの用例数/Aの用例数+Bの用例数)
--「つ」の前の動詞の場合
---AB= 「動詞+つ」の用例数
---A=当該動詞の用例数
---B=「つ」の用例数
***レポートテーマについて
-用紙を配布します
***質問
**2014/12/05
***中納言の使い方(つづき)
-資料参照(修正済み)
[[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_chuna...
-Excelによる集計
**2014/11/28
**日本語歴史コーパス(CHJ)を使う
-日本語歴史コーパス
--http://www.ninjal.ac.jp/corpus_center/chj/
-CHJ中納言(平安時代編)
--https://maro.ninjal.ac.jp
***中納言の使い方
-資料参照
// [[PDF>https://www.dropbox.com/s/26vixitz4itjcb9/CHJ_ch...
***短単位について
-資料参照
// [[PDF>https://dl.dropboxusercontent.com/u/134600/CHJ_S...
**2014/11/21
***青空文庫の「ひまわり」データの利用例
-青空文庫データで復習
--例:「それきり」「それぎり」
--データ:https://dl.dropboxusercontent.com/u/134600/sore...
***関数の利用
-文字列処理関数
--例: =left(<文字列>,<文字数>)
---生年代: =left(<生年月日が入っているセル>,3)*10
-(注意)ひまわりの検索結果をExcelに貼り付けるとき
--生年月日の列を一旦コピーしてメモ帳などに貼り付け、列全...
---「青空文庫」データの作品ごとに不揃いな生年月日が日付へ...
***分類用のフィールドを作って集計する
--例:「新聞紙」の意味・用法の変化
--データ:https://dl.dropboxusercontent.com/u/134600/sinb...
-サンプリング調査
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =rand()
---ランダムな数字の列をコピーして値として貼り付けると数字...
**2014/11/14
***青空文庫の「ひまわり」データ
--[[ひまわり『青空文庫』パッケージ>http://www2.ninjal.ac....
***ピボットテーブル(復習)
-列名
|前文脈|キー|後文脈|作品名|副題|著者|役割|初出|分類番号|...
***調査例
-「~的の」「~的な」
-「気持ち」「心持ち」
-「それきり」「それぎり」
***研究例
-漢語サ変動詞の可能の形
--https://dl.dropboxusercontent.com/u/134600/20141114_tai...
-形容動詞の連体修飾の形
--https://dl.dropboxusercontent.com/u/134600/20141114_tai...
***参考文献
-[[国立国語研究所編(2005)『雑誌『太陽』による確立期現代...
#amazon(4861151554)
-[[田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書...
#amazon(4000286269)
-[[「日本語学」2014.11臨時増刊号「日本語史研究と歴史コー...
#amazon(B00OY8XA38)
#clear
**2014/11/07
***「ひまわり」検索結果をExcelで扱う
-[[ケーススタディ/障がい]]
-列名(近代女性雑誌コーパス)
|前文脈|キー|後文脈|雑誌名|年|号|題名|著者|欄名|ジャンル|...
***Excelの基本操作
-並べ替え(ソート)
-フィルター(絞り込み)
--テキストフィルター
--多重フィルター(複数の条件指定)
-ピボットテーブル★
--ピボットグラフ
**「ひまわり」データの追加
***「太陽コーパス」
--授業用データ
//--[[授業用データ>https://dl.dropboxusercontent.com/u/13...
***形態論情報付きの「ひまわり」データ
-「明六雑誌コーパス」
--http://www.ninjal.ac.jp/corpus_center/cmj/meiroku/
**''&color(red){10/28みなし金曜日 の授業は休講です};''
**2014/10/24
**「ひまわり」の利用
***正規表現を使ってみる [#u471d57b]
-文字クラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
--記号はすべて半角
--記号そのものを表す場合には\でエスケープする(特殊な意味...
-文字クラス [ ]
--文字クラスの補集合(それ以外の文字)[^ ]
------
-[[授業資料/正規表現]]
-ひまわりの正規表現について([[授業資料/Himawariの正規表...
***ひまわりで利用可能なデータについて
◎を授業で取り上げます。
-現代語のデータ
--国会会議録データ
--法令データベース
--青空文庫◎
--口コミサイト
-[[近代語のデータ>http://www.ninjal.ac.jp/corpus_center/c...
--太陽コーパス◎
--近代女性雑誌コーパス◎
--明六雑誌コーパス◎
--国民之友コーパス◎
--国定高等小学読本◎
-古典文学作品のデータ
**2014/10/17
-今回からUSBメモリを使います。
-日本語歴史コーパス(CHJ)中納言は登録手続き中です。
--前回提出していない人は必ず提出して下さい(申込み用紙1枚...
***近代雑誌コーパスと「ひまわり」
-[[近代語のコーパス>http://www.ninjal.ac.jp/corpus_center...
--「太陽コーパス」(販売中)
--「近代女性雑誌コーパス」(公開中)
--「明六雑誌コーパス」(公開中)〈形態論情報付き〉
--「国民之友コーパス」(公開中)〈形態論情報付き〉
***全文検索システム「ひまわり」について
&ref(himawari_aozora.png,,50%);
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***「ひまわり」の導入
+「ひまわり」のダウンロード
--[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
+「近代女性雑誌コーパス」のダウンロード
--[[近代女性雑誌コーパス>http://www.ninjal.ac.jp/corpus_c...
+インストール
--ダウンロードした二つのZIPファイルを右クリックして、[プ...
--Himawariフォルダ内のCorporaフォルダが重なる(上書きされ...
+動作確認
--Himawari.exeをダブルクリックして起動,configファイルを...
***Himawariの使い方
-使い方の説明
**2014/10/10
-次回以降、USBメモリ(2GB以上)を持ってきてください。
***日本語歴史コーパス(CHJ)の登録
-申込用紙・契約書2枚
-次回、押印して持ってきてください。
-----
***「コーパス」について [#k44345b6]
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
--BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コ...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
--さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫...
--Web上のデータ
---検索サイトの利用
---WAC(Web as Corpus)
***総索引から電子化テキストへ(国語史資料の電子化の歴史)
-戦後、総索引が整備されはじめる
--1929~31『万葉集総索引』
--1952『源氏物語用語索引』
--1955『徒然草総索引』
-1980年代から徐々に日本語史資料へのコンピュータ応用が始まる
--金水(1984),豊島(1983,1987),西端(1983,1989),岡島...
--総索引作成のための電子化テキスト利用など
-1990年代、電子化テキストの利用が広がる
--『源氏物語』テキストデータベース(長瀬1990)
--国語学会(現日本語学会)1992年度春季大会テーマ「国語研...
---日本文学等テキストファイル(岡島)http://www.let.osaka...
---J-TEXT日本文学電子図書館(菊池・深沢)http://www.j-tex...
--青空文庫 1997~ http://www.aozora.gr.jp/
--この頃、CD-ROM索引も『新大系 八代集』『新編国歌大観』『...
***テキストファイル
-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]](広義のコーパス)
-テキストエディタ
--[[授業資料/テキストエディタ]]
-サクラエディタのダウンロードとインストール
--[[サクラエディタのダウンロード:sakura2.zip>http://www.o...
---(参考) サクラエディタホームページ:http://sourceforge....
-zipファイルの展開(解凍)
--解凍しないままでも開けるが必ず解凍すること
-テキストエディタの設定
--行の折り返し
--行番号表示
---スタイル行番号(ワープロ的行番号)と論理行番号(エディ...
-練習用サンプルデータ(漱石+芥川)
--[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin...
***プレーンテキストからタグ付きテキストへ
-2000年代(タグ付きテキスト「コーパス」へ)
--狭義の「コーパス」登場
---『太陽コーパス』2005
**2014/10/03
***イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
--[[国立国語研究所コーパス開発センター>http://www.ninjal....
--[[形態素解析辞書UniDic>http://sourceforge.jp/projects/u...
---http://www2.ninjal.ac.jp/lrc/index.php?UniDic
-デモ
-「日本語歴史コーパス(CHJ)」
--CHJ[[中納言>http://maro.ninjal.ac.jp]]
--Excelによる集計(ピボットテーブル)
-ひまわり(「太陽コーパス」)
-形態素解析:茶まめ/MeCab+UniDic
-シラバス確認
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=at...
--この授業の目的
--授業の進め方
--評価方法
ページ名: