上智2016/国語学演習IIIa
をテンプレートにして作成
開始行:
[[上智2016]]
*コーパス日本語学入門(近現代語コーパス)
-前期・金曜4限
-ogiso@ogiso.net ←@を@に直してください
-中納言 https://chunagon.ninjal.ac.jp/
**期末レポートについて
-締切:7月29日(金)
-提出先:メールで直接送付(必ず返信を確認すること)
-分量:A4用紙で3~10枚
--メール・Wordファイルの両方に氏名・学籍番号を明記すること
--Wordファイルのサイズが大きくなりすぎる場合には、PDFファ...
**2016/07/15
***Wordでレポートを書く
文書の構造化とWordの使い方(レポートの書き方)
-文書の構造化*
--スタイルと見出し
--ナビゲーション ウィンドウ(見出しマップ)の使い方
--章・節番号
-図表の貼り込み*
--「形式を選択して貼り付け」
--図表番号とキャプション
-脚注
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-ページ番号*
-PDFとして保存(ブックマークを付加)*
**2016/07/08
***レポート作成のためのコーパス検索・調査(2)
-考えてきたレポートテーマに沿って、実際に用例を検索してレ...
-前回回れなかった人から順に、個別に見て回ります。
**2016/07/01
***「ひまわり」検索結果の集計(2)
-集計
-生年代別の集計(復習)
--「~に/を信頼する」
-ランダムサンプリング&意味分類
--新聞紙
***レポート作成のためのコーパス検索・調査
-考えてきたレポートテーマに沿って、実際に用例を検索してレ...
-個別に見て回ります。
**2016/06/24
***全文検索システム「ひまわり」について
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--原則として文字列検索のみで,形態論情報を使った検索はで...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***「ひまわり」と「青空文庫パッケージ」のインストール方法
+ひまわり本体のダウンロード
++[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
++ダウンロードしたファイルのセキュリティブロックを解除(...
++解凍後、フォルダごとUSBメモリにコピー
+青空文庫パッケージのダウンロード
++[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
+USBメモリにコピーしたフォルダ内のhimawari.exeを起動
++メニューのファイル>インストールをえらび、青空文庫パッ...
++しばらく待つと完了(数分から10分程度はかかる)
+要らなくなったファイルの削除
++PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫...
***「ひまわり」と近代語のコーパス
-国語研究所コーパス開発センター [[近代語のコーパス>http:/...
--『明六雑誌』『国民之友』はCHJ中納言に取り込み済み。『太...
***検索結果の集計
-単純な集計
--「気持ち」「心持ち」
***生年代による集計(通時的変化)
-文字列処理関数を利用する
--例: =left(<文字列>,<文字数>)
---生年代: =left(<生年月日が入っているセル>,3)*10
-生年月日データの書式について
--「青空文庫」の生年月日が書式の自動変換でおかしくなるの...
---1900年以前の年月日は文字列、それ以降は日付として認識さ...
(実際の手順)
+Himawariで「すべて選択」後、「すべて選択」「コピー(列名...
+Excelで生年月日の列が貼り付けられることになる列(NとO)...
+Excelシートに貼り付ける(A1)
**2016/06/17
***レポートテーマについて
たとえば…
-類義語の意味・用法の違い(共起語etc.による)
-語形・表記揺れと要因(レジスター差・時代差等の検証 / 意...
--※BCCWJだけで時代差を見ることは困難
***調整頻度の計算(前回補足)
-[[CHJ語彙統計>https://maro.ninjal.ac.jp/wiki/index.ph...
***ランダムサンプリング調査
-大量に用例があり、調査内容からすべて対象にできない場合(...
-ランダムに並べ替え→先頭n例を調査対象にする
--ランダムな数字の列を用意
--関数で乱数を生成 =RAND()
--ランダムな数字の列をコピーして「値として貼り付ける」と...
***重複の削除
-用例数ではなく、用例が一つでも出現したサンプルの数を調べ...
--例えば1つのサンプル中に繰り返し現れる一人称代名詞など...
-「データ」→「重複の削除」
***関数の利用
-文字列処理関数
--例: =left(<文字列>,<文字数>)
-集計用に用意した列で文字列処理関数を利用する
--LEFT,RIGHT,MID,LEN,SEARCH,SUBSTITUTE
-応用例:品詞の大分類を使う
--=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
----
近代語をテーマとしたい人向け
**2016/06/10
***近代雑誌コーパスについて
-[[国立国語研究所編(2005)『雑誌『太陽』による確立期現代...
#amazon(4861151554)
-[[田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書...
#amazon(4000286269)
***日本語歴史コーパス「中納言」補足
-地の文・会話文、発話者
--例:「いと」「甚だ」
---[[ito-hanahada.zip>http://www.ogiso.net/wiki/index.php...
キー: (語彙素="いと" OR 語彙素="甚だ") WITH OPTIONS lim...
-インラインタグ
--Excelのフィルタ機能による活用
***調整頻度の計算
-粗頻度を総語数で割る
--レジスターごとの語数データ:中納言ページの「語数につい...
---語数ファイルをピボットテーブルで集計して分母に
-調整頻度には100万語あたりの頻度が比較的よく使われる
--粗頻度/総語数*1000000
---数字が小さくなりすぎないようにするため
-※割合の違いを比較するだけなら調整頻度を出す必要はない。
***レポートテーマについて
-レポートテーマについて全員に聞き、コメントします。テーマ...
//--その後、次回以降に小発表できるだけの調査を行ないます...
**2016/06/03
***『日本語歴史コーパス』
-平安時代編
-鎌倉時代編Ⅰ説話・随筆
-室町時代編Ⅰ狂言
-明治・大正編Ⅰ雑誌
--「明六雑誌」(全)、「国民之友」(一部)、女性雑誌(「...
http://pj.ninjal.ac.jp/corpus_center/chj/
***集計ためののテクニック
-分類用の列を作って集計する
--十分で用法区分などを入力しピボットテーブルで使う
-複数の検索結果をまとめる
--一つの表に貼り付けて集計する
-ショートカットキーを活用すると便利
--Ctrl+End ファイルの末尾/表のいちばん右下に移動
--Shift+Ctrl+End 〃範囲を選択
+表をコピー
--Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl...
+コピーした表を既存の表の下に貼り付け
--Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home
**2016/05/27
***(復習)【重要】ピボットテーブルの使い方
-ピボットテーブル
-ピボットグラフ
***テキストエディタとショートカットキー
-[[授業資料/テキストエディタ]]
--★[[サクラエディタのダウンロード:sakura2.zip>http://www....
---(参考) サクラエディタホームページ:http://sourceforge....
--テキストデータサンプル(青空文庫より夏目漱石)
---[[soseki2.zip>https://dl.dropboxusercontent.com/u/1346...
--zipファイルの展開(解凍)について
---ダウンロードしたファイルのプロパティを見てセキュリティ...
---解凍しないままでも開けるが必ず解凍すること
-ショートカットキー
--[[授業資料/覚えておきたいショートカットキー]]
**2016/05/20
***「中納言」の利用(つづき)
-資料[[「中納言の使い方」>http://www.ogiso.net/wiki/index...
***検索条件式の利用
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND lim...
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AN...
***「中納言」検索結果のダウンロードとExcelでの利用
+ダウンロード
+アーカイブの展開(解凍)
+Excelでインポート
***Excelの基礎
-並べ替え
--反転前文脈の使い方
-フィルタ
--テキストフィルタ
***【重要】ピボットテーブルの使い方
-ピボットテーブル
-ピボットグラフ
**2016/05/13
-資料[[「中納言の使い方」>http://www.ogiso.net/wiki/index...
***形態論情報を利用した検索
-[[授業資料/UniDicの見出し語階層]]
***UniDicによる形態素解析
--MeCab(解析器)とUniDic(辞書)
--現代語用のUniDic[[形態素解析辞書UniDic>http://sourcefor...
--Web茶まめ http://chamame.ninjal.ac.jp/
**2016/05/06
-「中納言」の登録について
--ユーザー登録の申請(new!) https://chunagon.ninjal.ac....
**日本語コーパスの形態論情報
-短単位と長単位(前回資料)
***品詞体系と見出し語の階層
-BCCWJ,CHJはUniDicの品詞体系にもとづく
-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]
**2016/04/29(祝日授業実施日)
***日本語コーパスの紹介(2) コーパスの設計とサンプリング
-''(スライド参照)''
--[[第3回コーパスの設計とサンプリング>https://dl.dropboxu...
-均衡コーパス(Balanced corpus)
--「バランスがとれている」とは?
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
***参考リンク
-英語のコーパス リファレンス
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
-現代日本語書き言葉均衡コーパス(BCCWJ)
--[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal...
--[[現代日本語書き言葉均衡コーパス:サンプリング>http://p...
***日本語コーパスの形態論情報
-短単位と長単位
--''(配付資料)''参照
//-''(スライド)''参照
//
**2016/04/22
***コーパス検索アプリケーション「中納言」の申込みについて...
--ショートメッセージ(SMS)が受け取れる携帯電話
***現代日本語書き言葉均衡コーパス(BCCWJ)とは
-BCCWJについて、まず最小限のことを説明します。
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
--登録不要
--文字列検索のみ
--500例まで表示
-[[BCCWJ中納言>http://chunagon.ninjal.ac.jp]]
--要登録
--形態論情報を使った検索
--全件(一度に最大10万例まで)ダウンロード可
***日本語コーパスの紹介(1)コーパスとはどんなものか
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
-この授業で扱うのは狭義のコーパス。中でも「現代日本語書き...
-「コーパス」以前の日本語研究用データとの違いは
-''(スライド参照)''
--[[第2回コーパスとは>https://dl.dropboxusercontent.com/u...
**2016/04/16
***イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
--[[国立国語研究所コーパス開発センター>http://pj.ninjal.a...
--[[形態素解析辞書UniDic>http://sourceforge.jp/projects/u...
-デモ
-「現代日本語書き言葉均衡コーパス(BCCWJ)」
-「日本語歴史コーパス(CHJ)」
--BCCWJ[[少納言>http://shonagon.ninjal.ac.jp]]
--[[中納言>http://chunagon.ninjal.ac.jp]]
-Excelによる集計(ピボットテーブル)
-形態素解析
--[[Web茶まめ>http://chamame.ninjal.ac.jp]]
-シラバス確認
--[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=a...
--この授業の目的
--授業の進め方
--評価方法
終了行:
[[上智2016]]
*コーパス日本語学入門(近現代語コーパス)
-前期・金曜4限
-ogiso@ogiso.net ←@を@に直してください
-中納言 https://chunagon.ninjal.ac.jp/
**期末レポートについて
-締切:7月29日(金)
-提出先:メールで直接送付(必ず返信を確認すること)
-分量:A4用紙で3~10枚
--メール・Wordファイルの両方に氏名・学籍番号を明記すること
--Wordファイルのサイズが大きくなりすぎる場合には、PDFファ...
**2016/07/15
***Wordでレポートを書く
文書の構造化とWordの使い方(レポートの書き方)
-文書の構造化*
--スタイルと見出し
--ナビゲーション ウィンドウ(見出しマップ)の使い方
--章・節番号
-図表の貼り込み*
--「形式を選択して貼り付け」
--図表番号とキャプション
-脚注
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-ページ番号*
-PDFとして保存(ブックマークを付加)*
**2016/07/08
***レポート作成のためのコーパス検索・調査(2)
-考えてきたレポートテーマに沿って、実際に用例を検索してレ...
-前回回れなかった人から順に、個別に見て回ります。
**2016/07/01
***「ひまわり」検索結果の集計(2)
-集計
-生年代別の集計(復習)
--「~に/を信頼する」
-ランダムサンプリング&意味分類
--新聞紙
***レポート作成のためのコーパス検索・調査
-考えてきたレポートテーマに沿って、実際に用例を検索してレ...
-個別に見て回ります。
**2016/06/24
***全文検索システム「ひまわり」について
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--原則として文字列検索のみで,形態論情報を使った検索はで...
--ただのテキストファイル(プレーンテキスト)ではなく、XML...
***「ひまわり」と「青空文庫パッケージ」のインストール方法
+ひまわり本体のダウンロード
++[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
++ダウンロードしたファイルのセキュリティブロックを解除(...
++解凍後、フォルダごとUSBメモリにコピー
+青空文庫パッケージのダウンロード
++[[ひまわり用「青空文庫」パッケージのダウンロードページ>...
+USBメモリにコピーしたフォルダ内のhimawari.exeを起動
++メニューのファイル>インストールをえらび、青空文庫パッ...
++しばらく待つと完了(数分から10分程度はかかる)
+要らなくなったファイルの削除
++PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫...
***「ひまわり」と近代語のコーパス
-国語研究所コーパス開発センター [[近代語のコーパス>http:/...
--『明六雑誌』『国民之友』はCHJ中納言に取り込み済み。『太...
***検索結果の集計
-単純な集計
--「気持ち」「心持ち」
***生年代による集計(通時的変化)
-文字列処理関数を利用する
--例: =left(<文字列>,<文字数>)
---生年代: =left(<生年月日が入っているセル>,3)*10
-生年月日データの書式について
--「青空文庫」の生年月日が書式の自動変換でおかしくなるの...
---1900年以前の年月日は文字列、それ以降は日付として認識さ...
(実際の手順)
+Himawariで「すべて選択」後、「すべて選択」「コピー(列名...
+Excelで生年月日の列が貼り付けられることになる列(NとO)...
+Excelシートに貼り付ける(A1)
**2016/06/17
***レポートテーマについて
たとえば…
-類義語の意味・用法の違い(共起語etc.による)
-語形・表記揺れと要因(レジスター差・時代差等の検証 / 意...
--※BCCWJだけで時代差を見ることは困難
***調整頻度の計算(前回補足)
-[[CHJ語彙統計>https://maro.ninjal.ac.jp/wiki/index.ph...
***ランダムサンプリング調査
-大量に用例があり、調査内容からすべて対象にできない場合(...
-ランダムに並べ替え→先頭n例を調査対象にする
--ランダムな数字の列を用意
--関数で乱数を生成 =RAND()
--ランダムな数字の列をコピーして「値として貼り付ける」と...
***重複の削除
-用例数ではなく、用例が一つでも出現したサンプルの数を調べ...
--例えば1つのサンプル中に繰り返し現れる一人称代名詞など...
-「データ」→「重複の削除」
***関数の利用
-文字列処理関数
--例: =left(<文字列>,<文字数>)
-集計用に用意した列で文字列処理関数を利用する
--LEFT,RIGHT,MID,LEN,SEARCH,SUBSTITUTE
-応用例:品詞の大分類を使う
--=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
----
近代語をテーマとしたい人向け
**2016/06/10
***近代雑誌コーパスについて
-[[国立国語研究所編(2005)『雑誌『太陽』による確立期現代...
#amazon(4861151554)
-[[田中牧郎(2013)『近代書き言葉はこうしてできた』岩波書...
#amazon(4000286269)
***日本語歴史コーパス「中納言」補足
-地の文・会話文、発話者
--例:「いと」「甚だ」
---[[ito-hanahada.zip>http://www.ogiso.net/wiki/index.php...
キー: (語彙素="いと" OR 語彙素="甚だ") WITH OPTIONS lim...
-インラインタグ
--Excelのフィルタ機能による活用
***調整頻度の計算
-粗頻度を総語数で割る
--レジスターごとの語数データ:中納言ページの「語数につい...
---語数ファイルをピボットテーブルで集計して分母に
-調整頻度には100万語あたりの頻度が比較的よく使われる
--粗頻度/総語数*1000000
---数字が小さくなりすぎないようにするため
-※割合の違いを比較するだけなら調整頻度を出す必要はない。
***レポートテーマについて
-レポートテーマについて全員に聞き、コメントします。テーマ...
//--その後、次回以降に小発表できるだけの調査を行ないます...
**2016/06/03
***『日本語歴史コーパス』
-平安時代編
-鎌倉時代編Ⅰ説話・随筆
-室町時代編Ⅰ狂言
-明治・大正編Ⅰ雑誌
--「明六雑誌」(全)、「国民之友」(一部)、女性雑誌(「...
http://pj.ninjal.ac.jp/corpus_center/chj/
***集計ためののテクニック
-分類用の列を作って集計する
--十分で用法区分などを入力しピボットテーブルで使う
-複数の検索結果をまとめる
--一つの表に貼り付けて集計する
-ショートカットキーを活用すると便利
--Ctrl+End ファイルの末尾/表のいちばん右下に移動
--Shift+Ctrl+End 〃範囲を選択
+表をコピー
--Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl...
+コピーした表を既存の表の下に貼り付け
--Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home
**2016/05/27
***(復習)【重要】ピボットテーブルの使い方
-ピボットテーブル
-ピボットグラフ
***テキストエディタとショートカットキー
-[[授業資料/テキストエディタ]]
--★[[サクラエディタのダウンロード:sakura2.zip>http://www....
---(参考) サクラエディタホームページ:http://sourceforge....
--テキストデータサンプル(青空文庫より夏目漱石)
---[[soseki2.zip>https://dl.dropboxusercontent.com/u/1346...
--zipファイルの展開(解凍)について
---ダウンロードしたファイルのプロパティを見てセキュリティ...
---解凍しないままでも開けるが必ず解凍すること
-ショートカットキー
--[[授業資料/覚えておきたいショートカットキー]]
**2016/05/20
***「中納言」の利用(つづき)
-資料[[「中納言の使い方」>http://www.ogiso.net/wiki/index...
***検索条件式の利用
キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND lim...
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AN...
***「中納言」検索結果のダウンロードとExcelでの利用
+ダウンロード
+アーカイブの展開(解凍)
+Excelでインポート
***Excelの基礎
-並べ替え
--反転前文脈の使い方
-フィルタ
--テキストフィルタ
***【重要】ピボットテーブルの使い方
-ピボットテーブル
-ピボットグラフ
**2016/05/13
-資料[[「中納言の使い方」>http://www.ogiso.net/wiki/index...
***形態論情報を利用した検索
-[[授業資料/UniDicの見出し語階層]]
***UniDicによる形態素解析
--MeCab(解析器)とUniDic(辞書)
--現代語用のUniDic[[形態素解析辞書UniDic>http://sourcefor...
--Web茶まめ http://chamame.ninjal.ac.jp/
**2016/05/06
-「中納言」の登録について
--ユーザー登録の申請(new!) https://chunagon.ninjal.ac....
**日本語コーパスの形態論情報
-短単位と長単位(前回資料)
***品詞体系と見出し語の階層
-BCCWJ,CHJはUniDicの品詞体系にもとづく
-[[授業資料/UniDicの品詞体系]]
-[[授業資料/UniDicの見出し語階層]]
**2016/04/29(祝日授業実施日)
***日本語コーパスの紹介(2) コーパスの設計とサンプリング
-''(スライド参照)''
--[[第3回コーパスの設計とサンプリング>https://dl.dropboxu...
-均衡コーパス(Balanced corpus)
--「バランスがとれている」とは?
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
***参考リンク
-英語のコーパス リファレンス
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
-現代日本語書き言葉均衡コーパス(BCCWJ)
--[[現代日本語書き言葉均衡コーパス:概要>http://pj.ninjal...
--[[現代日本語書き言葉均衡コーパス:サンプリング>http://p...
***日本語コーパスの形態論情報
-短単位と長単位
--''(配付資料)''参照
//-''(スライド)''参照
//
**2016/04/22
***コーパス検索アプリケーション「中納言」の申込みについて...
--ショートメッセージ(SMS)が受け取れる携帯電話
***現代日本語書き言葉均衡コーパス(BCCWJ)とは
-BCCWJについて、まず最小限のことを説明します。
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
--登録不要
--文字列検索のみ
--500例まで表示
-[[BCCWJ中納言>http://chunagon.ninjal.ac.jp]]
--要登録
--形態論情報を使った検索
--全件(一度に最大10万例まで)ダウンロード可
***日本語コーパスの紹介(1)コーパスとはどんなものか
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
-この授業で扱うのは狭義のコーパス。中でも「現代日本語書き...
-「コーパス」以前の日本語研究用データとの違いは
-''(スライド参照)''
--[[第2回コーパスとは>https://dl.dropboxusercontent.com/u...
**2016/04/16
***イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 htt...
-コーパスとは
--[[国立国語研究所コーパス開発センター>http://pj.ninjal.a...
--[[形態素解析辞書UniDic>http://sourceforge.jp/projects/u...
-デモ
-「現代日本語書き言葉均衡コーパス(BCCWJ)」
-「日本語歴史コーパス(CHJ)」
--BCCWJ[[少納言>http://shonagon.ninjal.ac.jp]]
--[[中納言>http://chunagon.ninjal.ac.jp]]
-Excelによる集計(ピボットテーブル)
-形態素解析
--[[Web茶まめ>http://chamame.ninjal.ac.jp]]
-シラバス確認
--[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=a...
--この授業の目的
--授業の進め方
--評価方法
ページ名: