東京外大2013
をテンプレートにして作成
開始行:
[[東京外大2013]]
*日本語教育学研究
**コーパス日本語研究入門
-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@o...
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=at...
-中納言: https://chunagon.ninjal.ac.jp
**2013/07/26 最終回
***統計的処理
-js-STAR 2012 http://www.kisnet.or.jp/nappa/software/star/
--フィッシャーの正確検定
--χ二乗検定
-R
***まとめ
+既製のコーパスを利用
--BCCWJ中納言 + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの...
***発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl or Ruby or Pyt...
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと...
**2013/07/19
***質問
-コーパスとレポートに関する質問受付
***コーパス管理システム「茶器」の利用
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
-係り受け解析
--CaboCha
---UniDicモデル
**2013/07/12
***期末レポートについて
-締切:7月31日(水)
-提出先:メールで直接送付(必ず返信を確認すること)
-分量:A4用紙で3~10枚
***質問
-コーパスとレポートに関する質問受付
-[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3...
**全文検索システム「ひまわり」の利用
***ひまわり
-全文検索システム「ひまわり」 [[国立国語研究所/言語デー...
-ただのテキストファイル(プレーンテキスト)ではなく、XML...
***全文検索システム「ひまわり」について
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
-ひまわり用データ
--青空文庫
---[[ひまわり用「青空文庫」パッケージのダウンロードページ...
--国会会議録
--その他
-テキストデータを「ひまわり」で利用できるようにするには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
-「ひまわり」の検索結果をピボットテーブルで集計する
**2013/07/05
***Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
-''少なくとも*印の機能はこの授業のレポートで実際に利用す...
**テキストエディタと正規表現の利用
-資料:サクラエディタの使い方
--https://dl.dropboxusercontent.com/u/134600/%E3%82%B5%E3...
***テキストエディタ
-サクラエディタのダウンロード
--[[サクラエディタのダウンロード:sakura.zip(授業用に用意...
---(参考)サクラエディタホームページ:http://sourceforge...
-grepとタグジャンプ
***正規表現
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
-[[授業資料/正規表現]]
**2013/06/28
***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v...
***テキストエディタの活用
-前後文脈から不要な部分を消す
--正規表現を使った置換
***Excelの文字列関数とIF関数・補足
--後文脈の「。」より後を消す(「。」がない場合はそのまま)
=IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈...
--前文脈の「。」以前を消す(「。」がない場合はそのまま)(...
=RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&...
***レポートテーマについて
//***「ひまわり」を使った自作ミニコーパス作成の講習会につ...
**2013/06/21
***コーパス開発センター:ホームページリニューアル
-http://www.ninjal.ac.jp/corpus_center/
***ランダムサンプリング調査(Excelでの集計・補足)
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND()
---ランダムな数字の列をコピーして「値として貼り付ける」と...
***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
--品詞の大分類を使う
=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
***NINJAL LWP for BCCWJの紹介
-http://nlb.ninjal.ac.jp/
-ワードプロファイラー
-語の振る舞いの概略を見るのに非常に便利
-注意点
--UniDic体系でない(=本来のBCCWJではない)
--データソースはBCCWJの一部だけ
--係り受け解析は誤りも多い
***レポートテーマについて
-次回、レポートテーマを聞きます!
**2013/06/14
***形態素解析とUniDic
----
#include(授業資料/形態素解析,notitle)
----
--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/tru...
***授業用UniDic+MeCabパッケージのダウンロード
-https://dl.dropboxusercontent.com/u/134600/portable-unid...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較
**2013/06/07
-中納言新システムの再確認
--キャッシュに注意
***短単位と長単位(復習)
-新参考配付資料
***中納言検索課題
-前回配布プリント参照
***Excelの文字列関数とif関数
-集計用に用意した列で文字列処理関数を利用する
-left,right,mid,len,search,substitute
-応用例:品詞の大分類を使う
=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
**2013/05/31
-中納言契約書返却
***中納言システムアップデート(5月30日)について
-中納言のシステムが新しくなりました
-新機能の紹介
--検索対象の指定が柔軟にできるようになった
--短単位検索の条件指定において「検索キーの位置をずらす」...
--検索キーの前後位置に条件指定を行ったとき、キーに条件を...
--検索キーの前後の単位を結合してKWICキーに指定することが...
--検索結果のダウンロード時に圧縮の有無や文字コードを指定...
--文字列検索で(解析単位ではなく)検索文字列をキーにしたK...
--サーバの負荷状況が表示されるようになった
***Excelによる集計・つづき
-ピボットテーブル
--ピボットグラフ
-複数の検索結果の結合
-集計用の列を自分で用意する
**2013/05/24
***長単位と短単位
-スライド参照
--複合辞
--可能性に基づく品詞付与ではなく、出現例に則した品詞付与
--可能動詞の語彙素
***「中納言」検索結果の利用
-検索結果のダウンロード
++ダウンロード
++アーカイブの展開(解凍)
++インポート
-中納言の検索結果をExcelで利用する
--前々回資料(4.)参照
***Excelの利用
-Excelの基本
--フィルタ
---テキストフィルタ
--並べ替え
---ユーザー設定の並べ替え
-ピボットテーブルとピボットグラフ
--ピボットテーブル
---Excelのバージョンによってかなり操作方法が違うので注意
--ピボットグラフ
**2013/05/17
***中納言によるコーパスの検索方法(つづき)
-中納言の使い方(つづき)
-配布資料:''UniDicマニュアル 解説編''
***BCCWJの形態論情報
-[[UniDic>http://download.unidic.org]]の品詞体系
--品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(...
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
***学校文法との違い
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
--サ変動詞は語幹と「する」に分かれる
**2013/05/10
***「中納言」の利用
-アカウント作成とログイン
***中納言によるコーパスの検索方法
-配布資料:''中納言の使い方'' &br;(次回も持ってきてくださ...
**2013/04/26
-中納言申込み確認
***コーパスの設計とサンプリング
--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス(レジスター)
--可変長と固定長
-著作権をめぐる問題
-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.n...
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>ht...
***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
------
***テキストエディタ [#q7ae852c]
前回つづき
-サクラエディタのダウンロードとインストール
--[[サクラエディタのダウンロード:sakura2.zip>http://www.o...
---(参考) サクラエディタホームページ:http://sourceforge....
-サンプルテキストデータ
--[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin...
**2013/04/19
//***授業の進め方
//-発表について
***「中納言」利用申込み
-申込用紙を配布します。
------
***コーパスとは
-スライド参照
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/...
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
**4/12 第1回 イントロダクション/日本語コーパスの紹介
-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
--[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_c...
-国語研のコーパス([[KOTONOHA>http://www.ninjal.ac.jp/kot...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[少納言>http://shonagon.ninjal.ac.jp]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--日本語歴史コーパス(平安時代編先行公開版)
---[[CHJ 中納言>http://maro.ninjal.ac.jp]]
-受講者アンケート
--専門・関心領域
--PCスキル
-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研...
終了行:
[[東京外大2013]]
*日本語教育学研究
**コーパス日本語研究入門
-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@o...
-[[シラバス>http://www.ogiso.net/wiki/index.php?plugin=at...
-中納言: https://chunagon.ninjal.ac.jp
**2013/07/26 最終回
***統計的処理
-js-STAR 2012 http://www.kisnet.or.jp/nappa/software/star/
--フィッシャーの正確検定
--χ二乗検定
-R
***まとめ
+既製のコーパスを利用
--BCCWJ中納言 + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの...
***発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl or Ruby or Pyt...
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,←ちょっと...
**2013/07/19
***質問
-コーパスとレポートに関する質問受付
***コーパス管理システム「茶器」の利用
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
-係り受け解析
--CaboCha
---UniDicモデル
**2013/07/12
***期末レポートについて
-締切:7月31日(水)
-提出先:メールで直接送付(必ず返信を確認すること)
-分量:A4用紙で3~10枚
***質問
-コーパスとレポートに関する質問受付
-[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3...
**全文検索システム「ひまわり」の利用
***ひまわり
-全文検索システム「ひまわり」 [[国立国語研究所/言語デー...
-ただのテキストファイル(プレーンテキスト)ではなく、XML...
***全文検索システム「ひまわり」について
-[[全文検索システム「ひまわり」>http://www2.ninjal.ac.jp/...
--[[ひまわり のダウンロードページ>http://www2.ninjal.ac.j...
-ひまわり用データ
--青空文庫
---[[ひまわり用「青空文庫」パッケージのダウンロードページ...
--国会会議録
--その他
-テキストデータを「ひまわり」で利用できるようにするには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
-「ひまわり」の検索結果をピボットテーブルで集計する
**2013/07/05
***Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
-''少なくとも*印の機能はこの授業のレポートで実際に利用す...
**テキストエディタと正規表現の利用
-資料:サクラエディタの使い方
--https://dl.dropboxusercontent.com/u/134600/%E3%82%B5%E3...
***テキストエディタ
-サクラエディタのダウンロード
--[[サクラエディタのダウンロード:sakura.zip(授業用に用意...
---(参考)サクラエディタホームページ:http://sourceforge...
-grepとタグジャンプ
***正規表現
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
-[[授業資料/正規表現]]
**2013/06/28
***調整頻度
-100万語あたりの頻度
--語数データのダウンロード
//--https://dl.dropboxusercontent.com/u/134600/BCCWJ_WC_v...
***テキストエディタの活用
-前後文脈から不要な部分を消す
--正規表現を使った置換
***Excelの文字列関数とIF関数・補足
--後文脈の「。」より後を消す(「。」がない場合はそのまま)
=IF(ISERROR(SEARCH("。",<後文脈>)),<後文脈>,LEFT(<後文脈...
--前文脈の「。」以前を消す(「。」がない場合はそのまま)(...
=RIGHT(<前文脈>,LEN(<前文脈>)-(FIND("~",SUBSTITUTE("。"&...
***レポートテーマについて
//***「ひまわり」を使った自作ミニコーパス作成の講習会につ...
**2013/06/21
***コーパス開発センター:ホームページリニューアル
-http://www.ninjal.ac.jp/corpus_center/
***ランダムサンプリング調査(Excelでの集計・補足)
--大量に用例があり、調査内容からすべて対象にできない場合
--ランダムに並べ替え→先頭n例を調査対象に
---ランダムな数字の列: =RAND()
---ランダムな数字の列をコピーして「値として貼り付ける」と...
***Excelの文字列関数とIF関数
-LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
--品詞の大分類を使う
=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
***NINJAL LWP for BCCWJの紹介
-http://nlb.ninjal.ac.jp/
-ワードプロファイラー
-語の振る舞いの概略を見るのに非常に便利
-注意点
--UniDic体系でない(=本来のBCCWJではない)
--データソースはBCCWJの一部だけ
--係り受け解析は誤りも多い
***レポートテーマについて
-次回、レポートテーマを聞きます!
**2013/06/14
***形態素解析とUniDic
----
#include(授業資料/形態素解析,notitle)
----
--形態素解析器[[MeCab>http://mecab.googlecode.com/svn/tru...
***授業用UniDic+MeCabパッケージのダウンロード
-https://dl.dropboxusercontent.com/u/134600/portable-unid...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-テキストのジャンルと語種,品詞の割合をグラフ化してみる
--ブログのテキストと新聞記事のテキストの解析結果を比較
**2013/06/07
-中納言新システムの再確認
--キャッシュに注意
***短単位と長単位(復習)
-新参考配付資料
***中納言検索課題
-前回配布プリント参照
***Excelの文字列関数とif関数
-集計用に用意した列で文字列処理関数を利用する
-left,right,mid,len,search,substitute
-応用例:品詞の大分類を使う
=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
**2013/05/31
-中納言契約書返却
***中納言システムアップデート(5月30日)について
-中納言のシステムが新しくなりました
-新機能の紹介
--検索対象の指定が柔軟にできるようになった
--短単位検索の条件指定において「検索キーの位置をずらす」...
--検索キーの前後位置に条件指定を行ったとき、キーに条件を...
--検索キーの前後の単位を結合してKWICキーに指定することが...
--検索結果のダウンロード時に圧縮の有無や文字コードを指定...
--文字列検索で(解析単位ではなく)検索文字列をキーにしたK...
--サーバの負荷状況が表示されるようになった
***Excelによる集計・つづき
-ピボットテーブル
--ピボットグラフ
-複数の検索結果の結合
-集計用の列を自分で用意する
**2013/05/24
***長単位と短単位
-スライド参照
--複合辞
--可能性に基づく品詞付与ではなく、出現例に則した品詞付与
--可能動詞の語彙素
***「中納言」検索結果の利用
-検索結果のダウンロード
++ダウンロード
++アーカイブの展開(解凍)
++インポート
-中納言の検索結果をExcelで利用する
--前々回資料(4.)参照
***Excelの利用
-Excelの基本
--フィルタ
---テキストフィルタ
--並べ替え
---ユーザー設定の並べ替え
-ピボットテーブルとピボットグラフ
--ピボットテーブル
---Excelのバージョンによってかなり操作方法が違うので注意
--ピボットグラフ
**2013/05/17
***中納言によるコーパスの検索方法(つづき)
-中納言の使い方(つづき)
-配布資料:''UniDicマニュアル 解説編''
***BCCWJの形態論情報
-[[UniDic>http://download.unidic.org]]の品詞体系
--品詞:名詞-固有名詞-人名-姓 (大分類>中分類>小分類(...
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
***学校文法との違い
--形状詞 (=形容動詞語幹)
--助動詞「う」が付いた形を意志推量形として扱う
--サ変動詞は語幹と「する」に分かれる
**2013/05/10
***「中納言」の利用
-アカウント作成とログイン
***中納言によるコーパスの検索方法
-配布資料:''中納言の使い方'' &br;(次回も持ってきてくださ...
**2013/04/26
-中納言申込み確認
***コーパスの設計とサンプリング
--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス(レジスター)
--可変長と固定長
-著作権をめぐる問題
-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.n...
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>ht...
***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
------
***テキストエディタ [#q7ae852c]
前回つづき
-サクラエディタのダウンロードとインストール
--[[サクラエディタのダウンロード:sakura2.zip>http://www.o...
---(参考) サクラエディタホームページ:http://sourceforge....
-サンプルテキストデータ
--[[sample.zip>http://www.ogiso.net/wiki/index.php?plugin...
**2013/04/19
//***授業の進め方
//-発表について
***「中納言」利用申込み
-申込用紙を配布します。
------
***コーパスとは
-スライド参照
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/...
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
**4/12 第1回 イントロダクション/日本語コーパスの紹介
-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
--[[コーパス開発センター>http://www.ninjal.ac.jp/corpus_c...
-国語研のコーパス([[KOTONOHA>http://www.ninjal.ac.jp/kot...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[少納言>http://shonagon.ninjal.ac.jp]]
---[[中納言>http://chunagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--日本語歴史コーパス(平安時代編先行公開版)
---[[CHJ 中納言>http://maro.ninjal.ac.jp]]
-受講者アンケート
--専門・関心領域
--PCスキル
-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研...
ページ名: