一橋2012
をテンプレートにして作成
開始行:
*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22]
-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@o...
-授業フォルダ \\Linkstation\share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/S...
-BCCWJ中納言: https://chunagon.ninjal.ac.jp/
***レポートについて
-締め切り:2月11日
-枚数:A4用紙 3枚~20枚
**2013/02/25 総まとめ
***まとめ
+できたものを利用
--BCCWJ中納言 + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの...
***発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl(or Ruby,Pytho...
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,ちょっと...
***質問
-レポートについて、またはこれまでの授業内容に関して質問を...
**2013/01/18 特別授業@国語研(ChaKi)
-希望者のみ参加してください(成績評価の対象外です)
-''午前10:30から行います''(午後の予定でしたが,変更にな...
-場所:国立国語研究所 4階 ''405室''
-自分のノートパソコン持参のこと
-http://dl.dropbox.com/u/134600/meidai.zip
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
**2013/01/11 Wordでレポートや論文を書く
***ひまわり補足
-検索結果をピボットテーブルで集計する
***Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
-''少なくとも*印の機能はこの授業のレポートで実際に利用す...
サンプルファイル:[[中納言概説>http://home.ogiso.net/wiki...
***質問
-コーパスとレポートに関する質問受付
**2012/12/21 ひまわり
***ひまわり
-全文検索システム「ひまわり」 [[国立国語研究所/言語デー...
-ただのテキストファイル(プレーンテキスト)ではなく、XML...
-ひまわり用データ(授業フォルダ)
--青空文庫
--国会会議録
--その他
-テキストデータを「ひまわり」で利用するには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
--「名大会話コーパス」をひまわりで
***Excelを使った集計(補足)
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
-調整頻度
--レジスターごとの総語数が違うので、粗頻度ではなく1,000,0...
**2012/12/14 文字列検索と正規表現 (少納言,テキストエ...
***レポートテーマ
-レポートテーマ発表(第1回)
***少納言
-BCCWJ 少納言 http://shonagon.ninjal.ac.jp
--BCCWJの一般公開ページ
--文字列検索のみ,表示500件などの制限
--一部の正規表現が利用可能
***テキストエディタ
-サクラエディタのダウンロード
--[[サクラエディタのダウンロード:sakura.zip(授業用に用意...
---(参考)サクラエディタホームページ:http://sourceforge...
-grepとタグジャンプ
***正規表現
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
-[[授業資料/正規表現]]
**2012/12/7 UniDicによる形態素解析
----
#include(授業資料/形態素解析,notitle)
----
--[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-応用:テキストのジャンルと語種,品詞の割合をグラフ化して...
---ブログのテキストと新聞記事のテキストの解析結果を比較
**2012/11/30
***復習と補足
-連体修飾(である可能性が高いもの)の検索と集計
--形容動詞(形状詞+助動詞「だ」)
-[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3...
***ショートカットキー
-[[授業資料/覚えておきたいショートカットキー]]
***長単位と短単位の仕様の違い
-複合辞
-可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(...
-可能動詞の語彙素
***集計のための処理
-集計用の列を用意する
--ex.「割合が{大きい/小さい, 高い/低い, 多い/少ない}」
--[[データダウンロード>http://www.ogiso.net/wiki/index.ph...
-文字列関数による置き換え
--品詞の大分類を使う
--=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
-Excelの文字列関数とif関数
--left,right,mid,len,search,substitute
***利用例:「訊く」の話
-現代書き言葉における動詞「聞く」の表記をBCCWJ中納言で検索
キー: 語彙素 = "聞く" WITH OPTIONS unit="1" AND tglWords...
--「訊く」のレジスタ別分布(コアデータのみ)&br;
&ref("kiku_bccwj_core.png");
--用法分類は(手作業で行わない限り)できない
--割合と粗頻度について
-参考blog
++[[なぜ広まった? 「『訊く』が正しい」という迷信 - アス...
++[[「訊く」という表記について - 蟹亭奇譚>http://d.hatena...
++[[「訊く」のこと - あくまのぬいぐるみ>http://d.hatena.n...
]]
**2012/11/16
***「中納言」検索結果のダウンロード
+ダウンロード
+アーカイブの展開(解凍)
+インポート
***中納言の検索結果をExcelで利用する
-前々回資料(4.)参照
***Excelの基本
-フィルタ
--テキストフィルタ
-並べ替え
--ユーザー設定の並べ替え
***Excel:ピボットテーブルとピボットグラフ
-ピボットテーブル
--Excelのバージョンによってかなり操作方法が違うので注意
-ピボットグラフ
**2012/11/09
-契約書返却
**検索条件式
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1...
後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN c...
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="...
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1...
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 ...
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|...
**BCCWJの形態論情報
-[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料)
//--IT's Class >日本語学講義E>教材>その他の教材>UniDicマ...
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
***学校文法との違い
-形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う
-サ変動詞を 名詞+動詞スル として扱う
-活用語に助動詞「う」が付いた形を意志推量形として扱う
***長単位の品詞
-短単位との違い
--可能性に基づく品詞付与ではなく、出現例に即した品詞付与
--複合辞
--可能動詞の扱い
**2012/10/26
***「中納言」の利用
-アカウント作成とログイン
***中納言によるコーパスの検索方法
-★配布資料:中納言の使い方
**2012/10/19
-受講者の専門分野・関心領域
-「中納言」アカウント確認
***コーパスの設計とサンプリング
-★スライド参照(授業フォルダ)
--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.n...
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>ht...
**2012/10/12 コーパスとは
***はじめに
-「中納言」利用申込み用紙回収
--申込用紙と契約書を回収します。
-授業フォルダの説明
-- \\Linkstation\share\日本語コーパス
***コーパスとは
-★スライド参照(授業フォルダ)
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/...
**2012/10/05 イントロダクション [#p494942d]
-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/koton...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[検索デモサイト>http://shonagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--通時コーパス(設計中)
-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研...
--シラバス確認 https://mercas.hit-u.ac.jp/
-受講者アンケート
--専門・関心領域
--PCスキル
-デモンストレーション
--BCCWJ中納言+Excel
--茶まめ(形態素解析)
--ひまわり
***授業で利用する主なソフトウェア [#i06478d2]
|名前|種類|利用目的|h
|''[[Excel>http://office.microsoft.com/ja-jp/excel/defaul...
|''[[Word>http://office.microsoft.com/ja-jp/word/default....
|''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%...
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器...
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書...
|''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサ...
|''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Web...
終了行:
*日本語学講義(I) 日本語コーパス研究入門 [#nfef3a22]
-授業に関するメールはこちらへ。&br;小木曽 智信: ogiso@o...
-授業フォルダ \\Linkstation\share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/S...
-BCCWJ中納言: https://chunagon.ninjal.ac.jp/
***レポートについて
-締め切り:2月11日
-枚数:A4用紙 3枚~20枚
**2013/02/25 総まとめ
***まとめ
+できたものを利用
--BCCWJ中納言 + Excelピボットテーブル
+自分でデータをなんとかする
|テキストのレベル|ツール|必要な技術|h
|プレーンテキストレベル|テキストエディタ|grepと正規表現|
|タグ付きテキストレベル|ひまわり→ Excel|XML・マークアップ...
|形態素解析済みテキストレベル|UniDic,MeCab→ChaKi|ChaKiの...
***発展
-今後、コンピュータを活用した言語研究を本格的に行っていく...
++テキスト処理のための言語なにか一つ Perl(or Ruby,Pytho...
++データベース(RDB)とSQL
++統計処理・R言語
++マークアップ言語と関連技術 XML/XSLT
-[[授業資料/コンピュータ言語]] (関連書籍の情報,ちょっと...
***質問
-レポートについて、またはこれまでの授業内容に関して質問を...
**2013/01/18 特別授業@国語研(ChaKi)
-希望者のみ参加してください(成績評価の対象外です)
-''午前10:30から行います''(午後の予定でしたが,変更にな...
-場所:国立国語研究所 4階 ''405室''
-自分のノートパソコン持参のこと
-http://dl.dropbox.com/u/134600/meidai.zip
+MeCab http://mecab.googlecode.com/svn/trunk/mecab/doc/in...
+UniDic 2.xのインストール http://sourceforge.jp/projects/...
+ChaKi.NETのインストール http://sourceforge.jp/projects/c...
+データの解析と取り込み
+茶器による検索
++文字列検索
++正規表現検索
++タグ検索(形態論情報を利用した検索)
+ワードリスト
+解析結果の修正
**2013/01/11 Wordでレポートや論文を書く
***ひまわり補足
-検索結果をピボットテーブルで集計する
***Wordでレポートや論文を書く
-文書の構造化
--スタイルと見出し*
--ナビゲーション ウィンドウ(見出しマップ)*
--章・節番号
-図表の貼り込み
--「形式を選択して貼り付け」*
--図表番号とキャプション*
-脚注*
--脚注と文末脚注
-相互参照
--節番号、図表番号と相互参照
--目次、図表目次
-リスト
--例文番号
-''少なくとも*印の機能はこの授業のレポートで実際に利用す...
サンプルファイル:[[中納言概説>http://home.ogiso.net/wiki...
***質問
-コーパスとレポートに関する質問受付
**2012/12/21 ひまわり
***ひまわり
-全文検索システム「ひまわり」 [[国立国語研究所/言語デー...
-ただのテキストファイル(プレーンテキスト)ではなく、XML...
-ひまわり用データ(授業フォルダ)
--青空文庫
--国会会議録
--その他
-テキストデータを「ひまわり」で利用するには
--[[えだまめ>http://www2.ninjal.ac.jp/lrc/index.php?%A1%D...
--同等機能が最新版「ひまわり」(1.5)に内蔵された
--「名大会話コーパス」をひまわりで
***Excelを使った集計(補足)
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
-調整頻度
--レジスターごとの総語数が違うので、粗頻度ではなく1,000,0...
**2012/12/14 文字列検索と正規表現 (少納言,テキストエ...
***レポートテーマ
-レポートテーマ発表(第1回)
***少納言
-BCCWJ 少納言 http://shonagon.ninjal.ac.jp
--BCCWJの一般公開ページ
--文字列検索のみ,表示500件などの制限
--一部の正規表現が利用可能
***テキストエディタ
-サクラエディタのダウンロード
--[[サクラエディタのダウンロード:sakura.zip(授業用に用意...
---(参考)サクラエディタホームページ:http://sourceforge...
-grepとタグジャンプ
***正規表現
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)を使って文字列の...
--エディタでは置換・検索・grepで利用できる (エディタ以...
-[[授業資料/正規表現]]
**2012/12/7 UniDicによる形態素解析
----
#include(授業資料/形態素解析,notitle)
----
--[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc...
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
-応用:テキストのジャンルと語種,品詞の割合をグラフ化して...
---ブログのテキストと新聞記事のテキストの解析結果を比較
**2012/11/30
***復習と補足
-連体修飾(である可能性が高いもの)の検索と集計
--形容動詞(形状詞+助動詞「だ」)
-[[ジップの法則>http://ja.wikipedia.org/wiki/%E3%82%B8%E3...
***ショートカットキー
-[[授業資料/覚えておきたいショートカットキー]]
***長単位と短単位の仕様の違い
-複合辞
-可能性にもとづく品詞付与(短単位)と文脈にもとづく品詞(...
-可能動詞の語彙素
***集計のための処理
-集計用の列を用意する
--ex.「割合が{大きい/小さい, 高い/低い, 多い/少ない}」
--[[データダウンロード>http://www.ogiso.net/wiki/index.ph...
-文字列関数による置き換え
--品詞の大分類を使う
--=LEFT(<品詞>,SEARCH("-",<品詞>)-1)
-Excelの文字列関数とif関数
--left,right,mid,len,search,substitute
***利用例:「訊く」の話
-現代書き言葉における動詞「聞く」の表記をBCCWJ中納言で検索
キー: 語彙素 = "聞く" WITH OPTIONS unit="1" AND tglWords...
--「訊く」のレジスタ別分布(コアデータのみ)&br;
&ref("kiku_bccwj_core.png");
--用法分類は(手作業で行わない限り)できない
--割合と粗頻度について
-参考blog
++[[なぜ広まった? 「『訊く』が正しい」という迷信 - アス...
++[[「訊く」という表記について - 蟹亭奇譚>http://d.hatena...
++[[「訊く」のこと - あくまのぬいぐるみ>http://d.hatena.n...
]]
**2012/11/16
***「中納言」検索結果のダウンロード
+ダウンロード
+アーカイブの展開(解凍)
+インポート
***中納言の検索結果をExcelで利用する
-前々回資料(4.)参照
***Excelの基本
-フィルタ
--テキストフィルタ
-並べ替え
--ユーザー設定の並べ替え
***Excel:ピボットテーブルとピボットグラフ
-ピボットテーブル
--Excelのバージョンによってかなり操作方法が違うので注意
-ピボットグラフ
**2012/11/09
-契約書返却
**検索条件式
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1...
後方共起: 語彙素 = "学ぶ" WITHIN 5 WORDS FROM キー IN c...
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="...
キー: 品詞 LIKE "名詞%" AND 後方共起: 語彙素 = "を" ON 1...
後方共起: (語彙素 = "学ぶ" OR 語彙素 = "習う") WITHIN 5 ...
WITH OPTIONS unit="1" AND tglWords="20" AND tglKugiri="|...
**BCCWJの形態論情報
-[[UniDic>http://download.unidic.org]]の品詞体系 (配付資料)
//--IT's Class >日本語学講義E>教材>その他の教材>UniDicマ...
--品詞:名詞-固有名詞-姓 (大分類>中分類>小分類)
--活用型:下一段-ア行 (大分類>行分類(>小分類))
--可能性に基づく品詞体系
---名詞-普通名詞-サ変可能
***学校文法との違い
-形容動詞を 形状詞(=形容動詞語幹)+助動詞ダ として扱う
-サ変動詞を 名詞+動詞スル として扱う
-活用語に助動詞「う」が付いた形を意志推量形として扱う
***長単位の品詞
-短単位との違い
--可能性に基づく品詞付与ではなく、出現例に即した品詞付与
--複合辞
--可能動詞の扱い
**2012/10/26
***「中納言」の利用
-アカウント作成とログイン
***中納言によるコーパスの検索方法
-★配布資料:中納言の使い方
**2012/10/19
-受講者の専門分野・関心領域
-「中納言」アカウント確認
***コーパスの設計とサンプリング
-★スライド参照(授業フォルダ)
--「バランスがとれている」とは?
--現代日本語の書き言葉の縮図としてのコーパスを作る
--コーパスの母集団の設定とサンプリング
--BCCWJのサブコーパス
--可変長と固定長
-著作権をめぐる問題
-参考リンク
--[[ブラウンコーパス マニュアル>http://khnt.aksis.uib.no/...
--[[BNCリファレンスガイド>http://www.natcorp.ox.ac.uk/doc...
--[[現代日本語書き言葉均衡コーパスの基本方針>http://www.n...
--[[現代日本語書き言葉均衡コーパスのためのサンプル抽出>ht...
**2012/10/12 コーパスとは
***はじめに
-「中納言」利用申込み用紙回収
--申込用紙と契約書を回収します。
-授業フォルダの説明
-- \\Linkstation\share\日本語コーパス
***コーパスとは
-★スライド参照(授業フォルダ)
--コーパスとはどんなものか
--日本語コーパス以外(以前)の電子資料
:狭義のコーパス|言語研究を目的として収集され、言語研究の...
:広義のコーパス|コンピュータ上で利用可能な大規模な言語デ...
***「少納言」を使ってみる
-[[BCCWJ少納言>http://shonagon.ninjal.ac.jp]]
***参考リンク
-[[コーパス日本語学のための情報館>http://www30.atwiki.jp/...
**2012/10/05 イントロダクション [#p494942d]
-[[自己紹介]]
-[[国立国語研究所(NINJAL)>http://www.ninjal.ac.jp/]]
-国語研コーパス([[KOTONOHA>http://www.ninjal.ac.jp/koton...
--現代日本語書き言葉均衡コーパス(BCCWJ)
---[[特定領域 日本語コーパス>http://www.tokuteicorpus.jp/]]
---[[検索デモサイト>http://shonagon.ninjal.ac.jp]]
--日本語話し言葉コーパス(CSJ)
--太陽コーパス(明治・大正期の総合雑誌)
--通時コーパス(設計中)
-授業の進め方について
--受講者のレベルにあわせて基礎的なことから始め、自分の研...
--シラバス確認 https://mercas.hit-u.ac.jp/
-受講者アンケート
--専門・関心領域
--PCスキル
-デモンストレーション
--BCCWJ中納言+Excel
--茶まめ(形態素解析)
--ひまわり
***授業で利用する主なソフトウェア [#i06478d2]
|名前|種類|利用目的|h
|''[[Excel>http://office.microsoft.com/ja-jp/excel/defaul...
|''[[Word>http://office.microsoft.com/ja-jp/word/default....
|''[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%...
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器...
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書...
|''[[BCCWJ:小納言>http://shonagon.ninjal.ac.jp]]''|Webサ...
|''[[BCCWJ:中納言>http://chunagon.ninjal.ac.jp]]''◎|Web...
ページ名: