一橋2009
をテンプレートにして作成
開始行:
*日本語学講義(I) 日本語コーパス研究 [#nfef3a22]
-授業に関するメールはこちらへ。小木曽 智信: ogiso@ogiso....
-[[授業資料/用語集リンク]] (わからないコンピュータ用語を...
-授業フォルダ \\Linkstation\share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/S...
//言語文化研究所 日本語教育研究34 1997
----
**お知らせ [#n631237d]
//***【重要】''BCCWJモニター公開データ''を申し込んでくだ...
//-http://www.kokken.go.jp/kotonoha/ex_8.html
//-「現在のモニター公開データ(2008年度版)は,配布の際のデ...
//***後半の発表・レポートに向けて [#ce526738]
//-後半の発表とレポートに向けて、どのような資料を使い、ど...
***持ち帰り用データ [#x85be6ee]
-授業フォルダの「持ち帰り用」フォルダ内にある「ひまわり」...
//-★都合により5/15, 5/29 の授業は少し早めに終わります。
//----
//***今後の予定(あくまでも予定です) [#ud20c4e5]
***【補足資料】
-[[形態素解析結果をAccessで使う(PDF)>http://home.ogiso.ne...
**第15回(補講) 2008/07/17 形態素解析結果とデータベース
***復習:形態素解析のためのツール
-解析器:MeCab http://mecab.sourceforge.net/
-解析辞書:UniDic http://download.unidic.org/
-[[ソフトウェア/UniDic/WindowsでUniDic]]
***データベースに取り込む
-Accessで新規データベースを作成(mdbファイル)
-インポート
--連番を付ける
***データを取り出す
-選択クエリ
--列を選択
--行を選択
-表の結合
--内部結合と外部結合
--表を結合して選択
-集計
--合計・カウント(何例あるか)・平均・・・
***連続する形態素を抜き出す
-次の形態素の連番を付ける
--列を用意する
--更新クエリ
-連続する形態素を抜き出す
--解析結果テーブル自身をずらして結合する
-発展:[[授業資料/コンピュータ言語]]
**第14回 2008/07/10 発表と討議(5)
***発表2件
+順序をあらわす接続語に関する一考察
//黄
--3タイプ:第一に/最初に/まず cf.石黒(2005)日本語教育125
//---順序を問わない・順序を問う・順序を問える
--日本語母語話者/中国人学習者作文の比較
//---まず>次に>最後に(日中とも)
//「まず」は繰り返し可能(母語話者に多い)、対応する「首...
//学習者では「第一に」は使われない
//?? テキスト量? ?複合する場合? 料理文のような手...
//?? 母語の影響?、教材の影響
+二字漢語の形容詞用法と名詞用法の名詞修飾
//劉
--ナ形容詞(~な~)、名詞(~の~)
--中国語ではともに「的」
--両用可能 普通・無限・透明
//--進化的に安定な・?の戦略
//普通安価透明特別平等無力無効無用無限安定 を選定(自分...
//平等の 格的関係を持つ場合=の、複合語の構成要素になる...
//平等な 核的関係を持たない、複合語の構成要素にならない...
//特別 日常的な語=な?
// ジャンル別調査>知恵袋と白書でまったく逆 ジャンル...
//? の・な以外の名詞用法の数は?
//歴史的変化
-参考
--暮らしに生きることば:「立派の人」「普通な人」
---http://www.kokken.go.jp/kanko/kokken_mado_mt/29/01/
--明治・大正期における形容動詞の連体修飾の形
---http://www.bookmailclub.com/bmc/reader/search/?.comman...
***データベース
-ひまわりの検索結果をデータベースに読み込む
--他の表と結合して利用
-2単位以上になる言葉の検索
--corpusテーブルにIDをずらしたcorpusテーブル(自分自身)...
---SQLで書くと
select * from corpus as corpus_1
inner join corpus as corpus_2 on corpus_1.ID+1 = corpus_...
where ・・・・・・
--corpusテーブルに「次の形態素のID」列を持たせてインデッ...
**第13回 2008/07/03 発表と討議(4)
***発表(2件)
+ら抜き言葉の使用傾向
//「みんなの日本語」初級から6語 食べる・見る・やめる・借り...
//ごみとり 「入れれば」? 借りれる・入れれる=知恵袋...
//母数(見られる・見る 全体)との比較
//知恵袋・国会会議録・書籍、デモサイトで正規表現検索
//絶対数:語による差、見れる・食べれる が多く、覚えれる...
//考えれる はあり
+日本語と中国語との補文関係を持つVV型複合動詞
//--前項述語の結果を受けるタイプ(始動・継続・完了・未遂・過...
//
//中国語訳でも複合動詞に訳されるか・・
//複合動詞に訳されるものはEVENTが1つ。結果性を含意にする...
//結果性を含意しない(atelic)ものは複合動詞対応をもたない
//中国語では「複合動詞を用いなければ結果性を表せない」
//
//中国語の「~好」結果補語(出来上がる・終了) がどう訳さ...
//
//中日対訳コーパス(日本学研究センター編)
//
//複合動詞で訳されない 写好:書き上げる、書き上げる ...
//(他動詞+非対格自動詞の組み合わせになるから)
//
//× *太郎に書かれた 直接受動文にならない
//× 「書く」は他動性が低いから
//
//語彙的複合動詞と統語的複合動詞 影山
//(語彙的=前項の「する」による置き換え、受身化、尊敬語化...
**第12回 2008/06/26 発表と討議(3)
***発表(3件)
+コミックに見る人称代名詞
//ジャンカーラ・コミックに見る人称代名詞(別紙資料)
//若者への影響が指摘される 少年マンガ・少女マンガ
//6作品 ナルト・OnePiece・コナン / 君に届け・NANA・のだめ
+強調を表すとりたて助詞(「も」)「まで」「さえ」
//崔
//grep調査(対象?)+ピボット
//対象資料、集計方法の問題
//
+KYコーパスを用いた中国人中上級学習者の条件表現の研究
//こう
//と・ば・たら・なら grep
//中級では と・なら の使用0、ほとんどが たら
//前田2009 レアリティー(仮定的・非仮定的・非条件的)
//「ば」について 上級者の用法の多様性
**第11回 2008/06/19 発表と討議(2)/形態素解析結果とデ...
***発表
+小説に見られる「外国人」の発話表記
//浅野目
//マンガについてはすでに調査済み デス・マスのカタカナ表記
//青空文庫、えだまめ利用・新潮文庫利用、ほとんど見つから...
//→稀例(マンガのときと同様)対象が含まれている小説をミニ...
+講義における指示表現の分析
//アンナ
//講義・80年代音声データを文字化したもの
//代名詞・名詞修飾 コレ・コノ
//grepで用例、茶まめで語数調査 アコソ系統別の使用割合 ...
//講義ではコの文脈指示が多い
//ハ・ガとの結びつき コレガは少ない 予測裏切り的関係 ...
//フィラーの問題
//→形態素解析+DBが利用できないか。 他の資料との比較
+自動詞・他動詞による共起する語の範囲の違い
//前坊
//(意味範囲)
//重なる・重ねる
//苦労・努力/年齢・経験 疲労・ストレス/偶然・条件
//(起きる・起こす・起こる)など3語のペアを調査予定。
//直前の格の調査、共起する語の調査は今後。
***形態素解析結果とデータベース
-選択クエリ
--クエリで検索語を集計する
-表の結合
//--解析結果の比較・分析
//--クエリの作成・SQL
**第10回 2008/06/12 発表と討議(1)/形態素解析結果とデ...
***発表
+テイル/テイタの用法(小説・新聞社説)
//cf.レジュメ
+マニュアルの日本語の特徴(機械の説明書のネイティブチェッ...
//マニュアル日本語< 、対訳コーパス 、K2Editor(エンコ...
***関係データベース
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-Microsoft Access(小規模向けデータベースソフト)
--形態素解析結果をデータベースに読み込む
--表とクエリ
**第9回 2009/06/05 形態素解析 [#g825db8a]
-配付資料
--シリーズ国語研究の現場から「日本語研究と自動形態素解析」
***形態素解析とは [#yda847af]
-形態素解析器(解析エンジン・プログラム)
--茶筌(ChaSen)
--和布蕪(MeCab)
-解析辞書
--NAIST-jdic (IPADIC)
--UniDic
---近代文語UniDic
-茶まめ(解析用GUIツール)
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
//ローカルでの解析は来週までに準備
***インストールの方法
-[[ソフトウェア/UniDic/WindowsでUniDic]]
**第8回 2009/05/30 ミニコーパスを作る [#k2ae5c64]
-自分でミニコーパスを作るには
-マークアップ言語
--[[HTML>http://ja.wikipedia.org/wiki/HyperText_Markup_La...
---ごく簡単なHTMLの説明:http://www.kanzaki.com/docs/htmi...
--[[XML>http://ja.wikipedia.org/wiki/Extensible_Markup_La...
---たのしいXML:http://www6.airnet.ne.jp/manyo/xml/
***「ひまわり」用のデータを作るには [#l26f68db]
-[[ひまわり用のデータの作り方>http://www.kokken.go.jp/lrc...
--◎自由に情報がつけられる / △やや難
-[[ひまわり用データ作成ツール「えだまめ」>http://www.kokk...
--[[「えだまめ」の使い方>http://www.kokken.go.jp/lrc/inde...
--△自分で付けられる情報は「パス」のみ / ◎簡単
---(自動でできたXMLファイルと設定ファイルを編集して、必...
***既存のデータを「ひまわり」用に変換する [#tfcee628]
-[[ソフトウェア/しおまめ]](新潮文庫の100冊シリーズ変換)
-[[青空文庫のDVD-ROMを変換>http://www.kokken.go.jp/lrc/in...
#amazon(4899840721)
#clear
**第7回 2009/05/22 「ひまわり」とExcelの利用(2) / 発表...
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う(復習)
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-用例の分類と集計
++分類記号を入れる列を用意し、自分で入力する
++ピボットテーブルで入力した分類を使う
--ミタヨウダ/ミタイダ
-関数を使う
--=left([文字列],[文字数])
--生没年(1867-1916)から10年ごとの生まれた年代(1860)を...
---=left([生没年],3)*10
***発表課題について [#z3406bd3]
-発表順
-課題(案)
**第6回 2009/05/15 「ひまわり」とExcelの利用(1) [#xc608...
***全文検索ソフト「ひまわり」の利用 [#ubf60277]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
-「ひまわり」を授業フォルダに入れ、青空文庫などを検索でき...
***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]の...
-前文脈/後文脈:ほぼ全ての正規表現
--例:[寂淋]し
|前文脈|キー|後文脈|タイトル|著者|著者ID|生没年|原著者|原...
***表計算ソフト Excel入門 [#k88c28d1]
-並べ替え
-オートフィルタ
--オートフィルタの「オプション」
-ピボットテーブル・ピボットグラフを使う
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-Excelの使い方全般について
--[[Excel 2003 のヘルプと使い方>http://office.microsoft.c...
--[[Excelトレーニング(Microsoft)>http://office.microsof...
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
***テキストエディタと組み合わせて使う [#uc1f5bff]
-エディタと組み合わせて使う
--特定の列をエディタにコピーして正規表現を使った置換を行う
**第5回 2009/05/08 高度な正規表現 [#oc16b1a6]
***タグ付き正規表現(復習) [#f4ef75c5]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
-(参考)タグ付き正規表現の応用:[[grepと置換でKWICを作る...
***検索語の中での後方参照 [#j9966c0d]
-検索語の中で\1を使う
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
***最長一致の原則(greedy matching) [#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--''「([^」]+)」'' → ''【\1】'' のように書けばよい
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-最短一致を指定するには(ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の後に「?」...
***正規表現に関する本 [#a3414e4f]
-[[amazonで検索>http://www.amazon.co.jp/s/ref=nb_ss_gw?__...
-正規表現にはアプリケーションソフトやプログラミング言語ご...
#amazon(4873111706)
#amazon(4873113598)
#clear
***おすすめテキストエディタ [#oa8d82a7]
-フリーウェア
--K2Editor http://k2top.jpn.org/index.php?K2Editor 【SJIS】
--Apsalyテキストエディタ http://www.vector.co.jp/soft/win...
--サクラエディタ http://sakura-editor.sourceforge.net/ 【...
-シェアウェア
--EmEditor http://jp.emeditor.com/ 4,200円
--秀丸エディタ http://hide.maruo.co.jp/software/hidemaru....
***全文検索ソフト「ひまわり」の利用 [#ubf60277]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
-「ひまわり」を授業フォルダに入れ、青空文庫などを検索でき...
----
**第4回 2009/05/01 正規表現 [#m36f1070]
-[[秀丸エディタの使い方(PDF)>http://home.ogiso.net/wiki/p...
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
--繰り返し ? + *
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
--カタカナ語
--送りがなの揺れ(行う/行なう)
--''全然~ない。''
--会話文中(''「''で始まる)
***タグ付き正規表現 [#qc4ff17d]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
**第3回 2009/04/24 テキストエディタの利用 [#h5039c4a]
-復習
--検索で初出行を調べる
--置換で用例数を数える
-grepとタグジャンプ
--grep
--タグジャンプ
--grep結果の保存
***grepと置換でKWIC(CSVファイル)を作る [#u3ab2d6f]
-grep結果の置換による整形
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://e-words.jp/w/CSV.html]]
-CSVファイルをExcelで開く
-KWIC:KeyWord In Context
***テキストファイルと拡張子 [#c15ea011]
-[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%...
-拡張子辞典:http://jisyo.com/viewer/list/list.html
-TXT,CSV,HTM・・・
***ショートカットキー [#f0022be4]
-[[授業資料/覚えておきたいショートカットキー]]
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な...
-文字クラス [ ]
-文字クラスの否定(補集合)[^ ]
(続きは次回)
**第2回 2009/04/17 テキストデータとテキストエディタ [#...
***コーパスについて [#k44345b6]
この授業ではBCCWJ(モニター公開版)・太陽コーパスのほか、...
-狭義のコーパス 言語研究を目的として収集され、言語研究の...
--Kotonoha (BCCWJ / CSJ / 太陽コーパス)
-広義のコーパス コンピュータ上で利用可能な大規模な言語デ...
--さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫...
--Webデータ
---検索サイトの利用
---WAC(Web as Corpus)
***授業で利用する主なソフトウェア [#i06478d2]
|''[[秀丸エディタ>http://hide.maruo.co.jp/software/hidema...
|''[[ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B...
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器...
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書...
|''[[Excel>http://office.microsoft.com/ja-jp/excel/defaul...
|''[[Access>http://office.microsoft.com/ja-jp/access/defa...
|''[[Word>http://office.microsoft.com/ja-jp/word/default....
このほかにWeb上で利用できるサービスも取り上げます。
最初に、テキストエディタを使ってテキストデータを扱うこと...
-共有フォルダの確認
--マイネットワーク>share>日本語コーパス
***テキストデータ [#wee47413]
全ての基本。テキストデータ≒テキストファイル≒電子化テキスト
-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]](広義のコーパス)
---参考 [[『国会会議録を使った日本語研究』>http://www.hit...
#amazon(4894762994)
--[[授業資料/文字コード関連リンク]]
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
***テキストエディタの基礎 [#l73e457c]
-スタイル行番号(ワープロ的行番号)と論理行番号(エディタ...
--cf. 見た目 と 構造
-検索と置換
-grep
**2009/04/10 イントロダクション [#p494942d]
-[[自己紹介]]
-国語研コーパスの紹介([[KOTONOHA>http://www.kokken.go.jp...
--現代日本語書き言葉均衡コーパス(BCCWJ) [[日本語コーパ...
--日本語話し言葉コーパス(CSJ)
--太陽コーパス
-授業の進め方について
--シラバス確認
-デモンストレーション
--茶まめ(形態素解析)+Excel
-受講者アンケート
--専門・関心領域
--PCスキル
終了行:
*日本語学講義(I) 日本語コーパス研究 [#nfef3a22]
-授業に関するメールはこちらへ。小木曽 智信: ogiso@ogiso....
-[[授業資料/用語集リンク]] (わからないコンピュータ用語を...
-授業フォルダ \\Linkstation\share\日本語コーパス
//--[[シラバス>https://syllabus.hit-u.ac.jp/WebSyllabus/S...
//言語文化研究所 日本語教育研究34 1997
----
**お知らせ [#n631237d]
//***【重要】''BCCWJモニター公開データ''を申し込んでくだ...
//-http://www.kokken.go.jp/kotonoha/ex_8.html
//-「現在のモニター公開データ(2008年度版)は,配布の際のデ...
//***後半の発表・レポートに向けて [#ce526738]
//-後半の発表とレポートに向けて、どのような資料を使い、ど...
***持ち帰り用データ [#x85be6ee]
-授業フォルダの「持ち帰り用」フォルダ内にある「ひまわり」...
//-★都合により5/15, 5/29 の授業は少し早めに終わります。
//----
//***今後の予定(あくまでも予定です) [#ud20c4e5]
***【補足資料】
-[[形態素解析結果をAccessで使う(PDF)>http://home.ogiso.ne...
**第15回(補講) 2008/07/17 形態素解析結果とデータベース
***復習:形態素解析のためのツール
-解析器:MeCab http://mecab.sourceforge.net/
-解析辞書:UniDic http://download.unidic.org/
-[[ソフトウェア/UniDic/WindowsでUniDic]]
***データベースに取り込む
-Accessで新規データベースを作成(mdbファイル)
-インポート
--連番を付ける
***データを取り出す
-選択クエリ
--列を選択
--行を選択
-表の結合
--内部結合と外部結合
--表を結合して選択
-集計
--合計・カウント(何例あるか)・平均・・・
***連続する形態素を抜き出す
-次の形態素の連番を付ける
--列を用意する
--更新クエリ
-連続する形態素を抜き出す
--解析結果テーブル自身をずらして結合する
-発展:[[授業資料/コンピュータ言語]]
**第14回 2008/07/10 発表と討議(5)
***発表2件
+順序をあらわす接続語に関する一考察
//黄
--3タイプ:第一に/最初に/まず cf.石黒(2005)日本語教育125
//---順序を問わない・順序を問う・順序を問える
--日本語母語話者/中国人学習者作文の比較
//---まず>次に>最後に(日中とも)
//「まず」は繰り返し可能(母語話者に多い)、対応する「首...
//学習者では「第一に」は使われない
//?? テキスト量? ?複合する場合? 料理文のような手...
//?? 母語の影響?、教材の影響
+二字漢語の形容詞用法と名詞用法の名詞修飾
//劉
--ナ形容詞(~な~)、名詞(~の~)
--中国語ではともに「的」
--両用可能 普通・無限・透明
//--進化的に安定な・?の戦略
//普通安価透明特別平等無力無効無用無限安定 を選定(自分...
//平等の 格的関係を持つ場合=の、複合語の構成要素になる...
//平等な 核的関係を持たない、複合語の構成要素にならない...
//特別 日常的な語=な?
// ジャンル別調査>知恵袋と白書でまったく逆 ジャンル...
//? の・な以外の名詞用法の数は?
//歴史的変化
-参考
--暮らしに生きることば:「立派の人」「普通な人」
---http://www.kokken.go.jp/kanko/kokken_mado_mt/29/01/
--明治・大正期における形容動詞の連体修飾の形
---http://www.bookmailclub.com/bmc/reader/search/?.comman...
***データベース
-ひまわりの検索結果をデータベースに読み込む
--他の表と結合して利用
-2単位以上になる言葉の検索
--corpusテーブルにIDをずらしたcorpusテーブル(自分自身)...
---SQLで書くと
select * from corpus as corpus_1
inner join corpus as corpus_2 on corpus_1.ID+1 = corpus_...
where ・・・・・・
--corpusテーブルに「次の形態素のID」列を持たせてインデッ...
**第13回 2008/07/03 発表と討議(4)
***発表(2件)
+ら抜き言葉の使用傾向
//「みんなの日本語」初級から6語 食べる・見る・やめる・借り...
//ごみとり 「入れれば」? 借りれる・入れれる=知恵袋...
//母数(見られる・見る 全体)との比較
//知恵袋・国会会議録・書籍、デモサイトで正規表現検索
//絶対数:語による差、見れる・食べれる が多く、覚えれる...
//考えれる はあり
+日本語と中国語との補文関係を持つVV型複合動詞
//--前項述語の結果を受けるタイプ(始動・継続・完了・未遂・過...
//
//中国語訳でも複合動詞に訳されるか・・
//複合動詞に訳されるものはEVENTが1つ。結果性を含意にする...
//結果性を含意しない(atelic)ものは複合動詞対応をもたない
//中国語では「複合動詞を用いなければ結果性を表せない」
//
//中国語の「~好」結果補語(出来上がる・終了) がどう訳さ...
//
//中日対訳コーパス(日本学研究センター編)
//
//複合動詞で訳されない 写好:書き上げる、書き上げる ...
//(他動詞+非対格自動詞の組み合わせになるから)
//
//× *太郎に書かれた 直接受動文にならない
//× 「書く」は他動性が低いから
//
//語彙的複合動詞と統語的複合動詞 影山
//(語彙的=前項の「する」による置き換え、受身化、尊敬語化...
**第12回 2008/06/26 発表と討議(3)
***発表(3件)
+コミックに見る人称代名詞
//ジャンカーラ・コミックに見る人称代名詞(別紙資料)
//若者への影響が指摘される 少年マンガ・少女マンガ
//6作品 ナルト・OnePiece・コナン / 君に届け・NANA・のだめ
+強調を表すとりたて助詞(「も」)「まで」「さえ」
//崔
//grep調査(対象?)+ピボット
//対象資料、集計方法の問題
//
+KYコーパスを用いた中国人中上級学習者の条件表現の研究
//こう
//と・ば・たら・なら grep
//中級では と・なら の使用0、ほとんどが たら
//前田2009 レアリティー(仮定的・非仮定的・非条件的)
//「ば」について 上級者の用法の多様性
**第11回 2008/06/19 発表と討議(2)/形態素解析結果とデ...
***発表
+小説に見られる「外国人」の発話表記
//浅野目
//マンガについてはすでに調査済み デス・マスのカタカナ表記
//青空文庫、えだまめ利用・新潮文庫利用、ほとんど見つから...
//→稀例(マンガのときと同様)対象が含まれている小説をミニ...
+講義における指示表現の分析
//アンナ
//講義・80年代音声データを文字化したもの
//代名詞・名詞修飾 コレ・コノ
//grepで用例、茶まめで語数調査 アコソ系統別の使用割合 ...
//講義ではコの文脈指示が多い
//ハ・ガとの結びつき コレガは少ない 予測裏切り的関係 ...
//フィラーの問題
//→形態素解析+DBが利用できないか。 他の資料との比較
+自動詞・他動詞による共起する語の範囲の違い
//前坊
//(意味範囲)
//重なる・重ねる
//苦労・努力/年齢・経験 疲労・ストレス/偶然・条件
//(起きる・起こす・起こる)など3語のペアを調査予定。
//直前の格の調査、共起する語の調査は今後。
***形態素解析結果とデータベース
-選択クエリ
--クエリで検索語を集計する
-表の結合
//--解析結果の比較・分析
//--クエリの作成・SQL
**第10回 2008/06/12 発表と討議(1)/形態素解析結果とデ...
***発表
+テイル/テイタの用法(小説・新聞社説)
//cf.レジュメ
+マニュアルの日本語の特徴(機械の説明書のネイティブチェッ...
//マニュアル日本語< 、対訳コーパス 、K2Editor(エンコ...
***関係データベース
-関係データベースとは
--[[Wikipedia>http://ja.wikipedia.org/wiki/%E9%96%A2%E4%B...
-Microsoft Access(小規模向けデータベースソフト)
--形態素解析結果をデータベースに読み込む
--表とクエリ
**第9回 2009/06/05 形態素解析 [#g825db8a]
-配付資料
--シリーズ国語研究の現場から「日本語研究と自動形態素解析」
***形態素解析とは [#yda847af]
-形態素解析器(解析エンジン・プログラム)
--茶筌(ChaSen)
--和布蕪(MeCab)
-解析辞書
--NAIST-jdic (IPADIC)
--UniDic
---近代文語UniDic
-茶まめ(解析用GUIツール)
***茶まめで形態素解析・Excelで集計
+茶まめで解析してみる(解析器はMeCab+解析辞書はUniDic)
+Excelに出力する
+ピボットテーブルで集計する
//ローカルでの解析は来週までに準備
***インストールの方法
-[[ソフトウェア/UniDic/WindowsでUniDic]]
**第8回 2009/05/30 ミニコーパスを作る [#k2ae5c64]
-自分でミニコーパスを作るには
-マークアップ言語
--[[HTML>http://ja.wikipedia.org/wiki/HyperText_Markup_La...
---ごく簡単なHTMLの説明:http://www.kanzaki.com/docs/htmi...
--[[XML>http://ja.wikipedia.org/wiki/Extensible_Markup_La...
---たのしいXML:http://www6.airnet.ne.jp/manyo/xml/
***「ひまわり」用のデータを作るには [#l26f68db]
-[[ひまわり用のデータの作り方>http://www.kokken.go.jp/lrc...
--◎自由に情報がつけられる / △やや難
-[[ひまわり用データ作成ツール「えだまめ」>http://www.kokk...
--[[「えだまめ」の使い方>http://www.kokken.go.jp/lrc/inde...
--△自分で付けられる情報は「パス」のみ / ◎簡単
---(自動でできたXMLファイルと設定ファイルを編集して、必...
***既存のデータを「ひまわり」用に変換する [#tfcee628]
-[[ソフトウェア/しおまめ]](新潮文庫の100冊シリーズ変換)
-[[青空文庫のDVD-ROMを変換>http://www.kokken.go.jp/lrc/in...
#amazon(4899840721)
#clear
**第7回 2009/05/22 「ひまわり」とExcelの利用(2) / 発表...
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う(復習)
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-用例の分類と集計
++分類記号を入れる列を用意し、自分で入力する
++ピボットテーブルで入力した分類を使う
--ミタヨウダ/ミタイダ
-関数を使う
--=left([文字列],[文字数])
--生没年(1867-1916)から10年ごとの生まれた年代(1860)を...
---=left([生没年],3)*10
***発表課題について [#z3406bd3]
-発表順
-課題(案)
**第6回 2009/05/15 「ひまわり」とExcelの利用(1) [#xc608...
***全文検索ソフト「ひまわり」の利用 [#ubf60277]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
-「ひまわり」を授業フォルダに入れ、青空文庫などを検索でき...
***「ひまわり」で使用できる正規表現 [#t52b1fee]
-[[授業資料/Himawariの正規表現]]
-検索語/キー:普通の文字と、列挙型の文字クラス([あいう]の...
-前文脈/後文脈:ほぼ全ての正規表現
--例:[寂淋]し
|前文脈|キー|後文脈|タイトル|著者|著者ID|生没年|原著者|原...
***表計算ソフト Excel入門 [#k88c28d1]
-並べ替え
-オートフィルタ
--オートフィルタの「オプション」
-ピボットテーブル・ピボットグラフを使う
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-Excelの使い方全般について
--[[Excel 2003 のヘルプと使い方>http://office.microsoft.c...
--[[Excelトレーニング(Microsoft)>http://office.microsof...
***Excelを使った集計 [#l7da4009]
-ピボットテーブル・ピボットグラフを使う
--参考:http://office.microsoft.com/ja-jp/excel/CH0625280...
-グラフの種類について
--http://office.microsoft.com/ja-jp/help/HA012337371041.a...
--扱う対象・方法に適したグラフを選択する 上記URL参照
***テキストエディタと組み合わせて使う [#uc1f5bff]
-エディタと組み合わせて使う
--特定の列をエディタにコピーして正規表現を使った置換を行う
**第5回 2009/05/08 高度な正規表現 [#oc16b1a6]
***タグ付き正規表現(復習) [#f4ef75c5]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
-(参考)タグ付き正規表現の応用:[[grepと置換でKWICを作る...
***検索語の中での後方参照 [#j9966c0d]
-検索語の中で\1を使う
--(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
***最長一致の原則(greedy matching) [#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さよう...
--''「([^」]+)」'' → ''【\1】'' のように書けばよい
---「こんにちは」「さようなら」 → 【こんにちは】【さよう...
-最短一致を指定するには(ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の後に「?」...
***正規表現に関する本 [#a3414e4f]
-[[amazonで検索>http://www.amazon.co.jp/s/ref=nb_ss_gw?__...
-正規表現にはアプリケーションソフトやプログラミング言語ご...
#amazon(4873111706)
#amazon(4873113598)
#clear
***おすすめテキストエディタ [#oa8d82a7]
-フリーウェア
--K2Editor http://k2top.jpn.org/index.php?K2Editor 【SJIS】
--Apsalyテキストエディタ http://www.vector.co.jp/soft/win...
--サクラエディタ http://sakura-editor.sourceforge.net/ 【...
-シェアウェア
--EmEditor http://jp.emeditor.com/ 4,200円
--秀丸エディタ http://hide.maruo.co.jp/software/hidemaru....
***全文検索ソフト「ひまわり」の利用 [#ubf60277]
-「ひまわり」 [[国立国語研究所/言語データベースとソフト...
-「ひまわり」を授業フォルダに入れ、青空文庫などを検索でき...
----
**第4回 2009/05/01 正規表現 [#m36f1070]
-[[秀丸エディタの使い方(PDF)>http://home.ogiso.net/wiki/p...
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な...
***正規表現のいろいろ [#q514651f]
-[[授業資料/正規表現]]
--文字クラス [ ]
--文字クラスの否定(補集合)[^ ]
--繰り返し ? + *
--グループ化 ()
--or(論理和) |
--文頭 ^、文末 $
***正規表現の応用 [#c7a3ea2d]
--カタカナ語
--送りがなの揺れ(行う/行なう)
--''全然~ない。''
--会話文中(''「''で始まる)
***タグ付き正規表現 [#qc4ff17d]
-走[らりるれろ] でGrepした結果を置換するにはどうしたらい...
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ]
---置換文字列:★走[らりるれろ]
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)...
-[[授業資料/タグつき正規表現]]
**第3回 2009/04/24 テキストエディタの利用 [#h5039c4a]
-復習
--検索で初出行を調べる
--置換で用例数を数える
-grepとタグジャンプ
--grep
--タグジャンプ
--grep結果の保存
***grepと置換でKWIC(CSVファイル)を作る [#u3ab2d6f]
-grep結果の置換による整形
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://e-words.jp/w/CSV.html]]
-CSVファイルをExcelで開く
-KWIC:KeyWord In Context
***テキストファイルと拡張子 [#c15ea011]
-[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%...
-拡張子辞典:http://jisyo.com/viewer/list/list.html
-TXT,CSV,HTM・・・
***ショートカットキー [#f0022be4]
-[[授業資料/覚えておきたいショートカットキー]]
***正規表現とは [#d216d4e0]
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE...
--文字を表すための特殊な文字(メタ文字)
--置換・検索・grepで利用できる
--記号はすべて半角
--特殊文字そのものを表す場合には\でエスケープする(特殊な...
-文字クラス [ ]
-文字クラスの否定(補集合)[^ ]
(続きは次回)
**第2回 2009/04/17 テキストデータとテキストエディタ [#...
***コーパスについて [#k44345b6]
この授業ではBCCWJ(モニター公開版)・太陽コーパスのほか、...
-狭義のコーパス 言語研究を目的として収集され、言語研究の...
--Kotonoha (BCCWJ / CSJ / 太陽コーパス)
-広義のコーパス コンピュータ上で利用可能な大規模な言語デ...
--さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫...
--Webデータ
---検索サイトの利用
---WAC(Web as Corpus)
***授業で利用する主なソフトウェア [#i06478d2]
|''[[秀丸エディタ>http://hide.maruo.co.jp/software/hidema...
|''[[ひまわり>http://www.kokken.go.jp/lrc/index.php?%C1%B...
|''[[MeCab>http://mecab.sourceforge.net/]]''|形態素解析器...
|''[[UniDic>http://download.unidic.org]]''|形態素解析辞書...
|''[[Excel>http://office.microsoft.com/ja-jp/excel/defaul...
|''[[Access>http://office.microsoft.com/ja-jp/access/defa...
|''[[Word>http://office.microsoft.com/ja-jp/word/default....
このほかにWeb上で利用できるサービスも取り上げます。
最初に、テキストエディタを使ってテキストデータを扱うこと...
-共有フォルダの確認
--マイネットワーク>share>日本語コーパス
***テキストデータ [#wee47413]
全ての基本。テキストデータ≒テキストファイル≒電子化テキスト
-テキストデータとはどんなものか
--[[授業資料/テキストデータとは]]
--[[授業資料/テキストデータ紹介]](広義のコーパス)
---参考 [[『国会会議録を使った日本語研究』>http://www.hit...
#amazon(4894762994)
--[[授業資料/文字コード関連リンク]]
***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
***テキストエディタの基礎 [#l73e457c]
-スタイル行番号(ワープロ的行番号)と論理行番号(エディタ...
--cf. 見た目 と 構造
-検索と置換
-grep
**2009/04/10 イントロダクション [#p494942d]
-[[自己紹介]]
-国語研コーパスの紹介([[KOTONOHA>http://www.kokken.go.jp...
--現代日本語書き言葉均衡コーパス(BCCWJ) [[日本語コーパ...
--日本語話し言葉コーパス(CSJ)
--太陽コーパス
-授業の進め方について
--シラバス確認
-デモンストレーション
--茶まめ(形態素解析)+Excel
-受講者アンケート
--専門・関心領域
--PCスキル
ページ名: