*日本言語研究(講義)
**コーパス日本語学入門
-前期 金2 (2単位)
-連絡先:ogiso@ogiso.net


**2011/05/27 タグ付き正規表現
--青空文庫テキストデータ


-走[らりるれろ] でGrepした結果を置換するにはどうしたらいいか
--次のように置換するととんでもないことに…
---検索文字列:走[らりるれろ] 
---置換文字列:★走[らりるれろ] 
-タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
-[[授業資料/タグつき正規表現]]


***最長一致の原則(greedy matching) [#y047e9bd]
-正規表現は、パターンが一致する最も長い範囲にマッチする
--例:''「(.+)」'' → ''【\1】''
---「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
--''「([^」]+)」'' → ''【\1】'' のように書けばよい
---「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
-最短一致を指定するには(ものぐさ指定)
--''「(.+?)」「(.*?)」''のように、繰り返し指定の+*の後に「?」をつける

***後方参照
-(..)\1

***ひまわり
-デモ
-動作チェック


**2011/05/20 正規表現を使う

***正規表現とは
-''正規表現'' [[>用語>http://e-words.jp/w/E6ADA3E8A68FE8A1A8E78FBE.html]]
--文字を表すための特殊な文字(メタキャラクタ)
--置換・検索・grepで利用できる
---メタキャラクタはすべて半角
---キャラクタそのものを表す場合には\でエスケープする(特別な意味を打ち消す)
---例:1\+2 ※「\」は「¥」の半角
-[[授業資料/正規表現]]
-''Unicodeでは漢字の正規表現は次のものを使ってください''
--[一-龠]

***正規表現の応用 [#c7a3ea2d]
--漢語サ変動詞を検索する
--カタカナ語のリストを作る
--副詞の呼応の例を検索する 「全然~ない。」
--会話文中("「"で始まる文中)の用例を検索する
--同一文中での共起

#amazon(4873111706)
#amazon(4873113598)
#clear


**2011/05/13 テキストエディタと正規表現

***復習
--検索・置換
--grepとタグジャンプ

***ショートカットキー [#da449f25]
-[[授業資料/覚えておきたいショートカットキー]]


***grepと置換で簡易KWIC(CSVファイル)を作る[#u3ab2d6f]
-CSVファイルとは:テキストファイルで表を表現する
[[用語:CSVファイル>http://www.microsoft.com/japan/Terminology/query.asp?id=3334&q=CSV&kbid=&key=&ui=L&dev=]]
-KWIC:KeyWord In Context

**正規表現

***正規表現を使ってみる [#u471d57b]
-キャラクタクラス
--例:読[まみむめもん]
---半角ブラケットの中に文字を並べる→並べた文字いずれか1文字


**2011/05/06 テキストエディタ
--[[授業資料/テキストデータ紹介]]

-参考:[[文字化けはなぜ起きるか>http://pc.nikkeibp.co.jp/article/NPC/20080116/291169/]](日経パソコンPC online)

***テキストエディタ [#q7ae852c]
-テキストエディタとはどんなものか
--[[授業資料/テキストエディタ]]
-テキストエディタ選び
--[[Sakura Editor>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=sakura.zip&refer=%C5%EC%B5%FE%B3%B0%C2%E72011]]

**テキストエディタの利用

-[[サンプルデータ(青空文庫夏目漱石unicode版)>http://home.ogiso.net/wiki/pukiwiki.php?plugin=attach&pcmd=open&file=%A4%CA%A4%C4%A4%E1%A4%BD%A4%A6%A4%BB%A4%AD%A1%CA%B2%C6%CC%DC%DE%FB%C0%D0%A1%CB.zip&refer=%C5%EC%B5%FE%B3%B0%C2%E72011]]のダウンロード

-圧縮ファイルの展開(解凍)
--圧縮・展開ソフト(アーカイバ [[用語>http://e-words.jp/w/E382A2E383BCE382ABE382A4E38390.html]])

-テキストエディタの設定
--行の折り返し
--行番号表示
---スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)

-検索・置換、grep
--検索で初出行を調べる
--置換で用例数を数える

--USBメモリ(1GB以上の空き)の準備

**2011/04/22 テキストファイルとテキストエディタ

-授業ページへのショートカット

***先週の補足

-コーパスとは
:狭義のコーパス|言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
:広義のコーパス|コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

***授業で利用する主なソフトウェア [#i06478d2]
|テキストエディタ|検索・整形|
|[[全文検索ソフト''ひまわり''>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]|検索・分析|
|表計算ソフト''Excel''|分析・グラフ作成|
|ワープロ''Word''|「スタイル」を利用したレポート作成|

-デモ
--''[[コーパス検索ツール:中納言>http://morph.kotonoha.gr.jp/login.aspx]]''
--形態素解析

***テキストデータ
--[[授業資料/テキストデータとは]] 
--バイナリファイルとテキストファイル
--ファイルの種類と拡張子 参考:[[拡張子辞典>http://www.jisyo.com/viewer/]]
--[[拡張子(wikipedia)>http://ja.wikipedia.org/wiki/%E6%8B%A1%E5%BC%B5%E5%AD%90]]
--テキストファイルとHTML

-TXT,CSV,HTM・・・

//htmlのごく簡単な入門
-授業で使うテキストデータ


**2011/04/15 イントロダクション
-[[自己紹介]]
--大学共同利用機関法人人間文化研究機構 国立国語研究所 http://www.ninjal.ac.jp/
-コーパスとは
---[[日本語コーパスKOTONOHA>http://www.ninjal.ac.jp/kotonoha/]]
---[[KOTONOHA検索デモサイト>http://www.kotonoha.gr.jp/demo/]]
---[[形態素解析辞書UniDic>http://download.unidic.org/]]

-[[シラバス>http://home.ogiso.net/wiki/pukiwiki.php?%C5%EC%B5%FE%B3%B0%C2%E72011]]確認
--この授業の目的
--授業の進め方
--評価方法


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS