成蹊2012/日本語日本文学のためのコンピュータ
の履歴(No.25)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
成蹊2012/日本語日本文学のためのコンピュータ
へ行く。
1 (2012-09-21 (金) 10:10:10)
2 (2012-09-21 (金) 11:34:56)
3 (2012-09-27 (木) 23:11:43)
4 (2012-10-04 (木) 19:45:47)
5 (2012-10-05 (金) 14:47:40)
6 (2012-10-10 (水) 17:57:04)
7 (2012-10-11 (木) 22:46:29)
8 (2012-10-18 (木) 14:40:14)
9 (2012-10-19 (金) 14:34:28)
10 (2012-10-22 (月) 10:33:48)
11 (2012-11-01 (木) 23:27:01)
12 (2012-11-02 (金) 15:09:11)
13 (2012-11-08 (木) 13:25:24)
14 (2012-11-15 (木) 15:11:58)
15 (2012-11-16 (金) 02:01:47)
16 (2012-11-29 (木) 22:51:51)
17 (2012-11-30 (金) 16:23:37)
18 (2012-12-06 (木) 03:47:41)
19 (2012-12-07 (金) 09:50:26)
20 (2012-12-07 (金) 09:50:26)
21 (2012-12-13 (木) 15:29:30)
22 (2012-12-13 (木) 23:49:19)
23 (2012-12-14 (金) 10:43:32)
24 (2012-12-14 (金) 14:33:13)
25 (2012-12-20 (木) 22:38:18)
26 (2012-12-21 (金) 14:29:01)
27 (2013-01-10 (木) 02:10:10)
28 (2013-01-11 (金) 14:29:21)
成蹊2012
日本語・日本文学を学んでいくうえでぜひ身につけておきたいコンピュータに関する知識・技術を学びます。
後期・金曜4限
ogiso@ogiso.net
2012/12/21 レポートテーマに関する調査
各自のレポートテーマ(先週のものから変えても可)について調査してください。
個別に見て回ります。積極的に質問してください。
↑
2012/12/14 レポートテーマの検討
各自のレポートテーマを確認します。
各自のレポートテーマについて調査してください。
↑
現代語コーパスとの比較
「現代日本語書き言葉均衡コーパス(BCCWJ)」『少納言』
http://shonagon.ninjal.ac.jp
↑
調整頻度の計算
作家ごと、年ごとに文章量が大きく違うので、調整頻度に直して比較する
語数はわからないので文字数を使う(たとえば10000文字当たり何回出現するか)
Himawari青空文庫・文字数データ ダウンロード
Aozora2009GWchars.xls
割合を比較するならよいが、頻度で比較するときには粗頻度は使えない
↑
調査の参考例
「障碍」「障害」
ケーススタディ/障がい
「それぎり」と「それきり」
「~的の」「~的な」
「気持ち」「心持ち」
↑
2012/12/7 ひまわりとExcel(2)
↑
ひまわりの検索結果をピボットテーブルで集計(2)
分類用のフィールドを作って集計する
例:「新聞紙」の意味・用法の変化
サンプリング調査
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =rand()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
ひまわりの使い方補足
ひまわりの検索結果をエディタ(正規表現を使った置換)で加工する
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
ひまわりのキー範囲
↑
ひまわりで利用可能なデータについて
†
国会会議録データ
Web Collaboration : /temporary/ogiso/Himawari_kokkai.zip
青空文庫・国会会議録以外のデータ紹介
現代語のデータ
法令データベース
口コミサイト
古典文学作品のデータ
近代語のデータ
太陽コーパス
近代情勢雑誌コーパス
明六雑誌コーパス
国定高等小学読本
↑
レポートについて
レポートテーマ確認(第1回)来週
↑
2012/11/30 ひまわりとExcel
↑
検索結果をExcelで使う
†
列名
前文脈
キー
後文脈
著者
タイトル
著者ID
生年
没年
原著者
原著者ID
仮名遣い
コーパス名
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
複数の条件指定
ピボットテーブル
ピボットグラフ
文字列処理関数
例: =left(<文字列>,<文字数>)
生年代: =left(<生年が入っているセル>,3)*10
↑
レポートテーマについて(予告)
†
授業で紹介したエディタや表計算ソフトの使い方を活かして、用例を元にしてたとえば次のようなテーマでレポートをまとめてもらいます。データは授業で配布したものを自由に利用してください。
例:作家ごとの言葉の使い方の違い
例:類義語の意味の違い
例:語の用法の変化
例:語形・(表記)のゆれ
などなど
↑
2012/11/16 (休講)
学会出張
のため休講です。
↑
2012/11/09 全文検索システム「ひまわり」
↑
「ひまわり」とは
†
「ひまわり」
国立国語研究所/言語データベースとソフトウェア/ひまわり
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
↑
データの準備
青空文庫
(XHTML)データ
WebCollaborationからUSBメモリにダウンロード
↑
ひまわりと正規表現
†
「ひまわり」で使用できる正規表現
↑
2012/11/02 タグ付き正規表現
↑
タグ付き正規表現
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
授業資料/タグつき正規表現
↑
タグ付き正規表現の応用
(参考)タグ付き正規表現の応用:
grepと置換でKWICを作る
↑
最長一致の原則(greedy matching)
†
正規表現は、パターンが一致する最も長い範囲にマッチする
例:
「(.+)」
→
【\1】
「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
「([^」]+)」
→
【\1】
のように書けばよい
「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
最短一致を指定するには(ものぐさ指定)
「(.+?)」「(.*?)」
のように、繰り返し指定の+*の後に「?」をつける
↑
正規表現に関する参考資料
†
サクラエディタの正規表現:
http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本
amazonで検索
#amazon(4873114500) #amazon(4873113598)
↑
2012/10/19 正規表現の応用
新しいテキストデータ(青空文庫)の配布
「。」で改行し、ルビや中を取り去ったテキスト
Web Collaboration : /temporary/ogiso/aozoradoc2.zip
Web Collaboration : /temporary/ogiso/aozoradoc2_soseki.zip (漱石のみ抜きだした練習用)
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
正規表現のいろいろ (前回のつづき)
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
正規表現の応用
†
カタカナ語
送りがなの揺れ(行う/行なう)
会話文中("「"で始まる文中)の用例を検索する
同一文中での共起
全然~ない。
↑
2012/10/12 正規表現
↑
テキストエディタの復習
置換で用例数を数える
grepとタグジャンプ
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
記号はすべて半角
特殊文字そのものを表す場合には\でエスケープする(特殊な意味を打ち消す) 例:1\+2
文字クラス [ ]
文字クラスの補集合(それ以外の文字)[^ ]
↑
正規表現のいろいろ
†
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
2012/10/05 テキストエディタの利用
テキストデータ(青空文庫)の配布
Web Collaboration : /temporary/ogiso/aozoradoc.zip
ダウンロードしてUSBメモリに展開(解凍)します
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
サブフォルダのgrep
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
正規表現を使ってみる
†
キャラクタクラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
2012/09/28 テキストデータとテキストエディタ
USBメモリの準備
次回の授業からUSBメモリを使います。2G(なるべく4G)以上の空きのあるUSBメモリを用意してください。
↑
テキストデータ
すべての基本、文字が並ぶだけのデータ
授業資料/テキストデータとは
バイナリファイルとテキストファイル
TXT,CSV,HTM・・・
ファイルの種類と拡張子 参考:
拡張子辞典
拡張子(wikipedia)
授業で使うテキストデータ
授業資料/テキストデータ紹介
↑
テキストエディタ
†
テキストエディタとはどんなものか
授業資料/テキストエディタ
サクラエディタのダウンロードとインストール
サクラエディタのダウンロード:sakura.zip
(参考) サクラエディタホームページ:
http://sourceforge.net/projects/sakura-editor/
zipファイルの展開(解凍)
解凍しないままでも開けるが必ず解凍すること
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ
soseki.zip
↑
2012/09/21
↑
イントロダクション
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
http://www.ninjal.ac.jp/
日本語コーパスKOTONOHA
BCCWJ
少納言
形態素解析辞書UniDic
デモ
テキストエディタ grep
全文検索システム
ひまわり
シラバス確認
シラバス
この授業の目的
授業の進め方
評価方法
前期の日本語学講義Eとの違い
できあがったコーパスを利用する(前期) vs. できるだけ自分で何とかする(後期)
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
sakura2
検索・整形
全文検索ソフト
ひまわり
検索・分析
表計算ソフト
Excel
分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成