成蹊2016/日本語日本文学のためのコンピュータ
の履歴(No.29)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
成蹊2016/日本語日本文学のためのコンピュータ
へ行く。
1 (2016-04-07 (木) 22:02:22)
2 (2016-04-08 (金) 08:21:47)
3 (2016-04-08 (金) 08:22:30)
4 (2016-04-14 (木) 16:54:32)
5 (2016-04-15 (金) 08:34:18)
6 (2016-04-22 (金) 05:16:33)
7 (2016-04-22 (金) 05:16:33)
8 (2016-04-28 (木) 17:07:01)
9 (2016-04-29 (金) 09:20:01)
10 (2016-05-05 (木) 20:14:50)
11 (2016-05-07 (土) 17:30:53)
12 (2016-05-12 (木) 23:09:55)
13 (2016-05-13 (金) 10:17:21)
14 (2016-05-19 (木) 23:56:10)
15 (2016-05-20 (金) 08:13:17)
16 (2016-05-26 (木) 17:44:02)
17 (2016-05-27 (金) 04:58:28)
18 (2016-05-27 (金) 04:58:28)
19 (2016-06-03 (金) 09:05:56)
20 (2016-06-03 (金) 12:17:29)
21 (2016-06-03 (金) 12:17:29)
22 (2016-06-10 (金) 10:53:02)
23 (2016-06-16 (木) 22:31:28)
24 (2016-06-17 (金) 08:23:14)
25 (2016-06-17 (金) 12:19:04)
26 (2016-06-24 (金) 09:21:31)
27 (2016-06-24 (金) 12:25:35)
28 (2016-07-01 (金) 10:53:26)
29 (2016-07-07 (木) 17:10:20)
30 (2016-07-08 (金) 07:32:42)
31 (2016-07-15 (金) 04:23:08)
成蹊2016
日本語・日本文学のためのコンピュータ
日本語学・日本文学を研究していく上で必要なコンピュータの知識・技術(テキストエディタ・正規表現・表計算ソフト・文書の構造化)を学びます。
前期2限
7号館3階 301パソコン教室
ogiso@ogiso.net ←@を@に直してください
↑
のこり回数
7/15(Word), 7/22(まとめ)
↑
2016/7/8
レポートテーマ予備調査結果発表(ライトニングトーク)
↑
2016/7/1
↑
レポートテーマに関する調査
各自のレポートテーマ(先週のものから変えても可)について調査してください。
個別に見て回ります。積極的に質問してください。
注意
パソコン・ネットだけでは十分な調査はできません。図書館を利用してください。(参考文献は明記すること)
最低限『日本国語大辞典』等のしっかりした辞典にあたっておくこと。
↑
2016/6/24
↑
現代語との比較 ―BCCWJ少納言
1億語の
「現代日本語書き言葉均衡コーパス」
の文字列検索
http://www.kotonoha.gr.jp/shonagon/
「気持ち」「心持」を例に、青空文庫の集計結果と比較
BCCWJ内部でも生年による違いがある
↑
形態素解析
Web茶まめ
http://chamame.ninjal.ac.jp/
授業資料/形態素解析
形態素解析結果の集計・分析
↑
2016/6/17
↑
レポートテーマについて
↑
調整頻度の計算
たとえば一つの語の用例数を作家別で比較するとき、単純な用例数(粗頻度)では、作家ごとに文章量が大きく違うので、直接比べられない。
一定の文字数ごとの頻度のような調整頻度に直して比較する
本来なら語数が望ましいが、青空文庫データでは語数がわからないので文字数を使う
=用例数/作品の総語数*1000000 (100万文字あたり何回出現するか)
※「それきり」「それぎり」のように割合を作家ごとに比較する場合には調整頻度は必要ない
作品別の用例数と作品の総文字数の入ったリストは、「ひまわり」で検索した後にメニューの「ツール」→「統計」→「キー,作品」で取得できる
このリストをピボットテーブルで集計することで、作家別の調整頻度を計算することができる
↑
2016/6/10 Excelによる集計(2)
↑
分類用の列を作って集計する
入力用の列を作り手作業で意味分類する
例:「新聞紙」の意味・用法の変化
↑
サンプリング調査
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =RAND()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
ひまわりで利用可能なデータについて
†
現代語のデータ
国会会議録データ
法令データベース
口コミサイト
近代語のデータ
太陽コーパス
近代女性雑誌コーパス
明六雑誌コーパス
国定高等小学読本
古典文学作品のデータ
調査例:「障碍」「障害」
ケーススタディ/障がい
↑
レポートについて
レポートテーマ確認(第1回)来週
↑
2016/6/3 Excelによる集計
↑
(復習)ひまわり検索結果をExcelで扱う
†
ピボットテーブルとピボットグラフ
例:「それきり」「それぎり」
例:「~的な」「~的の」
※「目的」「標的」などをフィルタで除去
↑
ひまわりによる検索・補足
振り仮名の検索
正規表現を使った検索
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
↑
生年代による集計(通時的変化)
文字列処理関数の利用
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
生年月日データの書式について
「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ
1900年以前の年月日は文字列、それ以降は日付として認識される
Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
Excelで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
Excelに貼り付ける
↑
レポートテーマについて(予告)
†
授業で紹介したエディタや表計算ソフトの使い方を活かして、たとえば次のようなテーマでレポートをまとめてもらいます。データは授業で配布・紹介したものを自由に利用してください。
例:作家ごとの言葉の使い方の違い
例:類義語の意味の違い
例:語の用法の変化
例:語形・(表記)のゆれ
などなど
↑
2016/5/20
↑
前回小テスト解説
↑
「ひまわり」とその使い方
ひまわりの動作確認
検索方法の説明
↑
ひまわり検索結果をExcelで扱う
†
例:
「気持ち」「心持ち」
↑
Excelの基本操作
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル★
ピボットグラフ
↑
「ひまわり」と「青空文庫パッケージ」のインストールまとめ
ひまわり本体のダウンロード
ひまわり のダウンロードページ
からプログラム本体をダウンロード
ダウンロードしたファイルのセキュリティブロックを解除
解凍後、フォルダごとUSBメモリにコピー
青空文庫パッケージのダウンロード
ひまわり用「青空文庫」パッケージのダウンロードページ
から「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
USBメモリにコピーしたフォルダ内のhimawari.exeを起動
メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
しばらく待つと完了(数分から10分程度はかかる)
要らなくなったファイルの削除
PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する
↑
2016/5/13
↑
ひまわり
青空文庫パッケージのインストール
↑
「ひまわり」とその使い方
検索方法の説明
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
↑
ひまわり検索結果をExcelで扱う
†
ピボットテーブルを使ってみる
↑
正規表現小テスト
↑
2016/5/6
今回からUSBメモリが必須です。忘れた場合は次回までに今日の内容と同じ処理を自分でしておいて下さい。
↑
タグ付き正規表現(再掲)
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
授業資料/タグつき正規表現
↑
検索文字列の中での後方参照
†
検索語の中で\1を使う
(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
↑
最長一致の原則(greedy matching)
†
正規表現は、パターンが一致する最も長い範囲にマッチする
例:
あ+
→
【\1】
ああああああああ → 【ああああああああ】 そのせいで…
例:
「(.+)」
→
【\1】
「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
括弧の組ごとに置換するためには
「([^」]+)」
→
【\1】
のように書かなければならない
「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
よりかんたんに指定するには(最短一致,ものぐさ指定)
「(.+?)」「(.*?)」
のように、繰り返し指定の+*の後に「?」をつける
↑
正規表現に関する参考資料
†
サクラエディタの正規表現:
http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本
amazonで検索
#amazon(4873114500) #amazon(4873113598)
(参考)タグ付き正規表現の応用:
grepと置換でKWICを作る
↑
全文検索システム「ひまわり」について
全文検索システム「ひまわり」
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
ひまわり のダウンロードページ
プログラム本体
ひまわり用「青空文庫」パッケージのダウンロードページ
検索対象のデータセット
↑
「ひまわり」の導入
動作確認
↑
2016/4/29(祝日/授業実施日)
↑
正規表現
今日の練習用テキストデータ
soseki2.zip
(前回と同じもの)
↑
テキストエディタ・正規表現(文字クラス)の復習
文字クラス
例:読[まみむめもん]
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
正規表現のいろいろ
†
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
正規表現の応用
†
カタカナ語
カタカナ(外来語)の形容動詞語幹
送りがなの揺れ(行う/行なう)
会話文中("「"で始まる文中)の用例を検索する
同一文中での共起
全然~ない。
もし~なら(ば)
↑
タグ付き正規表現
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
授業資料/タグつき正規表現
↑
2016/4/22 テキストエディタの利用
今回からUSBメモリを利用します。
テキストデータ(青空文庫)の配布
soseki2.zip
(今日の授業で使います)
aozoradoc2.zip
(青空文庫全テキスト・参考)
ダウンロードしてUSBメモリに展開(解凍)してください
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
サブフォルダのgrep
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
特殊な文字(メタ文字)はすべて半角
授業資料/正規表現
文字クラス [ ]
文字クラスの補集合(それ以外の文字)[^ ]
↑
2016/04/15 テキストデータとテキストエディタ
USBメモリの準備
次回の授業からUSBメモリを使います。2GB(できれば4GB)以上の空きのあるUSBメモリを用意してください。
↑
テキストデータ
すべての基本、文字が並ぶだけのデータ
授業資料/テキストデータとは
バイナリファイルとテキストファイル
TXT,CSV,HTM・・・
ファイルの種類と拡張子 参考:
拡張子辞典
拡張子(wikipedia)
授業で使うテキストデータ
授業資料/テキストデータ紹介
↑
テキストエディタ
†
テキストエディタとはどんなものか
授業資料/テキストエディタ
サクラエディタのダウンロードとインストール
★
サクラエディタのダウンロード:sakura2.zip
(参考) サクラエディタホームページ:
http://sourceforge.net/projects/sakura-editor/
zipファイルの展開(解凍)
解凍しないままでも開けるが必ず解凍すること
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石+芥川)
sample.zip
↑
2016/04/08 イントロダクション
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
http://www.ninjal.ac.jp/
コーパス開発センター
デモ
テキストエディタとgrep
全文検索システム
ひまわり
Excel(ピボットテーブル)
形態素解析:
Web茶まめ
シラバス確認
シラバス
(PDF)
この授業の目的
授業の進め方
評価方法
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
sakura2
正規表現を使ったテキストの検索・整形
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成