清泉2020集中
の履歴(No.8)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
清泉2020集中
へ行く。
1 (2020-08-17 (月) 08:42:15)
2 (2020-08-17 (月) 08:45:01)
3 (2020-08-18 (火) 02:52:58)
4 (2020-08-18 (火) 10:07:01)
5 (2020-08-18 (火) 20:39:21)
6 (2020-08-19 (水) 00:48:43)
7 (2020-08-19 (水) 12:34:01)
8 (2020-08-19 (水) 20:38:53)
9 (2020-08-20 (木) 10:05:41)
10 (2020-08-20 (木) 21:53:58)
11 (2020-08-21 (金) 07:54:29)
12 (2020-08-23 (日) 20:36:39)
2020清泉女子大学 集中講義
†
10:00 - 15:30
オンライン(Zoom)
学びの泉:
授業ページ
シラバス:
清泉ポータル シラバス参照
日程
8月18日(火)
8月19日(水)
8月20日(木)
8月21日(金)
9月7日(月)
2020清泉女子大学 集中講義
8月18日(火)
第1回 イントロダクション
自己紹介
授業内容の紹介
授業で利用する主なソフトウェア・Webアプリケーション
デモ
シラバス確認
受講者アンケート
国語研のコーパス利用申し込み(「中納言」)
第2回 電子化テキストとテキストエディタ
文字コード
テキストデータとは
テキストエディタ
サクラエディタのダウンロードとインストール
テキストエディタを使ってみる
テキストエディタの基本
ショートカットキー
grepと置換でKWIC(CSVファイル)を作る(簡易版)
参考:テキストデータ(青空文庫)の配布
第3回 テキストエディタと正規表現
正規表現を使ってみる
正規表現とは
正規表現のいろいろ
8月19日(水)
「中納言」申し込み状況の確認
第4回 正規表現の応用/タグ付き正規表現
正規表現の応用
タグ付き正規表現とは
検索文字列の中での後方参照
最長一致の原則(greedy matching)
正規表現に関する参考資料
第5回 全文検索ソフト「ひまわり」
全文検索システム「ひまわり」について
「ひまわり」本体のインストール
「青空文庫パッケージ」のインストール
「ひまわり」の使い方
第6回 Excelによる検索結果の集計(ピボットテーブル)
ひまわりの検索結果をExcelに
Excelの基本操作
ひまわり検索結果をExcelで扱う
生年代による集計(通時的変化)
分類用の列を作って集計する
サンプリング調査
ひまわりで利用可能なデータについて
第7回 日本語コーパスの紹介
コーパスとは
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング
「日本語歴史コーパス」(CHJ)の構成
↑
8月18日(火)
†
↑
第1回 イントロダクション
†
↑
自己紹介
†
大学共同利用機関法人人間文化研究機構 国立国語研究所
https://www.ninjal.ac.jp/
コーパス開発センター
↑
授業内容の紹介
†
↑
授業で利用する主なソフトウェア・Webアプリケーション
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
正規表現を使ったテキストの検索・整形
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成
コーパス検索アプリケーション
「中納言」
コーパスの検索
Web茶まめ
形態素解析
↑
デモ
†
テキストエディタとgrep
全文検索システム
ひまわり
「現代日本語書き言葉均衡コーパス(BCCWJ)」
BCCWJ
少納言
中納言
「日本語歴史コーパス(CHJ)」
Excelによる集計(ピボットテーブル)
形態素解析
Web茶まめ
↑
シラバス確認
†
シラバス:
清泉ポータル シラバス参照
この授業の目的
授業の進め方
評価方法
↑
受講者アンケート
†
関心分野・時代
PC歴
↑
国語研のコーパス利用申し込み(「中納言」)
†
「中納言」オンライン利用申込み
https://chunagon.ninjal.ac.jp/useraccount/register
↑
第2回 電子化テキストとテキストエディタ
†
↑
文字コード
†
㋿(令和)の話
授業資料/文字コード関連リンク
↑
テキストデータとは
†
すべての基本、文字が並ぶだけのデータ
授業資料/テキストデータとは
バイナリファイルとテキストファイル
TXT,CSV,HTM・・・
ファイルの種類と拡張子 参考:
拡張子辞典
拡張子(wikipedia)
授業資料/テキストデータ紹介
↑
テキストエディタ
†
テキストエディタとはどんなものか
授業資料/テキストエディタ
↑
サクラエディタのダウンロードとインストール
†
★
サクラエディタのダウンロード
(参考) サクラエディタホームページ:
https://sakura-editor.github.io/
インストールの手順
ダウンロードしたzipファイルの中にあるsakura-install*.exeをデスクトップにコピー
exeファイルを右クリックして「セキュリティ」の右の「許可する」をチェックして「OK」
ダブルクリックしてインストール
↑
テキストエディタを使ってみる
†
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石+芥川)
sample.zip
★サンプルデータ2(漱石・文末で改行)
soseki2.zip
(夏目漱石作品)
↑
テキストエディタの基本
†
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
サブフォルダのgrep
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
参考:テキストデータ(青空文庫)の配布
†
aozoradoc2.zip
(青空文庫全テキスト)
必要な人のみダウンロードしてUSBメモリで持ち帰ってください
↑
第3回 テキストエディタと正規表現
†
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
エディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
特殊な文字(メタ文字)はすべて半角
↑
正規表現のいろいろ
†
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
8月19日(水)
†
↑
「中納言」申し込み状況の確認
†
ログインの確認
https://chunagon.ninjal.ac.jp/
↑
第4回 正規表現の応用/タグ付き正規表現
†
↑
正規表現の応用
†
カタカナ語
カタカナ(外来語)の形容動詞語幹
送りがなの揺れ(行う/行なう)
会話文中("「"で始まる文中)の用例を検索する
同一文中での共起
全然~ない。
もし~なら(ば)
↑
タグ付き正規表現とは
†
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現・カッコ(半角丸カッコ)と\1(\2,\3…)を使う
授業資料/タグつき正規表現
↑
検索文字列の中での後方参照
†
検索語の中で\1を使う
(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
↑
最長一致の原則(greedy matching)
†
正規表現は、パターンが一致する最も長い範囲にマッチする
例:
あ+
→
【\1】
ああああああああ → 【ああああああああ】 そのせいで…
例:
「(.+)」
→
【\1】
「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
括弧の組ごとに置換するためには
「([^」]+)」
→
【\1】
のように書かなければならない
「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
よりかんたんに指定するには(最短一致,ものぐさ指定)
「(.+?)」「(.*?)」
のように、繰り返し指定の+*の後に「?」をつける
(参考)タグ付き正規表現の応用:
grepと置換でKWICを作る
↑
正規表現に関する参考資料
†
サクラエディタの正規表現:
https://sakura-editor.github.io/help/HLP000089.html
正規表現に関する本
amazonで検索
↑
第5回 全文検索ソフト「ひまわり」
†
↑
全文検索システム「ひまわり」について
†
全文検索システム「ひまわり」
ただのテキストファイル(プレーンテキスト)ではなく、XML形式にして、インデックスを付けた専用のデータを利用
ひまわり のダウンロードページ
プログラム本体
ひまわり用「青空文庫」パッケージのダウンロードページ
検索対象のデータセット
↑
「ひまわり」本体のインストール
†
ひまわり のダウンロードページ
からプログラム本体をダウンロード
ダウンロードしたファイルのセキュリティブロックを解除
解凍後、フォルダごとUSBメモリにコピー
↑
「青空文庫パッケージ」のインストール
†
青空文庫パッケージのダウンロード
ひまわり用「青空文庫」パッケージのダウンロードページ
から「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
USBメモリにコピーしたフォルダ内のhimawari.exeを起動
Himawari画面上にダウンロードしたzipファイルをドラッグ&ドロップ
*1
しばらく待つと完了(数分から10分程度はかかる)
要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する
↑
「ひまわり」の使い方
†
ひまわりの動作確認
検索方法の説明
ひまわりの正規表現について(
授業資料/Himawariの正規表現
)
振り仮名の検索
↑
第6回 Excelによる検索結果の集計(ピボットテーブル)
†
↑
ひまわりの検索結果をExcelに
†
検索結果のコピー
すべて選択>コピー(列名を含む)
Excelを起動して貼り付け
↑
Excelの基本操作
†
並べ替え(ソート)
フィルター(絞り込み)
テキストフィルター
多重フィルター(複数の条件指定)
ピボットテーブル★
ピボットグラフ
↑
ひまわり検索結果をExcelで扱う
†
ピボットテーブルとピボットグラフ
例:「気持ち」「心持ち」
例:「それきり」「それぎり」
例:「~的な」「~的の」
※「目的」「標的」などをフィルタで除去
↑
生年代による集計(通時的変化)
†
文字列処理関数の利用
例: =left(<文字列>,<文字数>)
生年代: =left(<生年月日が入っているセル>,3)*10
生年月日データの書式について
「青空文庫」の生年月日が書式の自動変換でおかしくなるのを防ぐ
1900年以前の年月日は文字列、それ以降は日付として認識される
Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
新しいExcelのシートで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
Excelに貼り付ける
↑
分類用の列を作って集計する
†
入力用の列を作り手作業で意味分類する
例:「新聞紙」の意味・用法の変化
↑
サンプリング調査
†
大量に用例があり、調査内容からすべて対象にできない場合
ランダムに並べ替え→先頭n例を調査対象に
ランダムな数字の列: =RAND()
ランダムな数字の列をコピーして値として貼り付けると数字が固定される
↑
ひまわりで利用可能なデータについて
†
現代語のデータ
国会会議録データ
法令データベース
口コミサイト
近代語のデータ
太陽コーパス
近代女性雑誌コーパス
明六雑誌コーパス
国定高等小学読本
古典文学作品のデータ
↑
第7回 日本語コーパスの紹介
†
資料配布(「中納言」の使い方,「中納言」による検索)
↑
コーパスとは
†
狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。
この授業で扱うのは狭義のコーパス。中でも「現代日本語書き言葉均衡コーパス(BCCWJ)」
↑
「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング
†
http://pj.ninjal.ac.jp/corpus_center/bccwj/
(スライド参照)
コーパスの設計とサンプリング
均衡コーパス(Balanced corpus)
「バランスがとれている」「代表性」とは?
コーパスの母集団の設定とサンプリング
BCCWJのサブコーパス
可変長と固定長
著作権をめぐる問題
↑
「日本語歴史コーパス」(CHJ)の構成
†
http://pj.ninjal.ac.jp/corpus_center/chj/
*1
または、メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定