成蹊2021/応用日本語講座
の履歴(No.14)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
成蹊2021/応用日本語講座
へ行く。
1 (2021-04-07 (水) 00:39:16)
2 (2021-04-07 (水) 01:20:42)
3 (2021-04-09 (金) 10:34:54)
4 (2021-04-09 (金) 19:24:04)
5 (2021-04-09 (金) 19:24:04)
6 (2021-04-16 (金) 02:48:34)
7 (2021-04-16 (金) 21:25:46)
8 (2021-04-23 (金) 03:51:46)
9 (2021-04-23 (金) 18:22:26)
10 (2021-04-30 (金) 08:35:22)
11 (2021-04-30 (金) 18:36:18)
12 (2021-04-30 (金) 18:36:18)
13 (2021-05-07 (金) 03:43:40)
14 (2021-05-07 (金) 09:02:43)
15 (2021-05-13 (木) 23:51:27)
16 (2021-05-14 (金) 07:32:05)
17 (2021-05-14 (金) 19:24:11)
18 (2021-05-21 (金) 03:57:36)
19 (2021-05-21 (金) 03:57:36)
20 (2021-05-28 (金) 09:47:31)
21 (2021-05-28 (金) 19:37:52)
22 (2021-05-29 (土) 02:02:06)
23 (2021-06-04 (金) 19:36:56)
24 (2021-06-04 (金) 22:42:14)
25 (2021-06-10 (木) 00:58:23)
26 (2021-06-11 (金) 15:42:40)
27 (2021-06-11 (金) 22:39:53)
28 (2021-06-18 (金) 19:36:03)
29 (2021-06-18 (金) 22:44:07)
30 (2021-06-25 (金) 10:16:13)
31 (2021-06-25 (金) 19:12:38)
32 (2021-07-02 (金) 05:21:30)
33 (2021-07-09 (金) 01:46:26)
成蹊2021
応用日本語講座(日本語・日本文学のためのコンピュータ)
†
金曜2限:
10:40~12:20
Mail:
ogiso@ogiso.net
CoursePower(成蹊大学)授業ページ
今年度この授業はZoomによるリアルタイムのオンライン講義の形で行います。
授業のZoomのアドレスは下記のリンク先(CoursePower授業ページ)で確認してください。
https://lms.seikei.ac.jp/lms/lginLgir/index?target=dzlQj4fO
授業のZoomのアドレスは毎回同じです。
↑
2021/05/07 正規表現2(タグ付き正規表現)
†
今日の練習用テキストデータ
soseki2.zip
(前回と同じもの)
↑
正規表現の応用
†
カタカナ語
カタカナ(外来語)の形容動詞語幹
送りがなの揺れ(行う/行なう)
会話文中("「"で始まる文中)の用例を検索する
同一文中での共起
全然~ない。
もし~なら(ば)
↑
タグ付き正規表現
†
走[らりるれろ] でgrepした結果を置換するにはどうしたらいいか
次のように置換するととんでもないことに…
検索文字列:走[らりるれろっ]
置換文字列:★走[らりるれろっ]
タグ付き正規表現:カッコ(半角丸カッコ)と\1(\2,\3…)を使う
授業資料/タグつき正規表現
↑
最長一致の原則(greedy matching)
†
正規表現は、パターンが一致する最も長い範囲にマッチする
例:
あ+
→
【\1】
ああああああああ → 【ああああああああ】 そのせいで…
例:
「(.+)」
→
【\1】
「こんにちは」「さようなら」 → 【こんにちは」「さようなら】
括弧の組ごとに置換するためには
「([^」]+)」
→
【\1】
のように書かなければならない
「こんにちは」「さようなら」 → 【こんにちは】【さようなら】
よりかんたんに指定するには(最短一致,ものぐさ指定)
「(.+?)」「(.*?)」
のように、繰り返し指定の+*の後に「?」をつける
(参考)タグ付き正規表現の応用:
grepと置換でKWICを作る
↑
検索文字列の中での後方参照
†
検索語の中で\1を使う
(..)\1 「ころころ」「毎日毎日」など二文字の繰り返しにマッチ
(.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ
(..)\1\1
(...)\1
↑
正規表現に関する参考資料
†
サクラエディタの正規表現:
http://sakura-editor.sourceforge.net/htmlhelp/HLP000089.html
正規表現に関する本
amazonで検索
↑
2021/04/30 正規表現
†
今日の練習用テキストデータ
soseki2.zip
(前回と同じもの)
↑
テキストエディタ・正規表現(文字クラス)の復習
†
文字クラス
例:読[まみむめもん]
↑
正規表現のいろいろ
†
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
↑
2021/04/23 テキストエディタの利用
†
↑
テキストデータ(青空文庫)の配布
†
★
soseki2.zip
(今日の授業で使います)
(参考:
aozoradoc2.zip
(ちょっと古い青空文庫の全テキスト))
ダウンロードして展開(解凍)してください
↑
復習
†
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
Macでのgrep
ターミナルでgrepを使ってファイル出力しておいてエディタで開く
grep 言葉 ./なつめそうせき(夏目漱石)/*.txt > 言葉.txt
↑
ショートカットキー
†
授業資料/覚えておきたいショートカットキー
Mac のキーボードショートカット
https://support.apple.com/ja-jp/HT201236
↑
grepと置換でKWIC(CSVファイル)を作る(簡易版)
†
CSVファイルとは:テキストファイルで表を表現する
用語:CSVファイル
KWIC:KeyWord In Context
↑
正規表現を使ってみる
†
文字クラス
例:読[まみむめもん]
半角ブラケットの中に文字を並べる→並べた文字いずれか1文字
↑
正規表現とは
†
正規表現
>用語
文字を表すための特殊な文字(メタ文字)を使って文字列のパターンを表現する
テキストエディタでは置換・検索・grepで利用できる (エディタ以外にもさまざまなアプリケ-ションやコンピュータ言語で利用されている)
特殊な文字(メタ文字)はすべて半角
授業資料/正規表現
文字クラス [ ]
文字クラスの補集合(それ以外の文字)[^ ]
↑
2021/04/16 テキストデータと文字コード
†
↑
文字コード
†
㋿(令和)の話
授業資料/文字コード関連リンク
↑
テキストデータ
†
すべての基本、文字が並ぶだけのデータ
授業資料/テキストデータとは
バイナリデータとテキストデータ
テキストデータとテキストファイル
TXT,CSV,HTM…
ファイルの種類と拡張子 参考:
拡張子辞典
拡張子(wikipedia)
授業で使うテキストデータ
授業資料/テキストデータ紹介
↑
テキストエディタ
†
テキストエディタとはどんなものか
授業資料/テキストエディタ
↑
サクラエディタのダウンロードとインストール
†
フリーソフトウェア(無償)のエディタを使います。
★
サクラエディタのダウンロード
(参考) サクラエディタホームページ:
https://sakura-editor.github.io/
インストールの手順
ダウンロードしたzipファイルの中にあるsakura-install*.exeをデスクトップにコピー
exeファイルを右クリックして「セキュリティ」の右の「許可する」をチェックして「OK」
ダブルクリックしてインストール
↑
Macの場合(CotEditorのダウンロードとインストール)
†
CotEditor
https://coteditor.com/
Mac App Storeから入手
↑
テキストエディタを使ってみる
†
テキストエディタの設定
行の折り返し
行番号表示
スタイル行番号(ワープロ的行番号)と論理行番号(エディタ的行番号)
練習用サンプルデータ(漱石 こころ.txt)
検索・置換、grep
検索で初出行を調べる
置換で用例数を数える
grepで用例リストを作る
タグジャンプで文脈を確認する
↑
2021/04/09
†
↑
イントロダクション
†
自己紹介
大学共同利用機関法人人間文化研究機構 国立国語研究所
https://www.ninjal.ac.jp/
コーパス開発センター
シラバス確認
シラバス
この授業の目的
授業の進め方
評価方法
↑
授業で利用する主なソフトウェア
†
ソフトウェアの種類・名前
利用目的
テキストエディタ
サクラエディタ
正規表現を使ったテキストの検索・整形
全文検索ソフト
ひまわり
データの検索
表計算ソフト
Excel
ピボットテーブルによる分析・グラフ作成
ワープロ
Word
「スタイル」を利用したレポート作成
↑
授業で利用する主なデータ
†
青空文庫
の近代の小説
国立国語研究所の
「現代日本語書き言葉均衡コーパス」
↑
-デモ
†
テキストエディタとgrep
全文検索システム
ひまわり
Excel(ピボットテーブル)
形態素解析:
Web茶まめ
現代語コーパス
梵天(BCCWJ文字列検索)
中納言