2020清泉女子大学 集中講義



8月18日(火)

第1回 イントロダクション

自己紹介

授業内容の紹介

授業で利用する主なソフトウェア・Webアプリケーション

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
コーパス検索アプリケーション「中納言」コーパスの検索
Web茶まめ形態素解析

デモ

シラバス確認

受講者アンケート

国語研のコーパス利用申し込み(「中納言」)

第2回 電子化テキストとテキストエディタ

文字コード

テキストデータとは

テキストエディタ

サクラエディタのダウンロードとインストール

テキストエディタを使ってみる

テキストエディタの基本

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る(簡易版)

参考:テキストデータ(青空文庫)の配布

第3回 テキストエディタと正規表現 

正規表現を使ってみる

正規表現とは

正規表現のいろいろ


8月19日(水)

「中納言」申し込み状況の確認

第4回 正規表現の応用/タグ付き正規表現

正規表現の応用

タグ付き正規表現とは

検索文字列の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する参考資料

第5回 全文検索ソフト「ひまわり」

全文検索システム「ひまわり」について

himawari_aozora.png

「ひまわり」本体のインストール

「青空文庫パッケージ」のインストール

  1. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. Himawari画面上にダウンロードしたzipファイルをドラッグ&ドロップ*1
    2. しばらく待つと完了(数分から10分程度はかかる)
  2. 要らなくなったUSBメモリ上の青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」の使い方

第6回 Excelによる検索結果の集計(ピボットテーブル)

ひまわりの検索結果をExcelに

Excelの基本操作

ひまわり検索結果をExcelで扱う

生年代による集計(通時的変化)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. 新しいExcelのシートで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

サンプリング調査

ひまわりで利用可能なデータについて

8月20日(木)

「ひまわり」復習・補足

分類用の列を作って集計する

第7回 日本語コーパスの紹介

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

「日本語歴史コーパス」(CHJ)の構成

第8回 Web版コーパス検索ツールの利用(1)

BCCWJ, CHJの検索ツール

コーパスの形態論情報:短単位と長単位

品詞体系と見出し語の階層

第9回 Web版コーパス検索ツールの利用(2)

「中納言」の利用

形態論情報を使った検索のまえに

レポートテーマについて

8月21日(金)

第10回 Web版コーパス検索ツールの利用(3)

形態論情報を使った検索

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

第11回 検索結果の集計と分析

「中納言」検索結果のダウンロードとExcelでの利用

Excelの基礎ふたたび(略)

複数の検索結果の結合

ショートカットキーを活用すると便利

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+↓, ↓, Ctrl+V, Ctrl+Home

集計用の列を自分で用意する

「検索課題」

第12回 レポートテーマ探索と調査

(現代語の場合)

表記

類義語・対義語

語形、語法

新語・意味変化

検索の例

9月7日までにレポートテーマを考えてくること。

第13回 データの加工と集計 (Excel)

出現サンプル数の調査(重複の削除)

用例数ではなく、用例が一つでも出現したサンプル(作品)の数を調べたい場合

Excelの文字列関数とIF関数

【参考】 授業資料/EXCELの文字列関数

ランダムサンプリング調査(Excelでの集計)ふたたび

BCCWJ利用の落とし穴

調整頻度の計算

発展(Excelの活用)


*1 または、メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS