2020清泉女子大学 集中講義



8月18日(火)

第1回 イントロダクション

自己紹介

授業内容の紹介

授業で利用する主なソフトウェア・Webアプリケーション

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成
ワープロWord「スタイル」を利用したレポート作成
コーパス検索アプリケーション「中納言」コーパスの検索
Web茶まめ形態素解析

デモ

シラバス確認

受講者アンケート

国語研のコーパス利用申し込み(「中納言」)

第2回 電子化テキストとテキストエディタ

文字コード

テキストデータとは

テキストエディタ

サクラエディタのダウンロードとインストール

テキストエディタを使ってみる

テキストエディタの基本

ショートカットキー

grepと置換でKWIC(CSVファイル)を作る(簡易版)

参考:テキストデータ(青空文庫)の配布

第3回 テキストエディタと正規表現 

正規表現を使ってみる

正規表現とは

正規表現のいろいろ


8月19日(水)

「中納言」申し込み状況の確認

前回補足

正規表現の応用

第4回 タグ付き正規表現

タグ付き正規表現とは

検索文字列の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する参考資料

#amazon(4873114500) #amazon(4873113598)

第5回 全文検索ソフト「ひまわり」

全文検索システム「ひまわり」について

himawari_aozora.png

「ひまわり」と「青空文庫パッケージ」のインストール

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいのでPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

「ひまわり」の使い方

第6回 Excelによる検索結果の集計(ピボットテーブル)

ひまわりの検索結果をExcelに

Excelの基本操作

ひまわり検索結果をExcelで扱う

生年代による集計(通時的変化)

  1. Himawariで「すべて選択」後、「すべて選択」「コピー(列名含む)」をする
  2. 新しいExcelのシートで生年月日の列が貼り付けられることになる列(NとO)を丸ごと選択し、書式を「文字列」とする
  3. Excelに貼り付ける

分類用の列を作って集計する

サンプリング調査

ひまわりで利用可能なデータについて


第7回 日本語コーパスの紹介

資料配布(「中納言」の使い方,「中納言」による検索):明日以降も必ず持ってきてください。

コーパスとは

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

「現代日本語書き言葉均衡コーパス」(BCCWJ)の構成とサンプリング

「日本語歴史コーパス」(CHJ)の構成


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS