阪大2013

12月17日

はじめに

今日の授業で利用する主なソフトウェア

ソフトウェアの種類・名前利用目的
テキストエディタ サクラエディタ sakura2正規表現を使ったテキストの検索・整形
全文検索ソフトひまわりデータの検索
表計算ソフトExcelピボットテーブルによる分析・グラフ作成

「コーパス」について

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
  • BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。
  • さまざまなテキストアーカイブ(新潮文庫の百冊 / 青空文庫 / 国会会議録)
  • Web上のデータ
    • 検索サイトの利用
    • WAC(Web as Corpus)

総索引から電子化テキストへ(国語史資料の電子化の歴史)

テキストデータと文字コード

文字コード

日本で広く使われてきた文字コード

(伝統的な文字コード。かつて多くのパソコンで使われてきた。現在は携帯電話でも利用される)

ユニコード

(新しい国際的な文字集合。各国のコード表を含み込んでいるので膨大な数の文字を含む。最近のパソコンの内部処理はUnicodeで行われる。)

BCCWJ・CHJの文字コード

(X0213の符号化方式はShift_JISほか様々な規定があるが、今のパソコンでは使いにくい)→符号化方式としてUnicode系のUTF-16LE・UTF-8を使う(使用する文字をJIS X0213の範囲に制限)

文字コードを巡る様々な問題

(参考)今昔文字鏡

テキストファイル

テキストファイルと拡張子

テキストエディタ

テキストエディタを使う

ショートカットキー

(補足)おすすめテキストエディタ

正規表現

正規表現のいろいろ

正規表現の応用

タグ付き正規表現(復習)

検索語の中での後方参照

最長一致の原則(greedy matching)

正規表現に関する本

#amazon(4873111706) #amazon(4873113598)

太陽コーパス

&ref(): File not found: "Taiyo190101.jpg" at page "阪大2013/12月17日";

全文検索ソフト:「ひまわり」

「ひまわり」で使用できる正規表現

検索結果の集計:「Excel」

表計算ソフト Excel入門

Excelを使った集計

(補足)テキストエディタと組み合わせて使う


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS