阪大2013/12月17日の履歴(No.4)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
阪大2013/12月17日へ行く。
- 1 (2013-12-15 (日) 14:10:34)
- 2 (2013-12-15 (日) 19:06:16)
- 3 (2013-12-16 (月) 11:04:09)
- 4 (2013-12-17 (火) 00:24:29)
- 5 (2013-12-17 (火) 09:01:46)
- 6 (2013-12-17 (火) 15:58:25)

阪大2013

12月17日

12月17日
はじめに
総索引から電子化テキストへ（国語史資料の電子化の歴史）
テキストデータと文字コード
- テキストファイル
  - テキストファイルと拡張子
テキストエディタ
- テキストエディタを使う
  - ショートカットキー
  - （補足）おすすめテキストエディタ
正規表現
構造化文書とタグ付きコーパス
- 太陽コーパス
全文検索ソフト：「ひまわり」
- 「ひまわり」で使用できる正規表現
検索結果の集計：Excelとピボットテーブル
- えだまめによるミニコーパス作成

↑

はじめに

自己紹介
- ogiso.net
- 大学共同利用機関法人人間文化研究機構国立国語研究所 http://www.ninjal.ac.jp/
  - コーパス開発センター

↑

授業でどんなことをやるか（デモ）

テキストエディタとgrep
- 各種テキストデータ
全文検索システム「ひまわり」＋Excelでの集計（ピボットテーブル）
- 近代雑誌コーパス
- 国会会議録
少納言
- 「日本語歴史コーパス」BCCWJ
形態素解析／MeCab+UniDic（茶まめ）
- 「明六雑誌コーパス」
中納言
- 「日本語歴史コーパス」BCCWJ
- 「現代日本語書き言葉均衡コーパス」CHJ
茶器

シラバス確認
- 阪大2013

↑

今日の授業で利用する主なソフトウェア†

ソフトウェアの種類・名前	利用目的
テキストエディタサクラエディタ sakura2	正規表現を使ったテキストの検索・整形
全文検索ソフトひまわり	データの検索
表計算ソフトExcel	ピボットテーブルによる分析・グラフ作成

↑

「コーパス」について†

狭義のコーパス

言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。

BCCWJ / 太陽コーパス / 明六雑誌コーパス / 日本語歴史コーパス

広義のコーパス

コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究に利用可能。

さまざまなテキストアーカイブ（新潮文庫の百冊 / 青空文庫 / 国会会議録）
Web上のデータ
- 検索サイトの利用
- WAC（Web as Corpus）

↑

総索引から電子化テキストへ（国語史資料の電子化の歴史）

戦後、総索引が整備されはじめる
- 1929～31『万葉集総索引』
- 1952『源氏物語用語索引』
- 1955『徒然草総索引』
1980年代から徐々に電子化テキストの利用が始まる
- 金水（1984）,豊島（1983,1987），西端（1983,1989），岡島，近藤…
- 総索引作成のための電子化テキスト利用など
1990年代、電子化テキストの利用が広がる
- 『源氏物語』テキストデータベース（長瀬1990）
- 国語学会（現日本語学会）1992年度春季大会テーマ「国語研究資料の「電子化」とその利用」
  - 日本文学等テキストファイル（岡島）http://www.let.osaka-u.ac.jp/~okajima/bungaku.htm
  - J-TEXT日本文学電子図書館（菊池・深沢）http://www.j-texts.com/
- 青空文庫 1997～　http://www.aozora.gr.jp/
- この頃、CD-ROM索引も『新大系八代集』『新編国歌大観』『角川古語大観　源氏物語』「国文学研究資料館データベース　古典コレクション」『国定読本用語総覧』
2000年代（タグ付きテキスト「コーパス」へ）
- 狭義の「コーパス」登場
  - 『太陽コーパス』2005

↑

テキストデータと文字コード

↑

文字コード

文字集合と文字符号化方式の組み合わせ

↑

日本で広く使われてきた文字コード

（伝統的な文字コード。かつて多くのパソコンで使われてきた。現在は携帯電話でも利用される）

文字集合 JIS X0208：1997（なんども改定があった）
- Shift_JIS（符号化方式）
- EUC-JP（符号化方式）
- JIS 2022（符号化方式）

↑

ユニコード

（新しい国際的な文字集合。各国のコード表を含み込んでいるので膨大な数の文字を含む。最近のパソコンの内部処理はUnicodeで行われる。）

文字集合 Unicode （最新バージョンは 6.3）
- UTF-8（符号化方式）
- UTF-16（符号化方式）LE/BE（エンディアンによる違い）
  - 単にUnicodeといった場合、たいていUTF-16LEを指す（LE＝リトルエンディアン、パソコンは一般的にリトルエンディアン）
  - UTF-16では、通常ファイルの先頭にBOMといわれる特殊記号がつけられる（UTF-8では付けないのが普通）

↑

BCCWJ・CHJの文字コード

文字集合 JIS X0213 （X0208に漢字・非漢字を追加）
- UTF-16LE（符号化方式）

（X0213の符号化方式はShift_JISほか様々な規定があるが、今のパソコンでは使いにくい）→符号化方式としてUnicode系のUTF-16LE・UTF-8を使う（使用する文字をJIS X0213の範囲に制限）

UniDicではUTF-8が基本（MeCab/ChaSenでUnicodeが扱える文字コード）

↑

文字コードを巡る様々な問題

ここでは取り上げませんが、日本語学を学ぶ人にはなるべく知っておいてもらいたい。参考文献参照。
- 授業資料/文字コード関連リンク（←古い）

文字化け
- 参考:文字化けはなぜ起きるか（日経パソコンPC online）
「文字が足りない？」
「どこまでが同じ文字か」包摂基準
「他の文字表との整合性」
- 常用漢字表と文字コード

↑

（参考）今昔文字鏡

「太陽コーパス」（文字集合はX0208。ただし包摂基準を一部変更して適用）では外字の表現にこの番号と文字画像ファイルを利用
- 基本的に文字の見た目を扱うもので、包摂基準などがない
- 大漢和番号（諸橋）を含み込む
著作権の問題、PDFへの埋め込み制限など。

↑

テキストファイル

テキストデータとはどんなものか
- 授業資料/テキストデータとは
- 授業資料/テキストデータ紹介（広義のコーパス）

サンプルデータ：&ref{soseki.zip}

【参考】：青空文庫のデータ

↑

テキストファイルと拡張子†

拡張子(wikipedia)
- 拡張子辞典：http://jisyo.com/viewer/list/list.html
- TXT,CSV,HTM・・・
プレーンテキストと構造化テキスト

↑

テキストエディタ

テキストエディタとはどんなものか
- 授業資料/テキストエディタ

↑

テキストエディタを使う

サクラエディタのダウンロード
- サクラエディタのダウンロード:sakura.zip（授業用に用意したもの）
  - （参考）サクラエディタホームページ：http://sourceforge.net/projects/sakura-editor/

資料：サクラエディタの使い方

スタイル行番号（ワープロ的行番号）と論理行番号（エディタ的行番号）
- cf. 見た目と構造

検索と置換
- 検索で初出行を調べる
- 置換で用例数を数える
grepとタグジャンプ
- grep
- タグジャンプ
- grep結果の保存

授業資料/grepと置換でKWICを作る

↑

ショートカットキー†

授業資料/覚えておきたいショートカットキー☆

↑

（補足）おすすめテキストエディタ†

フリーウェア
- サクラエディタ http://sakura-editor.sourceforge.net/ 【Unicode版】★
- K2Editor http://k2top.jpn.org/index.php?K2Editor 【SJIS】
- Apsalyテキストエディタ http://www.vector.co.jp/soft/win95/writing/se423509.html 【SJIS】
シェアウェア
- EmEditor http://jp.emeditor.com/ 4,200円
- 秀丸エディタ http://hide.maruo.co.jp/software/hidemaru.html 4,200円

↑

正規表現

正規表現　＞用語
- 文字を表すための特殊な文字（メタ文字）
- 置換・検索・grepで利用できる
- 記号はすべて半角
- 特殊文字そのものを表す場合には\でエスケープする（特殊な意味を打ち消す）　例：1\+2

↑

正規表現のいろいろ†

授業資料/正規表現☆
- 文字クラス [ ]
- 文字クラスの否定（補集合）[^ ]
- 繰り返し ? + *
- グループ化 ()
- or（論理和） |
- 文頭 ^、文末 $

↑

正規表現の応用†

カタカナ語
送りがなの揺れ（行う／行なう）
全然～ない。
会話文中（「で始まる）

↑

タグ付き正規表現†

走[らりるれろ] でGrepした結果を置換するにはどうしたらいいか
- 次のように置換するととんでもないことに…
  - 検索文字列：走[らりるれろ]
  - 置換文字列：★走[らりるれろ]
タグ付き正規表現・カッコ（半角丸カッコ）と\1（\2，\3…）を使う

授業資料/タグつき正規表現☆

（参考）タグ付き正規表現の応用：grepと置換でKWICを作る

↑

検索語の中での後方参照†

検索語の中で\1を使う
- (.ろ)\1 「ころころ」「どろどろ」「へろへろ」などにマッチ

↑

最長一致の原則（greedy matching）†

正規表現は、パターンが一致する最も長い範囲にマッチする
- 例：「(.+)」 → 【\1】
  - 「こんにちは」「さようなら」 →　【こんにちは」「さようなら】
- 「([^」]+)」 → 【\1】　のように書けばよい
  - 「こんにちは」「さようなら」 →　【こんにちは】【さようなら】
最短一致を指定するには（ものぐさ指定）
- 「(.+?)」「(.*?)」のように、繰り返し指定の後に「?」をつける