テキスト処理の基礎(2017)
の履歴(No.7)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
テキスト処理の基礎(2017)
へ行く。
1 (2017-06-05 (月) 22:52:47)
2 (2017-06-05 (月) 23:01:17)
3 (2017-06-06 (火) 09:34:23)
4 (2017-06-07 (水) 13:23:31)
5 (2017-06-07 (水) 13:23:31)
6 (2017-06-09 (金) 08:38:44)
7 (2017-06-13 (火) 15:20:30)
8 (2017-06-13 (火) 15:20:30)
日本語コーパス構築のための テキスト処理の基礎
~言語処理やプログラミング以前の基礎知識
↑
2017/06/06 テキストデータと正規表現
↑
テキストデータ
テキストファイル
授業資料/テキストデータとは
拡張子 txt,csv,tsv,htm,xml
サンプルデータ
soseki2.zip
テキストエディタ
サクラエディタ
授業資料/テキストエディタ
論理行番号
検索,置換,grep,タグジャンプ
ショートカットキー
文字コード
=符号化文字集合
テレタイプ
の話から
制御記号
改行コード
CR, LF, CRLF
文字集合(character set)
符号化方式(character encoding)
やや古いがよく使われる文字コード:
Shift_JIS
,
CP932
,
EUC-JP
Unicode
の符号化方式
UTF-8
,
UTF-16
(LE(Little Endian), BE(Big Endian))
BOM(Byte Order Mark)
BMP(基本多言語面)
とサロゲートペア
(参考)
http://www.kanzaki.com/docs/jcode.html
(参考)
https://codezine.jp/article/detail/1592
※
正規表現
(grepからタグ付き正規表現まで)
授業資料/正規表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + ※
n回以上m回以下のくり返し {n,m} ※
グループ化 ()
or(論理和) |
文頭 ^、文末 $
タグ付き正規表現
カッコ(半角丸カッコ)と\1(\2,\3…)を使う
タグ付けへの応用例 「(.+?)」 -> <quote>「\1」</quote> ※
後方参照
マッチした部分を検索語の中で再利用する 例: (..)\1
↑
2017/06/13 プレーンテキストからXMLへ
↑
XML
マークアップ言語とXML
HTMLとXML
SGML,XHTML
タグ、要素、属性、属性値
開始タグ <tag>、終了タグ </tag>
<タグ 属性="属性値">テキスト<子要素/></タグ>
空要素
<br/>と<br></br> XMLとして等価
ルート要素
XML宣言
<?xml version="1.0" encoding="Shift_JIS" ?>
encoding宣言
XML宣言の省略
文字参照
<, >, & 曽
ホワイトスペース
XPath
ノード(node)と軸(Axis)
省略記法
述語(predicate)
(参考)
http://gogodiet.net/z/xml/7.htm
(参考)
http://qiita.com/merrill/items/aa612e6e865c1701f43b
XSLT
HTMLへの変換
ひまわり
用XSLT
(参考)
http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xslt00.html
XMLの文書定義と検証
XML文書の検証(validation)
Well-formed(整形式)
Valid(妥当)
DTD
XMLスキーマ(xsd)
RELAX NG
Oxygen
↑
テキストデータとExcel
ピボットテーブル
文字列関数
LEFT, RIGHT, MID 文字列の一部を取り出す
LEN 文字列の長さ
SEARCH 文字列から一致する部分文字列を探す
SUBSTITUTE 文字列を置換する
IF, IFERROR
=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
VLOOKUP
データ処理に適した形式
http://honeshabri.hatenablog.com/entry/vlookup
↑
コマンドラインツール
*1
とりあえずファイル操作 dir[ls], copy[cp], del[rm], move[mv], ren[rename], mkdir/rmdir
バッチファイル[シェルスクリプト] .bat[.sh]
(diff)
(パイプ)
ツールを組み合わせた処理
*2
テキストエディタ、Excel、コマンドラインを自由に行き来する
*1
DOSのコマンド。[]内はLinux
*2
ブリコラージュ