テキスト処理の基礎(2017)
の履歴(No.5)
履歴一覧
差分
を表示
現在との差分
を表示
ソース
を表示
テキスト処理の基礎(2017)
へ行く。
1 (2017-06-05 (月) 22:52:47)
2 (2017-06-05 (月) 23:01:17)
3 (2017-06-06 (火) 09:34:23)
4 (2017-06-07 (水) 13:23:31)
5 (2017-06-07 (水) 13:23:31)
6 (2017-06-09 (金) 08:38:44)
7 (2017-06-13 (火) 15:20:30)
8 (2017-06-13 (火) 15:20:30)
日本語コーパス構築のための テキスト処理の基礎
~言語処理やプログラミング以前の基礎知識
↑
2017/06/06 テキストデータと正規表現
↑
テキストデータ
テキストファイル
授業資料/テキストデータとは
拡張子 txt,csv,tsv,htm,xml
サンプルデータ
soseki2.zip
テキストエディタ
サクラエディタ
授業資料/テキストエディタ
論理行番号
検索,置換,grep,タグジャンプ
ショートカットキー
文字コード
=符号化文字集合
テレタイプ
の話から
制御記号
改行コード
CR, LF, CRLF
文字集合(character set)
符号化方式(character encoding)
やや古いがよく使われる文字コード:
Shift_JIS
,
CP932
,
EUC-JP
Unicode
の符号化方式
UTF-8
,
UTF-16
LE(Little Endian), BE(Big Endian)
BOM(Byte Order Mark)
BMP(基本多言語面)
とサロゲートペア/
cf.
http://www.kanzaki.com/docs/jcode.html
正規表現
(grepからタグ付き正規表現まで)
生記表現
文字クラス [ ]
文字クラスの否定(補集合)[^ ]
繰り返し ? + *
n回以上m回以下のくり返し {n,m} *
グループ化 ()
or(論理和) |
文頭 ^、文末 $
タグ付き正規表現
カッコ(半角丸カッコ)と\1(\2,\3…)を使う
タグ付けへの応用例 「(.+?)」 -> <quote>「\1」</quote> *
後方参照
ex. (..)\1
↑
2017/06/13 プレーンテキストからXMLへ
↑
XML
マークアップ言語とXML
HTMLとXML
SGML,XHTML
タグ、要素、属性、属性値
開始タグ、修了タグ
<タグ 属性="属性値">テキスト<子要素/></タグ>
空要素
<br/>と<br></br>
ルート要素
XML宣言
<?xml version="1.0" encoding="ISO-8859-1"?>
encoding宣言
XML宣言の省略
文字参照
<, >, & �
ホワイトスペース
XPath
軸(Axis)
省略記法
述語(predicate)
XSLT
HTMLへの変換
ひまわり用XSLT
XMLの文書定義と検証
XML文書の検証(validation)
Well-formed(整形式)
Valid(妥当)
DTD
XMLスキーマ(xsd)
RELAX NG
Oxygen
↑
テキストデータとExcel
ピボットテーブル
文字列関数
LEFT, RIGHT, MID, LEN, SEARCH, SUBSTITUTE
IF, IFERROR
=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
vlookup
データ処理に適した形式
http://honeshabri.hatenablog.com/entry/vlookup
↑
コマンドラインツール
基礎とバッチファイル[シェルスクリプト]
*1
とりあえずdir[ls], copy[cp], del[rm], move[mv], ren[rename], mkdir/rmdir
.bat[.sh]
(diff)
(パイプ)
ツールを組み合わせた処理
*2
*1
DOSのコマンド。[]内はLinux
*2
ブリコラージュ