テキスト処理の基礎(2017)
をテンプレートにして作成
開始行:
*日本語コーパス構築のための テキスト処理の基礎
~言語処理やプログラミング以前の基礎知識
**2017/06/06 テキストデータと正規表現
***テキストデータ
-[[テキストファイル>https://ja.wikipedia.org/wiki/%E3%83%...
---[[授業資料/テキストデータとは]]
---拡張子 txt,csv,tsv,htm,xml
---サンプルデータ [[soseki2.zip>https://dl.dropboxusercon...
--[[テキストエディタ>https://ja.wikipedia.org/wiki/%E3%83...
---[[サクラエディタ>http://www.ogiso.net/wiki/index.php?p...
---[[授業資料/テキストエディタ]]
---論理行番号
---検索,置換,grep,タグジャンプ
---[[ショートカットキー>授業資料/覚えておきたいショートカ...
-[[文字コード>https://ja.wikipedia.org/wiki/%E6%96%87%E5%...
--[[テレタイプ>https://ja.wikipedia.org/wiki/%E3%83%86%E3...
---[[制御記号>https://ja.wikipedia.org/wiki/%E5%88%B6%E5%...
---[[改行コード>https://ja.wikipedia.org/wiki/%E6%94%B9%E...
--[[文字集合(character set)>https://ja.wikipedia.org/wiki...
--[[符号化方式(character encoding)>https://ja.wikipedia.o...
--やや古いがよく使われる文字コード:[[Shift_JIS>https://j...
--[[Unicode>https://ja.wikipedia.org/wiki/Unicode]]の符号...
---(LE(Little Endian), BE(Big Endian))
---[[BOM(Byte Order Mark)>https://ja.wikipedia.org/wiki/%...
---[[BMP(基本多言語面)>https://ja.wikipedia.org/wiki/%E...
--(参考) http://www.kanzaki.com/docs/jcode.html
--(参考) https://codezine.jp/article/detail/1592 ※
-[[正規表現>https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6...
--[[授業資料/正規表現]]
---文字クラス [ ]
---文字クラスの否定(補集合)[^ ]
---繰り返し(最長一致) ? + * ※
---繰り返し最短一致 +? *? ※
---n回以上m回以下のくり返し {n,m} ※
---グループ化 ()
---or(論理和) |
---文頭 ^、文末 $
--[[タグ付き正規表現>授業資料/タグつき正規表現]]
---カッコ(半角丸カッコ)と\1(\2,\3…)を使う
---タグ付けへの応用例 (「.+?」) -> <quote>\1</quote> ※
--後方参照
---マッチした部分を検索語の中で再利用する 例: (..)\1
**2017/06/13 プレーンテキストからXMLへ
***XML
-マークアップ言語とXML
--HTMLとXML
---SGML,XHTML
--タグ、要素、属性、属性値
---開始タグ <tag>、終了タグ </tag>
---<タグ 属性="属性値">テキスト<子要素/></タグ>
--空要素
---<br/>と<br></br> XMLとして等価
--ルート要素
---XML宣言
<?xml version="1.0" encoding="Shift_JIS" ?>
---encoding宣言
---XML宣言の省略
--[[文字参照>https://ja.wikipedia.org/wiki/%E6%96%87%E5%A...
<, >, &
曽
--[[ホワイトスペース>https://en.wikipedia.org/wiki/Whites...
-[[XPath>https://ja.wikipedia.org/wiki/XML_Path_Language]]
--ノード(node)と軸(Axis)
---省略記法
--述語(predicate)
--(参考) http://gogodiet.net/z/xml/7.htm
--(参考) http://qiita.com/merrill/items/aa612e6e865c1701f...
-[[XSLT>https://ja.wikipedia.org/wiki/XSL_Transformations]]
--HTMLへの変換
--[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B...
--(参考) http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xsl...
-XMLの文書型定義と検証
--XML文書の検証(validation)
--Well-formed(整形式)
--Valid(妥当)
---DTD
---XMLスキーマ(xsd)
---RELAX NG
-Oxygen
--XPathによる検索((なぜかXPath2.0を選ばないと検索結果が返...
--スキーマの自動生成
**その他
***テキストデータとExcel
-ピボットテーブル
-文字列関数
--LEFT, RIGHT, MID 文字列の一部を取り出す
--LEN 文字列の長さ
--SEARCH 文字列から一致する部分文字列を探す
--SUBSTITUTE 文字列を置換する
-IF, IFERROR
--=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
-[[VLOOKUP>授業資料/vlookup関数]]
-データ処理に適した形式
---http://honeshabri.hatenablog.com/entry/vlookup
***コマンドラインツール((DOSのコマンド。[]内はLinux))
-bash on Windows?
--とりあえずファイル操作 dir[ls], copy[cp], del[rm], mov...
--バッチファイル[シェルスクリプト] .bat[.sh]
--(diff)
--(パイプ)
-ツールを組み合わせた処理(([[ブリコラージュ>https://ja.wi...
--テキストエディタ、Excel、コマンドラインを自由に行き来する
終了行:
*日本語コーパス構築のための テキスト処理の基礎
~言語処理やプログラミング以前の基礎知識
**2017/06/06 テキストデータと正規表現
***テキストデータ
-[[テキストファイル>https://ja.wikipedia.org/wiki/%E3%83%...
---[[授業資料/テキストデータとは]]
---拡張子 txt,csv,tsv,htm,xml
---サンプルデータ [[soseki2.zip>https://dl.dropboxusercon...
--[[テキストエディタ>https://ja.wikipedia.org/wiki/%E3%83...
---[[サクラエディタ>http://www.ogiso.net/wiki/index.php?p...
---[[授業資料/テキストエディタ]]
---論理行番号
---検索,置換,grep,タグジャンプ
---[[ショートカットキー>授業資料/覚えておきたいショートカ...
-[[文字コード>https://ja.wikipedia.org/wiki/%E6%96%87%E5%...
--[[テレタイプ>https://ja.wikipedia.org/wiki/%E3%83%86%E3...
---[[制御記号>https://ja.wikipedia.org/wiki/%E5%88%B6%E5%...
---[[改行コード>https://ja.wikipedia.org/wiki/%E6%94%B9%E...
--[[文字集合(character set)>https://ja.wikipedia.org/wiki...
--[[符号化方式(character encoding)>https://ja.wikipedia.o...
--やや古いがよく使われる文字コード:[[Shift_JIS>https://j...
--[[Unicode>https://ja.wikipedia.org/wiki/Unicode]]の符号...
---(LE(Little Endian), BE(Big Endian))
---[[BOM(Byte Order Mark)>https://ja.wikipedia.org/wiki/%...
---[[BMP(基本多言語面)>https://ja.wikipedia.org/wiki/%E...
--(参考) http://www.kanzaki.com/docs/jcode.html
--(参考) https://codezine.jp/article/detail/1592 ※
-[[正規表現>https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6...
--[[授業資料/正規表現]]
---文字クラス [ ]
---文字クラスの否定(補集合)[^ ]
---繰り返し(最長一致) ? + * ※
---繰り返し最短一致 +? *? ※
---n回以上m回以下のくり返し {n,m} ※
---グループ化 ()
---or(論理和) |
---文頭 ^、文末 $
--[[タグ付き正規表現>授業資料/タグつき正規表現]]
---カッコ(半角丸カッコ)と\1(\2,\3…)を使う
---タグ付けへの応用例 (「.+?」) -> <quote>\1</quote> ※
--後方参照
---マッチした部分を検索語の中で再利用する 例: (..)\1
**2017/06/13 プレーンテキストからXMLへ
***XML
-マークアップ言語とXML
--HTMLとXML
---SGML,XHTML
--タグ、要素、属性、属性値
---開始タグ <tag>、終了タグ </tag>
---<タグ 属性="属性値">テキスト<子要素/></タグ>
--空要素
---<br/>と<br></br> XMLとして等価
--ルート要素
---XML宣言
<?xml version="1.0" encoding="Shift_JIS" ?>
---encoding宣言
---XML宣言の省略
--[[文字参照>https://ja.wikipedia.org/wiki/%E6%96%87%E5%A...
<, >, &
曽
--[[ホワイトスペース>https://en.wikipedia.org/wiki/Whites...
-[[XPath>https://ja.wikipedia.org/wiki/XML_Path_Language]]
--ノード(node)と軸(Axis)
---省略記法
--述語(predicate)
--(参考) http://gogodiet.net/z/xml/7.htm
--(参考) http://qiita.com/merrill/items/aa612e6e865c1701f...
-[[XSLT>https://ja.wikipedia.org/wiki/XSL_Transformations]]
--HTMLへの変換
--[[ひまわり>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B...
--(参考) http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xsl...
-XMLの文書型定義と検証
--XML文書の検証(validation)
--Well-formed(整形式)
--Valid(妥当)
---DTD
---XMLスキーマ(xsd)
---RELAX NG
-Oxygen
--XPathによる検索((なぜかXPath2.0を選ばないと検索結果が返...
--スキーマの自動生成
**その他
***テキストデータとExcel
-ピボットテーブル
-文字列関数
--LEFT, RIGHT, MID 文字列の一部を取り出す
--LEN 文字列の長さ
--SEARCH 文字列から一致する部分文字列を探す
--SUBSTITUTE 文字列を置換する
-IF, IFERROR
--=IFERROR(LEFT(<品詞>,SEARCH("-",<品詞>)-1),<品詞>)
-[[VLOOKUP>授業資料/vlookup関数]]
-データ処理に適した形式
---http://honeshabri.hatenablog.com/entry/vlookup
***コマンドラインツール((DOSのコマンド。[]内はLinux))
-bash on Windows?
--とりあえずファイル操作 dir[ls], copy[cp], del[rm], mov...
--バッチファイル[シェルスクリプト] .bat[.sh]
--(diff)
--(パイプ)
-ツールを組み合わせた処理(([[ブリコラージュ>https://ja.wi...
--テキストエディタ、Excel、コマンドラインを自由に行き来する
ページ名: