授業資料/テキストデータとは
をテンプレートにして作成
開始行:
***テキストデータ [#he09a1f8]
-テキストデータとは 普通の文字(及び改行文字・タブ文字)の...
--[[テキストファイル>http://e-words.jp/w/E38386E382ADE382...
--[[バイナリファイル>http://e-words.jp/w/E38390E382A4E383...
-テキストファイルとワープロファイルとの違い
-テキストファイルの種類
--プレーンテキスト
---拡張子はふつうtxt
--表形式テキスト
---拡張子:CSV
--タグ付きテキスト 例) [[HTML>https://e-words.jp/w/HTML.h...
---拡張子:htm,html / xml
-テキストファイルの利点
--おおよそどのようなコンピュータ環境でも利用可能
--さまざまなアプリケーションが対応(インポート/エクスポ...
***コンピュータと文字 [#j2e897d3]
コンピュータなどの情報機器では、文字に数字を割り振ること...
-どの文字に数字をどう割り振るかという規定=文字コード
--どれだけの文字に:文字集合(文字セット)
--どう数字を割り振るか:文字符号化方式(エンコーディング)
:文字集合(文字セット)|例) JIS第一水準・ユニコード2.0,...
:エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本...
--どこまでを同じ文字と見なすか:包摂規準
***符号化方式別の文字番号の例 [#o0074b80]
|文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコ...
|私|27区68点|16進数|8E84|3B64|BBE4|8E84|
|~|~|2進数|1000111010000100|11101101100100|10111011111001...
|~|~|10進数|36484|15204|48100|36484|
|は|4区47点|16進数|82CD|244F|A4CF|306F|
|~|~|2進数|1000001011001101|10010001001111|10100100110011...
|~|~|10進数|33485|9295|42191|12399|
----
***コンピュータと16進数[#n31f1c1f]
そもそもコンピュータで扱う情報はすべて1と0の組み合わせ
-スイッチのON/OFF→1と0の組み合わせ→2進数
-16進数は2進数と相性がよく人間にも比較的わかりやすい
:2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E...
2進数は4桁ごとに16進数0~Fに対応する(2^4=16だから)~
|1000|1110|1000|0100|
|8|E|8|4|
:情報の最小単位 ビット|0か1か=1ビット
-パソコンなどでは8ビットをひとまとめにした1バイトを最小の...
--1バイト=2^8=256,2バイト=2^8×2^8=2^16=65536
----
***文字化け [#ic874a6a]
+異なる文字コード
++文字集合の違い →外字・[[機種依存文字>http://e-words.jp...
++符号化方式の違い
+異なるフォント
----
***[[JIS漢字コード>https://e-words.jp/w/JIS%E6%BC%A2%E5%A...
1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ
1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453...
78JIS 旧JIS
83JIS 非漢字71字・漢字4字追加。字体の変更、第1...
90JIS 漢字2字追加
97JIS 「包摂規準」
1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245...
2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659...
JIS X 0213:2004年 改正
2012年 JIS X 0213:2012 2010年改訂の常用漢字表改定に対応
〈ISO 10646(Unicode)系〉
1995年 [[JIS X 0221>https://ja.wikipedia.org/wiki/JIS_X...
:
2014年 JIS X 0221:2014 絵文字追加(Unicode6.1)
2020年 JIS X 0221:2020 戸籍統一文字・変体仮名など(Unic...
----
#counter
終了行:
***テキストデータ [#he09a1f8]
-テキストデータとは 普通の文字(及び改行文字・タブ文字)の...
--[[テキストファイル>http://e-words.jp/w/E38386E382ADE382...
--[[バイナリファイル>http://e-words.jp/w/E38390E382A4E383...
-テキストファイルとワープロファイルとの違い
-テキストファイルの種類
--プレーンテキスト
---拡張子はふつうtxt
--表形式テキスト
---拡張子:CSV
--タグ付きテキスト 例) [[HTML>https://e-words.jp/w/HTML.h...
---拡張子:htm,html / xml
-テキストファイルの利点
--おおよそどのようなコンピュータ環境でも利用可能
--さまざまなアプリケーションが対応(インポート/エクスポ...
***コンピュータと文字 [#j2e897d3]
コンピュータなどの情報機器では、文字に数字を割り振ること...
-どの文字に数字をどう割り振るかという規定=文字コード
--どれだけの文字に:文字集合(文字セット)
--どう数字を割り振るか:文字符号化方式(エンコーディング)
:文字集合(文字セット)|例) JIS第一水準・ユニコード2.0,...
:エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本...
--どこまでを同じ文字と見なすか:包摂規準
***符号化方式別の文字番号の例 [#o0074b80]
|文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコ...
|私|27区68点|16進数|8E84|3B64|BBE4|8E84|
|~|~|2進数|1000111010000100|11101101100100|10111011111001...
|~|~|10進数|36484|15204|48100|36484|
|は|4区47点|16進数|82CD|244F|A4CF|306F|
|~|~|2進数|1000001011001101|10010001001111|10100100110011...
|~|~|10進数|33485|9295|42191|12399|
----
***コンピュータと16進数[#n31f1c1f]
そもそもコンピュータで扱う情報はすべて1と0の組み合わせ
-スイッチのON/OFF→1と0の組み合わせ→2進数
-16進数は2進数と相性がよく人間にも比較的わかりやすい
:2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E...
2進数は4桁ごとに16進数0~Fに対応する(2^4=16だから)~
|1000|1110|1000|0100|
|8|E|8|4|
:情報の最小単位 ビット|0か1か=1ビット
-パソコンなどでは8ビットをひとまとめにした1バイトを最小の...
--1バイト=2^8=256,2バイト=2^8×2^8=2^16=65536
----
***文字化け [#ic874a6a]
+異なる文字コード
++文字集合の違い →外字・[[機種依存文字>http://e-words.jp...
++符号化方式の違い
+異なるフォント
----
***[[JIS漢字コード>https://e-words.jp/w/JIS%E6%BC%A2%E5%A...
1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ
1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453...
78JIS 旧JIS
83JIS 非漢字71字・漢字4字追加。字体の変更、第1...
90JIS 漢字2字追加
97JIS 「包摂規準」
1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245...
2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659...
JIS X 0213:2004年 改正
2012年 JIS X 0213:2012 2010年改訂の常用漢字表改定に対応
〈ISO 10646(Unicode)系〉
1995年 [[JIS X 0221>https://ja.wikipedia.org/wiki/JIS_X...
:
2014年 JIS X 0221:2014 絵文字追加(Unicode6.1)
2020年 JIS X 0221:2020 戸籍統一文字・変体仮名など(Unic...
----
#counter
ページ名: