電子化テキスト・テキストデータとは†
コンピュータと文字†
- コンピュータにできること
- スイッチのON/OFF→1と0の組み合わせ→(2進数)→数 →[ ]→文字
- ビット
- 0か1か=1ビット
8ビット=1バイト=2^8=256,2バイト=2^8×2^8=2^16=65536
- 2進数と16進数
- 36484(10進数)=1000111010000100(2進数)=8E84(16進数)
2進数は4桁ごとに16進数0~Fに対応する(2^4=16だから)
文字コード†
- 文字集合(文字セット)
- 例) JISコード・ユニコード,常用漢字表・諸橋大漢和の見出し漢字…
- エンコード(符号化方式)
- 例) Shift JIS・ISO 2022-JP・日本語EUC・UTF-8…
JISコードの種類†
1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ
1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453字・漢字6349字(第1水準・第2水準)
78JIS 旧JIS
83JIS 非漢字71字・漢字4字追加。字体の変更、第1水準・第2水準間の字体の入れ替え。これ以降を新JIS
90JIS 漢字2字追加
97JIS 「包摂規準」
1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245字・漢字5801字
2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659字・漢字3685字(第3水準・第4水準)
2004年 改正
2001年 JIS X 0221 〈ISO10646(Unicode)系〉
エンコード別の文字番号の例†
文字 | JIS区点番号 | | Shift JIS | ISO 2022-JP | 日本語EUC |
私 | 27区68点 | 16進数 | 8E84 | 3B64 | BBE4 |
10進数 | 36484 | 15204 | 48100 |
2進数 | 1000111010000100 | 11101101100100 | 1011101111100100 |
は | 4区47点 | 16進数 | 82CD | 244F | A4CF |
10進数 | 33485 | 9295 | 42191 |
2進数 | 1000001011001101 | 10010001001111 | 1010010011001111 |
テキストデータ†
- テキストデータとは 文字をあらわすコードだけが並んでいるデータ
- テキストファイルとワープロファイルとの違い
- テキストファイルの種類
- テキストファイルの利点・注意点
- 文字化け
- 異なる文字コード
- 文字集合の違い →外字・機種依存文字
- 符号化方式の違い
- 異なるフォント
機種依存文字?†
機種依存文字劇場
Counter: 10687,
today: 3,
yesterday: 5