Kódy Unicode a UTF-8
- KOI-8
- Kameníci
- x-mac-ce – Apple
- CP852 – IBM na PC (DOS čeština)
- CP1250 – Microsoft (Windows čeština)
- ISO-8859-2 – mezinárodní standard (UNIX čeština) – podporovaná v sítích, e-mailech (MIME) a WWW (musí ji umět každý WWW klient)
- univerzálnost – musí být dostatečná kapacita pro všechny známé znaky
- jednotnost – konstantní šířka znaků dovoluje efektivní třídění, hledání, zobrazování a editaci
- jednoznačnost – jakákoliv 16bitová hodnota reprezentuje v jakémkoliv kontextu vždy tentýž znak
- větší (dvojnásobná) délka textů
- 256x větší znaková sada ve fontech (u Microsoftu mají Unicode fonty jen podmnožinu znaků, ale lze si pořídit i “plné” fonty)
(Arial 140KB, Times New Roman 185 KB, Lucida Sans Unicode 298 KB)- nekompatibilní s 8bitovým prostředím – nelze současně používat Unicode a libovolné 8bitové kódování (již vyřešeno v rámci jednotlivých aplikací – Java, Word)
znak Unicode |
max. |
kódování UTF-8 |
0000–007F |
7 |
0xxx xxxx |
0080–07FF |
11 |
110x xxxx 10xx xxxx |
0800–FFFF |
16 |
1110 xxxx 10xx xxxx 10xx xxxx |
Unicode |
UTF-8 |
|
| B | 0000 0000 0100 0010 | 0100 0010 |
| é | 0000 0000 1110 1001 | 1100 0011 1010 1001 |
| ď | 0000 0001 0000 1111 | 1100 0100 1000 1111 |
| a | 0000 0000 0110 0001 | 0110 0001 |
na disku, kdy jsou méně významové bajty na nižší adrese (Little Endian):
| Unicode | UTF-8 | |||||||
| FF FE | 42 00 | E9 00 | 0F 01 | 61 00 | 42 | C3 A9 | C4 8F | 61 |
| B | é | ď | a | B | é | ď | a | |
| značka dodaná editorem, podle,
které se pozná, že je to kódováno v Unicode |
||||||||
Co s neznámým textem?
- je-li na začátku dvojice bajtů FF FE je to Unicode
- je-li každý druhý znak 00 nebo 01 je to Unicode (připsat binárním editorem na úplný začátek souboru dvojici bajtů FF FE )
- je-li text složený z neakcentovaných znaků normálně čitelný a místo předpokládaných akcentovaných znaků jsou dva nesmyslné znaky, pak se jedná o UTF-8
(soubor otevřít v Internet Exploreru a uložit jako CP1250)
Jak je to ve Windows NT
soubor b-1250.txt je v češtině CP1250

soubor b-unico.txt je v Unicode



soubor b-uni-u8.txt je v UTF-8 (vznikl z Unicode)








soubor b-1250-u.txt je v Unicode (vznikl z CP1250)

pro porovnání soubor b-unico.txt , který byl vytvořen Notepadem


kódování UTF-8 je při ukládání nutno explicitně zvolit

soubor b-1250.htm je v UTF-8 (vznikl z CP1250)



soubor b-1250-a.doc je ve fontu Arial (vznikl z CP1250)
soubor b-1250-l.doc je ve fontu Lucida Sans Unicode



Jak Word 97 pracuje s fonty v Unicode


Poslední změna: 14. 6. 1999
Počet přístupů od 14. 6. 1999:
Pavel
Herout