Kódy Unicode a UTF-8

znak Unicode

max.
významových
bitů

kódování UTF-8

0000–007F

7

0xxx xxxx

0080–07FF

11

110x xxxx 10xx xxxx

0800–FFFF

16

1110 xxxx 10xx xxxx 10xx xxxx

 

 

 

Unicode

UTF-8

B 0000 0000 0100 0010 0100 0010
é 0000 0000 1110 1001 1100 0011 1010 1001
ď 0000 0001 0000 1111 1100 0100 1000 1111
a 0000 0000 0110 0001 0110 0001

na disku, kdy jsou méně významové bajty na nižší adrese (Little Endian):

Unicode UTF-8
FF FE 42 00 E9 00 0F 01 61 00 42 C3 A9 C4 8F 61
  B é ď a B é ď a
značka dodaná editorem, podle, které se pozná,
že je to kódováno v Unicode

 

Co s neznámým textem?

 

Jak je to ve Windows NT

 

soubor b-1250.txt je v češtině CP1250

soubor b-unico.txt je v Unicode

 

 

 

soubor b-uni-u8.txt je v UTF-8 (vznikl z Unicode)

 

 

 

 

 

 

soubor b-1250-u.txt je v Unicode (vznikl z CP1250)

pro porovnání soubor b-unico.txt , který byl vytvořen Notepadem

 

kódování UTF-8 je při ukládání nutno explicitně zvolit

soubor b-1250.htm je v UTF-8 (vznikl z CP1250)

 

soubor b-1250-a.doc je ve fontu Arial (vznikl z CP1250)
soubor
b-1250-l.doc je ve fontu Lucida Sans Unicode

 

Jak Word 97 pracuje s fonty v Unicode

 

 




 Zpět na domácí stránku   Zpět na stránku průzkumů 

Poslední změna: 14. 6. 1999
Počet přístupů od 14. 6. 1999:

Pavel Herout