Vladimír Kraus: PDF
Predchozi (Obsah) Dalsi

2. Vlastnosti souborů PDF

Soubor PDF obsahuje sekvenci očíslovaných objektů - podobně jako v PostScriptu. Text, grafika a obrázky jsou definovány pomocí speciálních operátorů. Ty odpovídají operátorům používaným v PostScriptu. To ale neznamená, že je možné v interpretu PostScriptu prohlížet soubory formátu PDF. K tomu je nutná nejprve jejich konverze.

Struktura souboru formátu PDF je nezávislá na hardware, software i operačním systému, na kterém je vytvářen.

Soubor PDF obsahuje stránky (jednu nebo více) s kombinacemi textu, grafiky a obrázků. Reprezentace těchto objektů je nezávislá na typu a rozlišení zařízení, kde jsou zobrazovány. Dokument PDF může obsahovat i další objekty: zvuky, videa nebo hypertextové odkazy - tím se z pouhého textového dokumentu stává multimediální dokument.

2.1. Srovnání s PostScriptem

Formát PDF využívá k reprezentaci dokumentu stejné techniky jako PostScript. Objekty dokumentu jsou postupně vykreslovány na určené pozice. Takto jsou zobrazována jednotlivá písmena textu, křivky i obrázky dokumentu. Každý objekt může být zobrazen jinou barvou a může být ohraničen (ořezán) jiným objektem.

Hlavním rozdílem mezi PDF a PostScriptem je skutečnost, že PDF není programovací jazyk a neobsahuje proto procedury a dokonce ani proměnné. Formát PDF definuje operátory plně nahrazující možnosti procedur. Operátory s sebou přinášejí rychlejší zobrazování PDF dokumentů. Prováděné operace totiž nejsou interpretovány pomocí kódu v PDF souboru, ale jsou vykonávány přímo PDF prohlížečem - zde je jejich kód optimalizován na nejvyšší možnou míru. S absencí procedur a proměnných v kódu PDF dokumentu souvisí také efektivnější vyhledávání textu v dokumentu.

Protože formát PDF je podobný PostScriptu, je výhodné tisknout dokumenty PDF na PostScriptové tiskárně (ovšem ne přímo, ale z PDF prohlížeče). Tímto způsobem tisku se dosáhne lepší kvality vzhledu výsledného dokumentu.

2.2. Přenositelnost

PDF soubor je uložen buď ve formátu 7-bit ASCII nebo jako binární soubor. Hlavním důvodem užití formátu 7-bit ASCII je snaha vyhnout se případným potížím s přenosem PDF souborů v systémech, které buď vůbec nepovolují 8bitový přenos nebo např. provádějí konverzi znaků konce řádek.

Ze zkušeností ale plyne, že některé e-mailové programy se chovají k textovým dokumentům nepřátelsky a nejsou ochotny používat některé znaky ze 7-bit ASCII. To pak vede k poškození PDF souborů. Z tohoto důvodu je dobré označovat všechny PDF soubory jako binární.

2.3. Fonty

Jestliže jsou v dokumentu použity netradiční fonty, vyskytuje se v klasických textových editorech problém při přenosu takového dokumentu na počítač, kde tyto fonty nejsou přítomny. Obvykle je použit nějaký příbuzný font, což ale způsobí větší či menší změny ve vzhledu dokumentu.

Formát PDF tento problém řeší zahrnutím definice použitých fontů přímo do souboru dokumentu. Pro každý použitý font existuje v souboru tzv. font descriptor. Obsahuje jméno fontu, jeho velikost a informace o stylu jednotlivých písmen. Font descriptor zabírá v souboru kolem 1 až 2 KB.

Jestliže není použitý font PDF dokumentu nalezen v hostitelském počítači, je vygenerován nový font. Takový font si kompletně zachovává vlastnosti originálního fontu.

Tento postup je možný u fontů Adobe Type 1 a TrueType. Speciální fonty, které nepoužívají standardní sadu znaků ISOLatin1, nelze tímto postupem efektivně generovat. V případě výskytu těchto fontů se k souboru PDF připojuje kompletní komprimovaný soubor s jejich popisem.

2.4. Jednocestný průchod

Formát PDF je navržen tak, aby byl při jeho generování nutný jen jeden průchod souborem (tj. bez navracení se do již vygenerovaných částí). Oprávněnost této strategie se ukazuje u rozsáhlých dokumentů nebo na počítačích s malou operační pamětí. Typickým příkladem je zapsání celkového počtu stránek dokumentu až na konec souboru PDF.

2.5. Zobrazování PDF dokumentů

Soubory formátu PostScript je nutné při požadavku na zobrazení určité stránky prohledávat od začátku dokumentu. To s sebou přináší značné zpomalení práce s dokumentem.

Formát PDF naproti tomu obsahuje tabulku křížových odkazů - cross-reference table. Ta je využívána k přímému - a tedy rychlému - nalezení jednotlivých stránek a dalších významných objektů v dokumentu.

Tabulka křížových odkazů je umístěna na konci PDF souboru. To je v souladu s myšlenkou jednoho průchodu souborem při generování dokumentu. V tabulce křížových odkazů jsou zaznamenány přímé odkazy na místa v souboru, kde se nacházejí jednotlivé objekty dokumentu. Tím se značně urychluje vyhledávání těchto objektů. Časová náročnost nalezení určitého objektu (např. stránky) se tak stává nezávislou na celkovém počtu stránek dokumentu.

2.6. Modifikace dokumentu

Autor dokumentu chce často změnit jen určitou část svého díla. V klasických formátech dokumentů to vždy znamená nové vytvoření celého souboru. Ve formátu PDF je možné připojit změněnou část na konec souboru - předchozí část souboru zůstává nezměněna. Tím se snižuje časová náročnost při ukládání změn. Zároveň je díky tomuto způsobu ulehčen mechanismus navracení se k podobě dokumentu před provedením změny - undo.

K souboru je při ukládání modifikací přidána příloha, v níž jsou odkazy na editované objekty a kde je také aktualizovaný doplněk tabulky křížových odkazů. Tento doplněk (resp. jeho objekty) zastiňuje editované objekty v původních tabulkách křížových odkazů.

2.7. Rozšiřitelnost dokumentů

Návrh PDF myslí na vytváření nových verzí tohoto formátu. V novějších verzích mohou být definovány nové operátory (např. pro práci na Internetu). Standard PDF určuje jakým způsobem se mají prohlížeče chovat k dokumentu ve vyšší verzi PDF, než se kterou standardně pracují. Prohlížeč by tedy neměl odmítat načtení novější verze souboru.

Je samozřejmostí, že formát PDF je plně kompatibilní směrem k dřívějším verzím. Není nutné provádět žádné konverze.


Predchozi
Converted by Selathco 0.85 on 08.06.1999 11:18
Dalsi