Obsah

PDF (Portable Document Format)

PDF je univerzální formát vyvinutý společností Adobe v roce 1993. Jeho hlavním cílem je zajistit, aby se dokument zobrazoval a tiskl identicky na všech zařízeních. Na rozdíl od dokumentů Word (.docx), které se mohou „rozsypat“ při otevření v jiné verzi programu, je PDF digitálním ekvivalentem papírového výtisku.


Klíčové vlastnosti PDF


Jak PDF funguje (PostScript základ)

PDF vychází z jazyka PostScript. Místo aby si ukládalo informaci „tady je odstavec textu“, ukládá si přesné instrukce typu: „použij font Helvetica velikosti 12 a vykresli písmeno 'A' na souřadnice [X, Y]“. Díky tomu je formát tak stabilní.


Typy PDF dokumentů

Není každé PDF stejné, což je důležité zejména pro technologie jako OCR:

1. "Pravé" PDF (Digitálně vytvořené)

Vzniklo uložením z programu (Word, Excel). Text je v něm uložen jako text, lze v něm vyhledávat a kopírovat ho.

2. "Obrazové" PDF (Skenované)

Vzniklo naskenováním papíru. Pro počítač je to jen jeden velký obrázek (shluk pixelů). Aby v něm bylo možné vyhledávat, musí se na něj použít technika OCR.

3. PDF/A (Archivační)

Speciální standard pro dlouhodobé uchovávání dokumentů. Zakazuje prvky, které by v budoucnu nemusely fungovat (např. odkazy na externí fonty nebo JavaScript).


Výhody a nevýhody

Vlastnost Výhoda Nevýhoda
Zobrazení Všude vypadá stejně. Špatně se přizpůsobuje malým displejům (nereflow).
Úpravy Skvělé pro finální verzi. Velmi obtížně se v něm mění obsah (není to textový editor).
Standard Otevřený standard ISO. Soubory s vysokým rozlišením mohou být velmi velké.

Práce s PDF


Související pojmy: OCR, Digitalizace, PostScript, Pixel, Komprese, Font.