PDF je univerzální formát vyvinutý společností Adobe v roce 1993. Jeho hlavním cílem je zajistit, aby se dokument zobrazoval a tiskl identicky na všech zařízeních. Na rozdíl od dokumentů Word (.docx), které se mohou „rozsypat“ při otevření v jiné verzi programu, je PDF digitálním ekvivalentem papírového výtisku.
PDF vychází z jazyka PostScript. Místo aby si ukládalo informaci „tady je odstavec textu“, ukládá si přesné instrukce typu: „použij font Helvetica velikosti 12 a vykresli písmeno 'A' na souřadnice [X, Y]“. Díky tomu je formát tak stabilní.
Není každé PDF stejné, což je důležité zejména pro technologie jako OCR:
Vzniklo uložením z programu (Word, Excel). Text je v něm uložen jako text, lze v něm vyhledávat a kopírovat ho.
Vzniklo naskenováním papíru. Pro počítač je to jen jeden velký obrázek (shluk pixelů). Aby v něm bylo možné vyhledávat, musí se na něj použít technika OCR.
Speciální standard pro dlouhodobé uchovávání dokumentů. Zakazuje prvky, které by v budoucnu nemusely fungovat (např. odkazy na externí fonty nebo JavaScript).
| Vlastnost | Výhoda | Nevýhoda |
|---|---|---|
| Zobrazení | Všude vypadá stejně. | Špatně se přizpůsobuje malým displejům (nereflow). |
| Úpravy | Skvělé pro finální verzi. | Velmi obtížně se v něm mění obsah (není to textový editor). |
| Standard | Otevřený standard ISO. | Soubory s vysokým rozlišením mohou být velmi velké. |
Související pojmy: OCR, Digitalizace, PostScript, Pixel, Komprese, Font.