OCR (Optical Character Recognition)

OCR je technologie na pomezí počítačového vidění a umělé inteligence. Umožňuje transformovat dokumenty, které jsou pro počítač pouze „shlukem pixelů“ (obrázkem), na strukturovaná data. Díky OCR můžeme v naskenovaných PDF souborech vyhledávat, kopírovat z nich text nebo automaticky zpracovávat faktury.

Jak proces OCR probíhá?

Aby bylo rozpoznání přesné, musí software projít několika kroky:

1. **Předzpracování (Preprocessing):** Obraz se vyčistí od šumu, narovná se (pokud byl papír nakřivo) a převede se do černobílé podoby (binarizace), aby vynikly kontury písma.
2. **Segmentace:** Algoritmus najde v obraze řádky, slova a nakonec jednotlivé znaky.
3. **Rozpoznávání (Feature Extraction vs. Pattern Matching):**
  * **Pattern Matching:** Porovnávání znaku s databází známých písem (fontů).
  * **Feature Extraction:** Inteligentnější metoda, která hledá rysy znaku (např. "dvě svislé čáry a jedna vodorovná uprostřed" = písmeno H).
4. **Postprocessing:** Kontrola pravopisu a kontextu. Pokud systém váhá mezi "0" (nula) a "O" (písmeno), podívá se na okolní slova, aby určil pravděpodobnější variantu.

Klíčové technologie a pokrok

V posledních letech prošlo OCR revolucí díky integraci umělé inteligence:

ICR (Intelligent Character Recognition): Pokročilejší verze OCR zaměřená na ručně psané písmo. Zatímco klasické OCR si poradí s tiskem, ICR se učí rozpoznávat různé styly rukopisu.
Deep Learning (Hluboké učení): Moderní systémy (jako Google Tesseract nebo cloudové služby Azure/AWS) využívají neuronové sítě, které rozumí kontextu celých vět, což dramaticky zvyšuje přesnost i u nekvalitních skenů.

Praktické využití v reálném světě

Oblast	Příklady použití
Administrativa	Automatické vytěžování dat z faktur a smluv do účetních systémů.
Doprava	Rozpoznávání SPZ vozidel na parkovištích nebo mýtných branách.
Překlad	Mobilní aplikace, které v reálném čase překládají text namířením kamery (např. jídelní lístek v cizině).
Historie	Digitalizace starých knih a archivů pro snadné vyhledávání.
Bankovnictví	Čtení údajů z platebních karet nebo šeků pomocí telefonu.

Omezení a výzvy

Přestože je technologie na vysoké úrovni, stále existují limity:

Nekvalitní zdroj: Rozmazané fotky, pomačkaný papír nebo velmi nízké rozlišení (málo pixelů) vedou k chybám.
Složitý layout: Vícesloupcové sazby, text přes obrázky nebo tabulky mohou algoritmus zmást.
Umělecká písma: Extrémně zdobná nebo neobvyklá písma jsou pro standardní OCR nástroje stále oříškem.

Související pojmy: Computer Vision, Pixel, Umělá inteligence, Neuronové sítě, PDF, Digitalizace.