OCR je technologie na pomezí počítačového vidění a umělé inteligence. Umožňuje transformovat dokumenty, které jsou pro počítač pouze „shlukem pixelů“ (obrázkem), na strukturovaná data. Díky OCR můžeme v naskenovaných PDF souborech vyhledávat, kopírovat z nich text nebo automaticky zpracovávat faktury.
Aby bylo rozpoznání přesné, musí software projít několika kroky:
1. **Předzpracování (Preprocessing):** Obraz se vyčistí od šumu, narovná se (pokud byl papír nakřivo) a převede se do černobílé podoby (binarizace), aby vynikly kontury písma. 2. **Segmentace:** Algoritmus najde v obraze řádky, slova a nakonec jednotlivé znaky. 3. **Rozpoznávání (Feature Extraction vs. Pattern Matching):** * **Pattern Matching:** Porovnávání znaku s databází známých písem (fontů). * **Feature Extraction:** Inteligentnější metoda, která hledá rysy znaku (např. "dvě svislé čáry a jedna vodorovná uprostřed" = písmeno H). 4. **Postprocessing:** Kontrola pravopisu a kontextu. Pokud systém váhá mezi "0" (nula) a "O" (písmeno), podívá se na okolní slova, aby určil pravděpodobnější variantu.
V posledních letech prošlo OCR revolucí díky integraci umělé inteligence:
| Oblast | Příklady použití |
|---|---|
| Administrativa | Automatické vytěžování dat z faktur a smluv do účetních systémů. |
| Doprava | Rozpoznávání SPZ vozidel na parkovištích nebo mýtných branách. |
| Překlad | Mobilní aplikace, které v reálném čase překládají text namířením kamery (např. jídelní lístek v cizině). |
| Historie | Digitalizace starých knih a archivů pro snadné vyhledávání. |
| Bankovnictví | Čtení údajů z platebních karet nebo šeků pomocí telefonu. |
Přestože je technologie na vysoké úrovni, stále existují limity:
Související pojmy: Computer Vision, Pixel, Umělá inteligence, Neuronové sítě, PDF, Digitalizace.