ocr
Obsah
OCR (Optical Character Recognition)
OCR je technologie na pomezí počítačového vidění a umělé inteligence. Umožňuje transformovat dokumenty, které jsou pro počítač pouze „shlukem pixelů“ (obrázkem), na strukturovaná data. Díky OCR můžeme v naskenovaných PDF souborech vyhledávat, kopírovat z nich text nebo automaticky zpracovávat faktury.
Jak proces OCR probíhá?
Aby bylo rozpoznání přesné, musí software projít několika kroky:
1. **Předzpracování (Preprocessing):** Obraz se vyčistí od šumu, narovná se (pokud byl papír nakřivo) a převede se do černobílé podoby (binarizace), aby vynikly kontury písma. 2. **Segmentace:** Algoritmus najde v obraze řádky, slova a nakonec jednotlivé znaky. 3. **Rozpoznávání (Feature Extraction vs. Pattern Matching):** * **Pattern Matching:** Porovnávání znaku s databází známých písem (fontů). * **Feature Extraction:** Inteligentnější metoda, která hledá rysy znaku (např. "dvě svislé čáry a jedna vodorovná uprostřed" = písmeno H). 4. **Postprocessing:** Kontrola pravopisu a kontextu. Pokud systém váhá mezi "0" (nula) a "O" (písmeno), podívá se na okolní slova, aby určil pravděpodobnější variantu.
Klíčové technologie a pokrok
V posledních letech prošlo OCR revolucí díky integraci umělé inteligence:
- ICR (Intelligent Character Recognition): Pokročilejší verze OCR zaměřená na ručně psané písmo. Zatímco klasické OCR si poradí s tiskem, ICR se učí rozpoznávat různé styly rukopisu.
- Deep Learning (Hluboké učení): Moderní systémy (jako Google Tesseract nebo cloudové služby Azure/AWS) využívají neuronové sítě, které rozumí kontextu celých vět, což dramaticky zvyšuje přesnost i u nekvalitních skenů.
Praktické využití v reálném světě
| Oblast | Příklady použití |
|---|---|
| Administrativa | Automatické vytěžování dat z faktur a smluv do účetních systémů. |
| Doprava | Rozpoznávání SPZ vozidel na parkovištích nebo mýtných branách. |
| Překlad | Mobilní aplikace, které v reálném čase překládají text namířením kamery (např. jídelní lístek v cizině). |
| Historie | Digitalizace starých knih a archivů pro snadné vyhledávání. |
| Bankovnictví | Čtení údajů z platebních karet nebo šeků pomocí telefonu. |
Omezení a výzvy
Přestože je technologie na vysoké úrovni, stále existují limity:
- Nekvalitní zdroj: Rozmazané fotky, pomačkaný papír nebo velmi nízké rozlišení (málo pixelů) vedou k chybám.
- Složitý layout: Vícesloupcové sazby, text přes obrázky nebo tabulky mohou algoritmus zmást.
- Umělecká písma: Extrémně zdobná nebo neobvyklá písma jsou pro standardní OCR nástroje stále oříškem.
Související pojmy: Computer Vision, Pixel, Umělá inteligence, Neuronové sítě, PDF, Digitalizace.
ocr.txt · Poslední úprava: autor: admin
