====== OCR (Optical Character Recognition) ====== **OCR** je technologie na pomezí [[computer_vision|počítačového vidění]] a umělé inteligence. Umožňuje transformovat dokumenty, které jsou pro počítač pouze "shlukem [[pixel|pixelů]]" (obrázkem), na strukturovaná data. Díky OCR můžeme v naskenovaných PDF souborech vyhledávat, kopírovat z nich text nebo automaticky zpracovávat faktury. ---- ====== Jak proces OCR probíhá? ====== Aby bylo rozpoznání přesné, musí software projít několika kroky: 1. **Předzpracování (Preprocessing):** Obraz se vyčistí od šumu, narovná se (pokud byl papír nakřivo) a převede se do černobílé podoby (binarizace), aby vynikly kontury písma. 2. **Segmentace:** Algoritmus najde v obraze řádky, slova a nakonec jednotlivé znaky. 3. **Rozpoznávání (Feature Extraction vs. Pattern Matching):** * **Pattern Matching:** Porovnávání znaku s databází známých písem (fontů). * **Feature Extraction:** Inteligentnější metoda, která hledá rysy znaku (např. "dvě svislé čáry a jedna vodorovná uprostřed" = písmeno H). 4. **Postprocessing:** Kontrola pravopisu a kontextu. Pokud systém váhá mezi "0" (nula) a "O" (písmeno), podívá se na okolní slova, aby určil pravděpodobnější variantu. ---- ====== Klíčové technologie a pokrok ====== V posledních letech prošlo OCR revolucí díky integraci umělé inteligence: * **ICR (Intelligent Character Recognition):** Pokročilejší verze OCR zaměřená na **ručně psané písmo**. Zatímco klasické OCR si poradí s tiskem, ICR se učí rozpoznávat různé styly rukopisu. * **Deep Learning (Hluboké učení):** Moderní systémy (jako Google Tesseract nebo cloudové služby Azure/AWS) využívají neuronové sítě, které rozumí kontextu celých vět, což dramaticky zvyšuje přesnost i u nekvalitních skenů. ---- ====== Praktické využití v reálném světě ====== ^ Oblast ^ Příklady použití ^ | **Administrativa** | Automatické vytěžování dat z faktur a smluv do účetních systémů. | | **Doprava** | Rozpoznávání SPZ vozidel na parkovištích nebo mýtných branách. | | **Překlad** | Mobilní aplikace, které v reálném čase překládají text namířením kamery (např. jídelní lístek v cizině). | | **Historie** | Digitalizace starých knih a archivů pro snadné vyhledávání. | | **Bankovnictví** | Čtení údajů z platebních karet nebo šeků pomocí telefonu. | ---- ====== Omezení a výzvy ====== Přestože je technologie na vysoké úrovni, stále existují limity: * **Nekvalitní zdroj:** Rozmazané fotky, pomačkaný papír nebo velmi nízké rozlišení (málo [[pixel|pixelů]]) vedou k chybám. * **Složitý layout:** Vícesloupcové sazby, text přes obrázky nebo tabulky mohou algoritmus zmást. * **Umělecká písma:** Extrémně zdobná nebo neobvyklá písma jsou pro standardní OCR nástroje stále oříškem. ---- //Související pojmy: Computer Vision, Pixel, Umělá inteligence, Neuronové sítě, PDF, Digitalizace.//