====== Big Data ====== **Big Data** je termín popisující masivní objemy dat (strukturovaných i nestrukturovaných), která se každodenně valí firmami a internetem. V kontextu Big Data není nejdůležitější množství dat samo o sobě, ale to, co s nimi organizace dělají – jak je analyzují pro lepší rozhodování, predikci trendů a automatizaci. ---- ====== Charakteristika: Model 5V ====== Pro definici Big Data se používá model "V", který se postupně rozšiřoval z původních tří na pět (i více) základních charakteristik: ===== 1. Volume (Objem) ===== Množství generovaných dat. Mluvíme o terabytech (TB), petabytech (PB) a exabytech (EB). Data pocházejí z logů, sociálních sítí, senzorů a transakcí. ===== 2. Velocity (Rychlost) ===== Rychlost, jakou jsou data generována a jak rychle musí být zpracována. Příkladem jsou data z burzy nebo senzory v autonomních vozidlech, kde i milisekunda hraje roli. ===== 3. Variety (Rozmanitost) ===== Data přicházejí v mnoha formátech: * **Strukturovaná:** Tabulky, databáze. * **Polostrukturovaná:** XML, JSON soubory. * **Nestrukturovaná:** Textové dokumenty, e-maily, video, audio, obrázky. ===== 4. Veracity (Věrohodnost) ===== Kvalita a přesnost dat. U obrovských souborů je problémem "šum" – neúplná nebo chybná data, která mohou zkreslit výsledky analýzy. ===== 5. Value (Hodnota) ===== Nejdůležitější bod. Data jsou k ničemu, pokud z nich nedokážeme získat užitečnou informaci, která pomůže byznysu nebo vědě. ---- ====== Architektura a technologie ====== Tradiční SQL databáze na Big Data nestačí. Proto vznikly nové přístupy: ===== Hadoop a MapReduce ===== **Apache Hadoop** je open-source framework, který umožňuje distribuované ukládání a zpracování obrovských souborů na klastrech běžných počítačů. * **HDFS (Hadoop Distributed File System):** Rozdělí data na malé bloky a uloží je na různé uzly v klastru. * **MapReduce:** Algoritmus, který rozdělí úlohu na menší části, ty zpracuje paralelně a výsledek složí dohromady. ===== NoSQL Databáze ===== Databáze, které nevyžadují pevné schéma (tabulky) a skvěle škálují horizontálně. * **MongoDB:** Dokumentová databáze. * **Cassandra:** Širokosloupcová databáze (původně z Facebooku). ===== Real-time Processing (Proudové zpracování) ===== Nástroje pro analýzu dat v okamžiku, kdy vznikají. * **Apache Spark:** Mnohem rychlejší než MapReduce, protože zpracovává data v operační paměti (In-Memory). * **Apache Kafka:** Systém pro distribuované zasílání zpráv a sběr dat z tisíců zdrojů. ---- ====== Analytické metody ====== Zpracování Big Data se dělí do čtyř úrovní podle toho, co nám říkají: 1. **Deskriptivní (Co se stalo?):** Reporty o prodejích za minulý měsíc. 2. **Diagnostická (Proč se to stalo?):** Hledání příčin poklesu výkonu. 3. **Prediktivní (Co se stane?):** Předpověď odchodu zákazníků ke konkurenci pomocí [[machine_learning|strojového učení]]. 4. **Preskriptivní (Co máme dělat?):** Algoritmus sám navrhne nejlepší trasu pro kamion nebo cenu letenky. ---- ====== Praktické využití ====== * **Personalizovaný marketing:** Netflix nebo YouTube vám doporučují obsah na základě analýzy chování milionů jiných uživatelů. * **Zdravotnictví:** Analýza genomu, predikce epidemií nebo vývoj léků díky simulacím na obrovských vzorcích. * **Smart Cities:** Řízení dopravy v reálném čase podle dat ze semaforů, GPS a kamer. * **Bankovnictví:** Okamžitá detekce podvodných transakcí (fraud detection). ---- ====== Výzvy a rizika ====== * **Soukromí a etika:** Sběr tak velkého množství dat o lidech vede k obavám ze sledování (GDPR). * **Bezpečnost:** Big Data soustřeďují obrovské množství informací na jednom místě, což je lákavý cíl pro útočníky. * **Nedostatek expertů:** Práce s těmito technologiemi vyžaduje "Data Scientists" – odborníky na statistiku i programování. ---- //Související pojmy: Hadoop, Spark, NoSQL, Machine Learning, Data Warehouse, Data Lake, GDPR.//