Obsah
Big Data
Big Data je termín popisující masivní objemy dat (strukturovaných i nestrukturovaných), která se každodenně valí firmami a internetem. V kontextu Big Data není nejdůležitější množství dat samo o sobě, ale to, co s nimi organizace dělají – jak je analyzují pro lepší rozhodování, predikci trendů a automatizaci.
Charakteristika: Model 5V
Pro definici Big Data se používá model „V“, který se postupně rozšiřoval z původních tří na pět (i více) základních charakteristik:
1. Volume (Objem)
Množství generovaných dat. Mluvíme o terabytech (TB), petabytech (PB) a exabytech (EB). Data pocházejí z logů, sociálních sítí, senzorů a transakcí.
2. Velocity (Rychlost)
Rychlost, jakou jsou data generována a jak rychle musí být zpracována. Příkladem jsou data z burzy nebo senzory v autonomních vozidlech, kde i milisekunda hraje roli.
3. Variety (Rozmanitost)
Data přicházejí v mnoha formátech:
- Strukturovaná: Tabulky, databáze.
- Polostrukturovaná: XML, JSON soubory.
- Nestrukturovaná: Textové dokumenty, e-maily, video, audio, obrázky.
4. Veracity (Věrohodnost)
Kvalita a přesnost dat. U obrovských souborů je problémem „šum“ – neúplná nebo chybná data, která mohou zkreslit výsledky analýzy.
5. Value (Hodnota)
Nejdůležitější bod. Data jsou k ničemu, pokud z nich nedokážeme získat užitečnou informaci, která pomůže byznysu nebo vědě.
Architektura a technologie
Tradiční SQL databáze na Big Data nestačí. Proto vznikly nové přístupy:
Hadoop a MapReduce
Apache Hadoop je open-source framework, který umožňuje distribuované ukládání a zpracování obrovských souborů na klastrech běžných počítačů.
- HDFS (Hadoop Distributed File System): Rozdělí data na malé bloky a uloží je na různé uzly v klastru.
- MapReduce: Algoritmus, který rozdělí úlohu na menší části, ty zpracuje paralelně a výsledek složí dohromady.
NoSQL Databáze
Databáze, které nevyžadují pevné schéma (tabulky) a skvěle škálují horizontálně.
- MongoDB: Dokumentová databáze.
- Cassandra: Širokosloupcová databáze (původně z Facebooku).
Real-time Processing (Proudové zpracování)
Nástroje pro analýzu dat v okamžiku, kdy vznikají.
- Apache Spark: Mnohem rychlejší než MapReduce, protože zpracovává data v operační paměti (In-Memory).
- Apache Kafka: Systém pro distribuované zasílání zpráv a sběr dat z tisíců zdrojů.
Analytické metody
Zpracování Big Data se dělí do čtyř úrovní podle toho, co nám říkají:
1. **Deskriptivní (Co se stalo?):** Reporty o prodejích za minulý měsíc. 2. **Diagnostická (Proč se to stalo?):** Hledání příčin poklesu výkonu. 3. **Prediktivní (Co se stane?):** Předpověď odchodu zákazníků ke konkurenci pomocí [[machine_learning|strojového učení]]. 4. **Preskriptivní (Co máme dělat?):** Algoritmus sám navrhne nejlepší trasu pro kamion nebo cenu letenky.
Praktické využití
- Personalizovaný marketing: Netflix nebo YouTube vám doporučují obsah na základě analýzy chování milionů jiných uživatelů.
- Zdravotnictví: Analýza genomu, predikce epidemií nebo vývoj léků díky simulacím na obrovských vzorcích.
- Smart Cities: Řízení dopravy v reálném čase podle dat ze semaforů, GPS a kamer.
- Bankovnictví: Okamžitá detekce podvodných transakcí (fraud detection).
Výzvy a rizika
- Soukromí a etika: Sběr tak velkého množství dat o lidech vede k obavám ze sledování (GDPR).
- Bezpečnost: Big Data soustřeďují obrovské množství informací na jednom místě, což je lákavý cíl pro útočníky.
- Nedostatek expertů: Práce s těmito technologiemi vyžaduje „Data Scientists“ – odborníky na statistiku i programování.
Související pojmy: Hadoop, Spark, NoSQL, Machine Learning, Data Warehouse, Data Lake, GDPR.
