Obsah

Big Data

Big Data je termín popisující masivní objemy dat (strukturovaných i nestrukturovaných), která se každodenně valí firmami a internetem. V kontextu Big Data není nejdůležitější množství dat samo o sobě, ale to, co s nimi organizace dělají – jak je analyzují pro lepší rozhodování, predikci trendů a automatizaci.


Charakteristika: Model 5V

Pro definici Big Data se používá model „V“, který se postupně rozšiřoval z původních tří na pět (i více) základních charakteristik:

1. Volume (Objem)

Množství generovaných dat. Mluvíme o terabytech (TB), petabytech (PB) a exabytech (EB). Data pocházejí z logů, sociálních sítí, senzorů a transakcí.

2. Velocity (Rychlost)

Rychlost, jakou jsou data generována a jak rychle musí být zpracována. Příkladem jsou data z burzy nebo senzory v autonomních vozidlech, kde i milisekunda hraje roli.

3. Variety (Rozmanitost)

Data přicházejí v mnoha formátech:

4. Veracity (Věrohodnost)

Kvalita a přesnost dat. U obrovských souborů je problémem „šum“ – neúplná nebo chybná data, která mohou zkreslit výsledky analýzy.

5. Value (Hodnota)

Nejdůležitější bod. Data jsou k ničemu, pokud z nich nedokážeme získat užitečnou informaci, která pomůže byznysu nebo vědě.


Architektura a technologie

Tradiční SQL databáze na Big Data nestačí. Proto vznikly nové přístupy:

Hadoop a MapReduce

Apache Hadoop je open-source framework, který umožňuje distribuované ukládání a zpracování obrovských souborů na klastrech běžných počítačů.

NoSQL Databáze

Databáze, které nevyžadují pevné schéma (tabulky) a skvěle škálují horizontálně.

Real-time Processing (Proudové zpracování)

Nástroje pro analýzu dat v okamžiku, kdy vznikají.


Analytické metody

Zpracování Big Data se dělí do čtyř úrovní podle toho, co nám říkají:

1. **Deskriptivní (Co se stalo?):** Reporty o prodejích za minulý měsíc.
2. **Diagnostická (Proč se to stalo?):** Hledání příčin poklesu výkonu.
3. **Prediktivní (Co se stane?):** Předpověď odchodu zákazníků ke konkurenci pomocí [[machine_learning|strojového učení]].
4. **Preskriptivní (Co máme dělat?):** Algoritmus sám navrhne nejlepší trasu pro kamion nebo cenu letenky.

Praktické využití


Výzvy a rizika


Související pojmy: Hadoop, Spark, NoSQL, Machine Learning, Data Warehouse, Data Lake, GDPR.