====== Data Lake (Datové jezero) ====== **Data Lake** je rozsáhlé úložiště, které uchovává data v jejich nativním formátu (raw), dokud nejsou potřeba pro analýzu. Je postaveno na principu **Schema-on-Read**, což znamená, že struktura dat se definuje až ve chvíli, kdy je čteme, nikoliv při jejich ukládání. Je to klíčová součást moderní [[it_encyklopedie:mlops|MLOps]] infrastruktury a [[it_encyklopedie:big_data|Big Data]] architektury, protože umožňuje levně ukládat petabajty informací bez nutnosti okamžitého čištění. ===== 1. Architektura: Od surových dat k informacím ===== Moderní data lake se obvykle dělí do logických zón (často nazývaných **Medallion Architecture**): * **Bronze (Raw):** Zóna pro surová data přímo ze zdrojů. Data jsou zde uložena "tak jak jsou", včetně chyb a duplicit. * **Silver (Trusted):** Data jsou vyčištěná, normalizovaná a připravená pro datové vědce k experimentování. * **Gold (Refined):** Data jsou agregovaná a strukturovaná pro konkrétní business potřeby (např. reporting). ===== 2. Data Lake vs. Data Warehouse ===== Tyto dva koncepty se často pletou, ale slouží k odlišným účelům: ^ Vlastnost ^ Data Lake ^ Data Warehouse ^ | **Data** | Strukturovaná, polostrukturovaná i nestrukturovaná. | Pouze vysoce strukturovaná (tabulky). | | **Předpis (Schema)** | **Schema-on-Read** (při čtení). | **Schema-on-Write** (při zápisu). | | **Uživatelé** | Datoví vědci, ML inženýři. | Business analytici, manažeři. | | **Cena** | Nízká (levné cloudové úložiště). | Vyšší (optimalizováno pro výkon). | | **Hlavní účel** | Experimentování, [[it_encyklopedie:generativni_model|trénování AI]]. | BI, reportování, historické přehledy. | ===== 3. Technologie pro Data Lake ===== Data lake obvykle běží na distribuovaných systémech: * **Cloudová úložiště:** Amazon S3, Azure Data Lake Storage (ADLS), Google Cloud Storage. * **On-premise / Open source:** Apache Hadoop (HDFS). * **Formáty souborů:** Pro efektivní čtení se používají sloupcové formáty jako **Parquet** nebo **Avro**. * **Správa metadat:** Nástroje jako **Apache Hive** nebo **AWS Glue**, které udržují přehled o tom, co v "jezeře" vlastně je. ===== 4. Hlavní výhody a rizika ===== **Výhody:** * **Flexibilita:** Můžete uložit data, pro která zatím nemáte využití, ale v budoucnu mohou být cenná. * **Škálovatelnost:** Snadno roste s objemem dat (petabajty nejsou problém). * **Demokratizace dat:** Všechny týmy mají přístup k jednomu centrálnímu zdroji pravdy. **Rizika (Data Swamp):** Bez správného katalogování, správy metadat a řízení přístupů se data lake může změnit v **Data Swamp** (datovou bažinu) – místo, kde sice data jsou, ale nikdo je neumí najít, pochopit nebo ověřit jejich kvalitu. ===== 5. Budoucnost: Data Lakehouse ===== Dnes se tyto světy propojují do konceptu **Data Lakehouse** (např. Databricks nebo Snowflake). Ten kombinuje levné úložiště a flexibilitu jezera s výkonem a správou transakcí (ACID), kterou známe z datových skladů. > **Příklad z praxe:** E-shop ukládá do Data Lake všechna kliknutí uživatelů na webu (miliardy řádků měsíčně). Datoví vědci z těchto surových dat následně trénují doporučovací systém, zatímco vyčištěná data o nákupech posílají do Data Warehouse pro měsíční přehled tržeb. [[it_encyklopedie:data_rozcestnik|Zpět na Data a Databáze]]