====== Cloud Monitoring ======

**Cloud Monitoring** je metoda dohledu nad cloudovou infrastrukturou, službami a aplikacemi v reálném čase. Pomocí automatizovaných nástrojů sbírá data (metriky, logy, trasy), která umožňují správcům zajistit vysokou dostupnost, optimální výkon a nákladovou efektivitu.

V cloudovém prostředí, kde se zdroje (servery, databáze) dynamicky mění a škálují, je monitoring nezbytný pro včasné odhalení problémů dříve, než ovlivní koncové uživatele.

===== Tři pilíře pozorovatelnosti (Observability) =====

Moderní cloud monitoring se opírá o tři základní typy dat:

  - **Metriky (Metrics):** Číselné údaje o výkonu v čase (např. % využití CPU, počet požadavků za sekundu, volné místo na disku).
  - **Logy (Logs):** Textové záznamy o událostech (např. chybové hlášky, záznamy o přístupech). Často se analyzují pomocí [[elk-stack|ELK Stacku]].
  - **Trasování (Tracing):** Sledování cesty jednoho požadavku napříč různými mikroslužbami (důležité pro identifikaci úzkých hrdel).


===== Typy Cloud Monitoringu =====

Cloud monitoring není jen o serverech, ale o celém ekosystému:

==== 1. Monitoring infrastruktury (IaaS) ====
Sledování virtuálních strojů, úložných kapacit a síťových prvků. Sleduje se propustnost, latence a dostupnost komponent.

==== 2. Monitoring aplikací (APM - Application Performance Monitoring) ====
Sleduje výkon samotného softwaru. Jak dlouho trvají SQL dotazy? Která část kódu zpomaluje aplikaci?

==== 3. Monitoring databází ====
Sleduje dotazy, transakce a integritu dat v cloudových databázích (např. AWS RDS, Azure SQL).

==== 4. Monitoring uživatelské zkušenosti (RUM) ====
Sledování toho, jak se aplikace chová přímo v prohlížeči nebo mobilu reálného uživatele (např. doba načtení stránky v různých regionech).

===== Nástroje pro Cloud Monitoring =====

Existují dvě hlavní cesty, jak monitoring řešit:

^ Poskytovatel ^ Nástroj ^ Charakteristika ^
| **Nativní nástroje** | **CloudWatch** (AWS), **Azure Monitor**, **Google Stackdriver** | Integrované přímo v cloudu, snadné nastavení, ale omezené na danou platformu. |
| **Nástroje třetích stran** | **Datadog**, **New Relic**, **Dynatrace**, **Zabbix** | Podporují Multi-cloud a Hybrid-cloud prostředí, pokročilé AI analýzy. |
| **Open-source** | **Prometheus + Grafana** | Standard pro Kubernetes a kontejnery, vysoká míra přizpůsobení. |


===== Hlavní výhody =====

  * **Proaktivní upozorňování (Alerting):** Automatické zaslání zprávy (e-mail, Slack), pokud např. latence překročí 500 ms.
  * **Optimalizace nákladů:** Identifikace "nečinných" (idle) zdrojů, za které zbytečně platíte.
  * **Škálování (Auto-scaling):** Monitoring dává pokyn k přidání dalších serverů při vysoké zátěži.
  * **Bezpečnost:** Detekce neobvyklých vzorců chování, které mohou značit útok.

> **Tip pro praxi:** Při nastavování monitoringu se zaměřte na tzv. **Golden Signals**: Latenci, Provoz (Traffic), Chyby (Errors) a Saturaci (využití zdrojů). Tyto čtyři metriky vám dají nejlepší přehled o stavu systému.

---
**Viz také:** [[elk-stack|ELK Stack]], [[siem|SIEM]], [[kubernetes|Kubernetes Monitoring]], [[latence|Latence]]