Obsah
High Availability (HA)
High Availability (Vysoká dostupnost) je vlastnost systému, která zajišťuje jeho provozuschopnost po dohodnutou dobu, která je vyšší než u běžných systémů. Cílem HA je eliminovat Single Points of Failure (SPOF) – tedy místa, jejichž selhání by vedlo k zastavení celé služby.
V praxi HA znamená, že pokud selže jedna komponenta (např. zdroj v serveru, switch nebo celý fyzický hostitel), její roli okamžitě a automaticky přebírá jiná.
Měření dostupnosti (Devítky)
Dostupnost se vyjadřuje v procentech času, po který je služba v provozu za rok. Rozdíl mezi „třemi devítkami“ a „pěti devítkami“ může znamenat rozdíl mezi hodinami a sekundami výpadku.
| Procento | Maximální výpadek za rok | Kategorie |
|---|---|---|
| 99 % | 3 dny, 15 hodin | Běžný standard |
| 99.9 % | 8 hodin, 45 minut | „Tři devítky“ (Standardní HA) |
| 99.99 % | 52 minut, 35 sekund | „Čtyři devítky“ (Enterprise HA) |
| 99.999 % | 5 minut, 15 sekund | „Pět devítek“ (Kritické systémy) |
Základní principy HA
Aby systém mohl být považován za vysoce dostupný, musí splňovat tři podmínky:
1. Redundance
Každá kritická komponenta musí být v systému alespoň dvakrát (nebo vícekrát). To platí pro:
- Hardware: Dva zdroje v serveru, dvě HBA karty, dva switche.
- Software: Více běžících instancí aplikace za Load Balancerem.
- Data: Data uložená na RAID polích nebo replikovaná do jiného úložného systému.
2. Detekce selhání
Systém musí být schopen okamžitě rozpoznat, že některá část přestala fungovat. K tomu se používají mechanismy jako Heartbeat (pravidelné „pípnutí“ mezi servery).
3. Automatické převzetí (Failover)
Jakmile je detekováno selhání, musí dojít k automatickému přesunu provozu na funkční komponentu bez zásahu člověka.
HA na různých vrstvách
- Úroveň serveru: Použití technologií jako Clustering (např. Windows Failover Cluster nebo Pacemaker v Linuxu). Pokud jeden server spadne, druhý převezme jeho úkoly.
- Úroveň virtualizace: Hypervisory (VMware ESXi, Proxmox) detekují pád fyzického uzlu a automaticky restartují všechny jeho virtuální stroje na ostatních funkčních uzlech v clusteru.
- Úroveň sítě: Použití protokolů jako LACP (spojení linek) nebo VRRP (virtuální IP adresa pro routery).
- Úroveň úložiště: Multipathing pro cesty k datům a synchronní replikace mezi diskovými poli.
Rozdíl mezi HA a Fault Tolerance (FT)
Tyto pojmy se často pletou, ale je mezi nimi zásadní rozdíl v nákladech a dopadu na uživatele:
- HA (High Availability): Při selhání může dojít ke krátkému přerušení (např. restartování VM trvá 1-2 minuty). Je cenově dostupnější.
- FT (Fault Tolerance): Zajišťuje nulový výpadek. Dva systémy běží v naprostém souladu, instrukci po instrukci. Při pádu jednoho druhý pokračuje bez jediné sekundy prodlevy. Je extrémně drahé na hardware i síťovou kapacitu.
— Související termíny: Failover, Disaster Recovery, Load Balancing, Cluster, Multipathing.
