High Availability (HA)

High Availability (Vysoká dostupnost) je vlastnost systému, která zajišťuje jeho provozuschopnost po dohodnutou dobu, která je vyšší než u běžných systémů. Cílem HA je eliminovat Single Points of Failure (SPOF) – tedy místa, jejichž selhání by vedlo k zastavení celé služby.

V praxi HA znamená, že pokud selže jedna komponenta (např. zdroj v serveru, switch nebo celý fyzický hostitel), její roli okamžitě a automaticky přebírá jiná.

Měření dostupnosti (Devítky)

Dostupnost se vyjadřuje v procentech času, po který je služba v provozu za rok. Rozdíl mezi „třemi devítkami“ a „pěti devítkami“ může znamenat rozdíl mezi hodinami a sekundami výpadku.

Procento	Maximální výpadek za rok	Kategorie
99 %	3 dny, 15 hodin	Běžný standard
99.9 %	8 hodin, 45 minut	„Tři devítky“ (Standardní HA)
99.99 %	52 minut, 35 sekund	„Čtyři devítky“ (Enterprise HA)
99.999 %	5 minut, 15 sekund	„Pět devítek“ (Kritické systémy)

Základní principy HA

Aby systém mohl být považován za vysoce dostupný, musí splňovat tři podmínky:

1. Redundance

Každá kritická komponenta musí být v systému alespoň dvakrát (nebo vícekrát). To platí pro:

Hardware: Dva zdroje v serveru, dvě HBA karty, dva switche.
Software: Více běžících instancí aplikace za Load Balancerem.
Data: Data uložená na RAID polích nebo replikovaná do jiného úložného systému.

2. Detekce selhání

Systém musí být schopen okamžitě rozpoznat, že některá část přestala fungovat. K tomu se používají mechanismy jako Heartbeat (pravidelné „pípnutí“ mezi servery).

3. Automatické převzetí (Failover)

Jakmile je detekováno selhání, musí dojít k automatickému přesunu provozu na funkční komponentu bez zásahu člověka.

HA na různých vrstvách

Úroveň serveru: Použití technologií jako Clustering (např. Windows Failover Cluster nebo Pacemaker v Linuxu). Pokud jeden server spadne, druhý převezme jeho úkoly.
Úroveň virtualizace: Hypervisory (VMware ESXi, Proxmox) detekují pád fyzického uzlu a automaticky restartují všechny jeho virtuální stroje na ostatních funkčních uzlech v clusteru.
Úroveň sítě: Použití protokolů jako LACP (spojení linek) nebo VRRP (virtuální IP adresa pro routery).
Úroveň úložiště: Multipathing pro cesty k datům a synchronní replikace mezi diskovými poli.

Rozdíl mezi HA a Fault Tolerance (FT)

Tyto pojmy se často pletou, ale je mezi nimi zásadní rozdíl v nákladech a dopadu na uživatele:

HA (High Availability): Při selhání může dojít ke krátkému přerušení (např. restartování VM trvá 1-2 minuty). Je cenově dostupnější.
FT (Fault Tolerance): Zajišťuje nulový výpadek. Dva systémy běží v naprostém souladu, instrukci po instrukci. Při pádu jednoho druhý pokračuje bez jediné sekundy prodlevy. Je extrémně drahé na hardware i síťovou kapacitu.

— Související termíny: Failover, Disaster Recovery, Load Balancing, Cluster, Multipathing.