====== Bezpečnostní standardy (AI Safety) ====== Bezpečnostní standardy pro AI mají za cíl zajistit, aby systémy fungovaly spolehlivě, předvídatelně a bezpečně i v neočekávaných situacích. Na rozdíl od běžného softwaru je testování AI složitější kvůli jeho nedeterministické povaze. ===== Klíčové pilíře AI Safety ===== ==== 1. Robustnost a odolnost (Robustness) ==== Systém musí být schopen správně fungovat i v případě, že se setká s daty, která nebyla v trénovací sadě, nebo pokud dojde k pokusu o jeho oklamání. * **Adverzní útoky (Adversarial Attacks):** Malé, pro člověka neviditelné změny ve vstupu (např. šum v obrázku), které způsobí, že AI udělá fatální chybu. * **Opatření:** Adverzní trénování (zahrnutí těchto chyb do tréninku) a formální verifikace kódu. ==== 2. Interpretovatelnost a vysvětlitelnost (Interpretability) ==== Bezpečnost vyžaduje, abychom rozuměli tomu, proč model dospěl k danému závěru. U kritických systémů (např. v medicíně nebo autonomním řízení) je "černá skříňka" nepřípustná. * **Saliency Maps:** Vizualizace částí vstupu, které měly na rozhodnutí největší vliv. ==== 3. Slučitelnost cílů (Alignment) ==== Problém zajištění toho, aby cíle AI byly v souladu s lidskými hodnotami a záměry. Nejde jen o to, co AI říkáme, aby dělala, ale jak to interpretuje v širším kontextu. ===== Mezinárodní normy a rámce ===== V současné době vznikají standardy, které definují, jak by se mělo k bezpečnosti AI přistupovat na organizační úrovni: ^ Standard ^ Název / Zaměření ^ | **ISO/IEC 42001** | Systém managementu umělé inteligence (AIMS) - první mezinárodní certifikovatelný standard. | | **NIST AI RMF** | AI Risk Management Framework - komplexní rámec pro řízení rizik od amerického institutu NIST. | | **ISO/IEC 23894** | Návod na řízení rizik specificky pro organizace vyvíjející nebo používající AI. | | **MITRE ATLAS** | Databáze taktik a technik, které útočníci používají proti AI systémům (obdoba ATT&CK). | ===== Praktické techniky zajištění bezpečnosti ===== * **Red Teaming:** Simulované útoky na model s cílem najít slabiny, obejít filtry nebo vynutit škodlivý výstup (např. jailbreaking u LLM). * **Human-in-the-loop (HITL):** Proces, kde lidský operátor reviduje klíčová rozhodnutí AI dříve, než jsou vykonána. * **Sandboxing:** Provozování AI v izolovaném prostředí, aby v případě chyby nemohla napadnout kritickou infrastrukturu. * **Monitorování driftu (Model Drift):** Neustálé sledování, zda se výkon modelu v čase nesnižuje kvůli změně reálných dat. ===== Postupy pro bezpečný vývoj (SecDevOps pro AI) ===== 1. **Zabezpečení dat:** Kontrola, zda trénovací data neobsahují toxický obsah nebo "zadní vrátka" (backdoors). 2. **Bezpečné uložení vah:** Modely (váhy neuronové sítě) musí být šifrovány a chráněny proti krádeži (exfiltraci). 3. **Omezení výstupu:** Implementace filtrů, které zabrání generování nenávistných projevů nebo návodů k nelegální činnosti. > **Základní pravidlo:** Bezpečnost AI není jednorázový úkon, ale kontinuální proces, který začíná sběrem dat a končí stažením modelu z provozu. --- **Související témata:** * [[ai:ethics|Etika a rizika umělé inteligence]] * [[ai:legislation|Legislativa a právo v AI]] * [[cyber:pentesting|Penetrační testování a Red Teaming]]