====== Constitutional AI (CAI) ====== **Constitutional AI** je přístup k trénování modelů, který nahrazuje rozsáhlé lidské hodnocení (RLHF) sadou pevných pravidel nebo principů – tzv. **Ústavou**. AI se pak učí sama sebe korigovat a hodnotit podle těchto pravidel. ===== Proč vznikla? ===== Běžné modely se ladí pomocí metody **RLHF** (Reinforcement Learning from Human Feedback), kde lidé hodnotí odpovědi. To má ale nevýhody: * Je to velmi drahé a pomalé. * Lidé mohou do AI nevědomky vnést své vlastní předsudky. * Je těžké definovat, co je "správné" pro miliony různých témat. ===== Jak CAI funguje? (Dvě fáze tréninku) ===== Trénink probíhá ve dvou hlavních krocích, kde AI v podstatě "vychovává sama sebe": ==== 1. Fáze: Sebekritika a revize (Supervised Learning) ==== Model dostane za úkol vygenerovat odpověď na potenciálně škodlivý dotaz. Následně: - Model si přečte svou "Ústavu" (např. "Buď užitečný, ale nepodporuj násilí"). - Model sám zkritizuje svou původní odpověď. - Model vytvoří novou, revidovanou verzi odpovědi, která už pravidla splňuje. ==== 2. Fáze: Posilované učení z AI zpětné vazby (RLAIF) ==== V této fázi se model učí vybírat lepší odpovědi z dvojic možností. Místo člověka ale o tom, která odpověď je lepší, rozhoduje jiný AI model na základě ústavních principů. Tím vzniká **RLAIF** (Reinforcement Learning from AI Feedback). ===== Srovnání metod trénování ===== ^ Vlastnost ^ RLHF (Lidská zpětná vazba) ^ CAI (Konstituční UI) ^ | **Zdroj pravidel** | Subjektivní pocity lidí | Jasně definovaná "Ústava" | | **Škálovatelnost** | Nízká (omezeno počtem lidí) | Vysoká (běží automaticky) | | **Transparentnost** | Nízká (nevíme, proč člověk dal bod) | Vysoká (víme, který princip byl použit) | | **Hlavní představitel**| ChatGPT (OpenAI) | Claude (Anthropic) | [Image comparing RLHF and RLAIF architectures] ===== Příklady ústavních principů ===== Ústava modelu není jeden dokument, ale soubor instrukcí inspirovaných např.: * Všeobecnou deklarací lidských práv OSN. * Pravidly pro bezpečnost v digitálním prostoru. * Etickými kodexy (např. "Nebuď arogantní", "Nepoučuj uživatele zbytečně"). ===== Výhody a význam ===== * **Bezpečnost:** Model je mnohem odolnější vůči pokusům o "jailbreak" (obejití pravidel). * **Předvídatelnost:** Chování AI je určeno textem, který si vývojáři mohou přečíst a upravit. * **Rychlost vývoje:** Nové verze modelů lze trénovat mnohem rychleji bez čekání na armádu lidských testerů. --- > **Zajímavost:** Díky CAI je model Claude známý tím, že bývá méně "přednášející" a více věcný než jeho konkurenti, protože jeho ústava mu přímo ukládá, jakým tónem má s lidmi mluvit. //Související: [[LLM]], [[Reinforcement Learning]], [[https://www.anthropic.com/index/constitutional-ai|Původní vědecká práce Anthropic]]//