Obsah
Constitutional AI (CAI)
Constitutional AI je přístup k trénování modelů, který nahrazuje rozsáhlé lidské hodnocení (RLHF) sadou pevných pravidel nebo principů – tzv. Ústavou. AI se pak učí sama sebe korigovat a hodnotit podle těchto pravidel.
Proč vznikla?
Běžné modely se ladí pomocí metody RLHF (Reinforcement Learning from Human Feedback), kde lidé hodnotí odpovědi. To má ale nevýhody:
- Je to velmi drahé a pomalé.
- Lidé mohou do AI nevědomky vnést své vlastní předsudky.
- Je těžké definovat, co je „správné“ pro miliony různých témat.
Jak CAI funguje? (Dvě fáze tréninku)
Trénink probíhá ve dvou hlavních krocích, kde AI v podstatě „vychovává sama sebe“:
1. Fáze: Sebekritika a revize (Supervised Learning)
Model dostane za úkol vygenerovat odpověď na potenciálně škodlivý dotaz. Následně:
- Model si přečte svou „Ústavu“ (např. „Buď užitečný, ale nepodporuj násilí“).
- Model sám zkritizuje svou původní odpověď.
- Model vytvoří novou, revidovanou verzi odpovědi, která už pravidla splňuje.
2. Fáze: Posilované učení z AI zpětné vazby (RLAIF)
V této fázi se model učí vybírat lepší odpovědi z dvojic možností. Místo člověka ale o tom, která odpověď je lepší, rozhoduje jiný AI model na základě ústavních principů. Tím vzniká RLAIF (Reinforcement Learning from AI Feedback).
Srovnání metod trénování
| Vlastnost | RLHF (Lidská zpětná vazba) | CAI (Konstituční UI) |
|---|---|---|
| Zdroj pravidel | Subjektivní pocity lidí | Jasně definovaná „Ústava“ |
| Škálovatelnost | Nízká (omezeno počtem lidí) | Vysoká (běží automaticky) |
| Transparentnost | Nízká (nevíme, proč člověk dal bod) | Vysoká (víme, který princip byl použit) |
| Hlavní představitel | ChatGPT (OpenAI) | Claude (Anthropic) |
[Image comparing RLHF and RLAIF architectures]
Příklady ústavních principů
Ústava modelu není jeden dokument, ale soubor instrukcí inspirovaných např.:
- Všeobecnou deklarací lidských práv OSN.
- Pravidly pro bezpečnost v digitálním prostoru.
- Etickými kodexy (např. „Nebuď arogantní“, „Nepoučuj uživatele zbytečně“).
Výhody a význam
- Bezpečnost: Model je mnohem odolnější vůči pokusům o „jailbreak“ (obejití pravidel).
- Předvídatelnost: Chování AI je určeno textem, který si vývojáři mohou přečíst a upravit.
- Rychlost vývoje: Nové verze modelů lze trénovat mnohem rychleji bez čekání na armádu lidských testerů.
—
Zajímavost: Díky CAI je model Claude známý tím, že bývá méně „přednášející“ a více věcný než jeho konkurenti, protože jeho ústava mu přímo ukládá, jakým tónem má s lidmi mluvit.
Související: LLM, Reinforcement Learning, Původní vědecká práce Anthropic
