Constitutional AI je přístup k trénování modelů, který nahrazuje rozsáhlé lidské hodnocení (RLHF) sadou pevných pravidel nebo principů – tzv. Ústavou. AI se pak učí sama sebe korigovat a hodnotit podle těchto pravidel.
Běžné modely se ladí pomocí metody RLHF (Reinforcement Learning from Human Feedback), kde lidé hodnotí odpovědi. To má ale nevýhody:
Trénink probíhá ve dvou hlavních krocích, kde AI v podstatě „vychovává sama sebe“:
Model dostane za úkol vygenerovat odpověď na potenciálně škodlivý dotaz. Následně:
V této fázi se model učí vybírat lepší odpovědi z dvojic možností. Místo člověka ale o tom, která odpověď je lepší, rozhoduje jiný AI model na základě ústavních principů. Tím vzniká RLAIF (Reinforcement Learning from AI Feedback).
| Vlastnost | RLHF (Lidská zpětná vazba) | CAI (Konstituční UI) |
|---|---|---|
| Zdroj pravidel | Subjektivní pocity lidí | Jasně definovaná „Ústava“ |
| Škálovatelnost | Nízká (omezeno počtem lidí) | Vysoká (běží automaticky) |
| Transparentnost | Nízká (nevíme, proč člověk dal bod) | Vysoká (víme, který princip byl použit) |
| Hlavní představitel | ChatGPT (OpenAI) | Claude (Anthropic) |
[Image comparing RLHF and RLAIF architectures]
Ústava modelu není jeden dokument, ale soubor instrukcí inspirovaných např.:
—
Zajímavost: Díky CAI je model Claude známý tím, že bývá méně „přednášející“ a více věcný než jeho konkurenti, protože jeho ústava mu přímo ukládá, jakým tónem má s lidmi mluvit.
Související: LLM, Reinforcement Learning, Původní vědecká práce Anthropic