====== Constitutional AI (CAI) ======

**Constitutional AI** je přístup k trénování modelů, který nahrazuje rozsáhlé lidské hodnocení (RLHF) sadou pevných pravidel nebo principů – tzv. **Ústavou**. AI se pak učí sama sebe korigovat a hodnotit podle těchto pravidel.

===== Proč vznikla? =====
Běžné modely se ladí pomocí metody **RLHF** (Reinforcement Learning from Human Feedback), kde lidé hodnotí odpovědi. To má ale nevýhody:
  * Je to velmi drahé a pomalé.
  * Lidé mohou do AI nevědomky vnést své vlastní předsudky.
  * Je těžké definovat, co je "správné" pro miliony různých témat.

===== Jak CAI funguje? (Dvě fáze tréninku) =====

Trénink probíhá ve dvou hlavních krocích, kde AI v podstatě "vychovává sama sebe":

==== 1. Fáze: Sebekritika a revize (Supervised Learning) ====
Model dostane za úkol vygenerovat odpověď na potenciálně škodlivý dotaz. Následně:
  - Model si přečte svou "Ústavu" (např. "Buď užitečný, ale nepodporuj násilí").
  - Model sám zkritizuje svou původní odpověď.
  - Model vytvoří novou, revidovanou verzi odpovědi, která už pravidla splňuje.


==== 2. Fáze: Posilované učení z AI zpětné vazby (RLAIF) ====
V této fázi se model učí vybírat lepší odpovědi z dvojic možností. Místo člověka ale o tom, která odpověď je lepší, rozhoduje jiný AI model na základě ústavních principů. Tím vzniká **RLAIF** (Reinforcement Learning from AI Feedback).

===== Srovnání metod trénování =====

^ Vlastnost ^ RLHF (Lidská zpětná vazba) ^ CAI (Konstituční UI) ^
| **Zdroj pravidel** | Subjektivní pocity lidí | Jasně definovaná "Ústava" |
| **Škálovatelnost** | Nízká (omezeno počtem lidí) | Vysoká (běží automaticky) |
| **Transparentnost** | Nízká (nevíme, proč člověk dal bod) | Vysoká (víme, který princip byl použit) |
| **Hlavní představitel**| ChatGPT (OpenAI) | Claude (Anthropic) |

[Image comparing RLHF and RLAIF architectures]

===== Příklady ústavních principů =====

Ústava modelu není jeden dokument, ale soubor instrukcí inspirovaných např.:
  * Všeobecnou deklarací lidských práv OSN.
  * Pravidly pro bezpečnost v digitálním prostoru.
  * Etickými kodexy (např. "Nebuď arogantní", "Nepoučuj uživatele zbytečně").

===== Výhody a význam =====

  * **Bezpečnost:** Model je mnohem odolnější vůči pokusům o "jailbreak" (obejití pravidel).
  * **Předvídatelnost:** Chování AI je určeno textem, který si vývojáři mohou přečíst a upravit.
  * **Rychlost vývoje:** Nové verze modelů lze trénovat mnohem rychleji bez čekání na armádu lidských testerů.

---

> **Zajímavost:** Díky CAI je model Claude známý tím, že bývá méně "přednášející" a více věcný než jeho konkurenti, protože jeho ústava mu přímo ukládá, jakým tónem má s lidmi mluvit.

//Související: [[LLM]], [[Reinforcement Learning]], [[https://www.anthropic.com/index/constitutional-ai|Původní vědecká práce Anthropic]]//