RLHF (Učení posilováním z lidské zpětné vazby) je metoda ladění modelů umělé inteligence, která využívá lidské hodnocení k tomu, aby se model naučil odpovídat užitečněji, pravdivěji a bezpečněji.
Bez RLHF by jazykové modely (LLM) pouze mechanicky doplňovaly text na základě pravděpodobnosti. RLHF je proces, který model „zarovnává“ (Alignment) s lidskými hodnotami a očekáváními.
Samotné předtrénování modelu na internetu má své limity:
Proces RLHF se obvykle skládá ze tří klíčových kroků:
Lidé (anotátoři) napíší vzorové otázky a k nim ideální odpovědi. Model se na těchto příkladech učí „napodobováním“ správného stylu komunikace.
Model vygeneruje několik různých odpovědí na stejnou otázku a člověk je seřadí od nejlepší po nejhorší. Na základě těchto žebříčků se vytrénuje druhý, menší model (Reward Model), který se naučí „chápat“, co se lidem líbí.
Hlavní model pak generuje tisíce odpovědí a za každou dostává od „modelu odměn“ body. Pomocí algoritmu PPO (Proximal Policy Optimization) se model upravuje tak, aby získával co nejvíce bodů. Tím se jeho chování postupně zlepšuje i bez přímého dozoru člověka v každém kroku.
| Vlastnost | Dopad v praxi |
|---|---|
| Užitečnost | Model lépe dodržuje složité instrukce (např. „Napiš to stručně a v bodech“). |
| Bezpečnost | Účinnější odmítání požadavků na nelegální nebo nebezpečné činnosti. |
| Subjektivita | Výzva: Model se může naučit předsudkům lidí, kteří ho hodnotí (tzv. annotator bias). |
| Vyladění | Výzva: Příliš silné RLHF může vést k tomu, že je model až příliš opatrný a odmítá i nezávadné dotazy. |
RLHF je klíčovým důvodem, proč se OpenAI a Google staly lídry trhu. Tato technika umožnila přeměnit surový algoritmus v produkt, který může používat i laik, aniž by musel znát programování nebo složitý prompt engineering.
— Související pojmy: OpenAI, ChatGPT, Gemini, Hluboké učení