====== RLHF (Reinforcement Learning from Human Feedback) ======

**RLHF** (Učení posilováním z lidské zpětné vazby) je metoda ladění modelů umělé inteligence, která využívá lidské hodnocení k tomu, aby se model naučil odpovídat užitečněji, pravdivěji a bezpečněji. 

Bez RLHF by jazykové modely (LLM) pouze mechanicky doplňovaly text na základě pravděpodobnosti. RLHF je proces, který model „zarovnává“ (**Alignment**) s lidskými hodnotami a očekáváními.

===== Proč je RLHF potřeba? =====

Samotné [[hluboke_uceni|předtrénování]] modelu na internetu má své limity:
  * **Nevhodný obsah:** Model se může naučit toxickému vyjadřování nebo předsudkům z webových fór.
  * **Neochota pomoci:** Model sice ví, jak napsat recept, ale nemusí pochopit, že po něm uživatel chce instrukce, nikoliv jen pokračování příběhu o vaření.
  * **Halucinace:** RLHF pomáhá trestat model za vymýšlení faktů.

===== Třífázový proces trénování =====

Proces RLHF se obvykle skládá ze tří klíčových kroků:

==== 1. SFT (Supervised Fine-Tuning) ====
Lidé (anotátoři) napíší vzorové otázky a k nim ideální odpovědi. Model se na těchto příkladech učí „napodobováním“ správného stylu komunikace.

==== 2. Tvorba modelu odměn (Reward Model) ====
Model vygeneruje několik různých odpovědí na stejnou otázku a člověk je seřadí od nejlepší po nejhorší. Na základě těchto žebříčků se vytrénuje druhý, menší model (Reward Model), který se naučí „chápat“, co se lidem líbí.

==== 3. Optimalizace pomocí RL (PPO) ====
Hlavní model pak generuje tisíce odpovědí a za každou dostává od „modelu odměn“ body. Pomocí algoritmu **PPO** (Proximal Policy Optimization) se model upravuje tak, aby získával co nejvíce bodů. Tím se jeho chování postupně zlepšuje i bez přímého dozoru člověka v každém kroku.


===== Výhody a výzvy =====

^ Vlastnost ^ Dopad v praxi ^
| **Užitečnost** | Model lépe dodržuje složité instrukce (např. „Napiš to stručně a v bodech“). |
| **Bezpečnost** | Účinnější odmítání požadavků na nelegální nebo nebezpečné činnosti. |
| **Subjektivita** | **Výzva:** Model se může naučit předsudkům lidí, kteří ho hodnotí (tzv. annotator bias). |
| **Vyladění** | **Výzva:** Příliš silné RLHF může vést k tomu, že je model až příliš opatrný a odmítá i nezávadné dotazy. |

===== Význam pro moderní AI =====

RLHF je klíčovým důvodem, proč se **OpenAI** a **Google** staly lídry trhu. Tato technika umožnila přeměnit surový algoritmus v produkt, který může používat i laik, aniž by musel znát programování nebo složitý [[https://it-slovnik.cz/pojem/prompt-engineering|prompt engineering]].

---
//Související pojmy: [[openai|OpenAI]], [[chatgpt|ChatGPT]], [[gemini_historie_a_soucasnost|Gemini]], [[hluboke_uceni|Hluboké učení]]//