LLM (Large Language Models)

Large Language Models (LLM), neboli velké jazykové modely, jsou typem umělé inteligence trénované na obrovském množství textových dat. Jsou schopny generovat text, překládat jazyky, psát kód a odpovídat na dotazy způsobem, který připomíná lidskou komunikaci.

Základem moderních LLM (jako jsou GPT-4, Claude nebo Llama) je architektura neurálních sítí zvaná Transformer.

### 1. Architektura Transformer Představená společností Google v roce 2017 (v článku „Attention Is All You Need“), tato architektura nahradila starší sekvenční modely (RNN, LSTM).

Klíčovým prvkem je Self-Attention mechanismus (sebepozornost), který umožňuje modelu:

### 2. Jak funguje generování (Tokenizace) Modely nepracují s celými slovy, ale s tzv. tokeny (části slov, znaky nebo celá slova).

### 3. Fáze vývoje modelu Proces vytvoření použitelného AI asistenta probíhá v několika krocích:

Fáze Název Popis
1. Pre-training Učení se surovým datům z internetu (predikce dalšího slova).
2. Fine-tuning Ladění na specifických sadách otázek a odpovědí.
3. RLHF *Reinforcement Learning from Human Feedback* – ladění podle lidských preferencí (bezpečnost, užitečnost).

### 4. Klíčové parametry a pojmy

### 5. RAG (Retrieval-Augmented Generation) Protože LLM mají znalosti omezené datem ukončení tréninku (knowledge cutoff), používá se v podnicích technika RAG.

RAG umožňuje modelu nahlížet do externích databází (např. vaší DokuWiki) a odpovídat na základě aktuálních interních dokumentů, aniž by se musel znovu trénovat.

### 6. Příklady implementace (Open-Source) Pro lokální běh LLM na vlastním hardwaru se často používají nástroje:

Tip pro administrátory: Pro provoz 7B (7 miliard) parametrů modelu v plné přesnosti je potřeba cca 14-28 GB VRAM, při použití kvantizace (komprese) postačí i 8 GB.

Zpět na AI rozcestník