====== Lokální hostování AI modelů (Self-hosting) ======

Lokální hostování znamená, že model běží na vašem vlastním procesoru (CPU) nebo grafické kartě (GPU). Veškerá data zůstávají u vás a model funguje i bez připojení k internetu.

===== Hardwarové požadavky =====

Nejdůležitějším parametrem je **VRAM** (video paměť na grafické kartě) nebo **Unified Memory** (u počítačů Apple).

  * **Minimální (SLM modely 1B-4B):** 8 GB RAM / 4 GB VRAM.
  * **Optimální (Střední modely 7B-14B):** 16 GB - 32 GB RAM / 8 GB - 12 GB VRAM.
  * **Profesionální (Velké modely 30B+):** 64 GB+ RAM / 24 GB+ VRAM (např. NVIDIA RTX 3090/4090).


===== Hlavní nástroje pro rok 2026 =====

==== 1. Ollama (Doporučeno pro začátečníky) ====
Ollama je nejjednodušší cesta. Funguje jako služba na pozadí, která automaticky spravuje paměť.
  * **Platformy:** Windows, macOS, Linux.
  * **Příkaz:** ''ollama run llama3.1''
  * **Výhoda:** Obrovská knihovna předpřipravených modelů.

==== 2. LM Studio (GUI aplikace) ====
Grafické rozhraní, které vám umožní stahovat konkrétní verze modelů z Hugging Face a testovat je v okně chatu.
  * **Klíčová funkce:** Ukazuje v reálném čase, kolik procent modelu se vejde do vaší grafické paměti.

==== 3. Open WebUI (Firemní standard) ====
Pokud chcete rozhraní, které vypadá a funguje přesně jako ChatGPT, ale běží u vás.
  * **Nasazení:** Ideální přes Docker.
  * **Funkce:** Podpora více uživatelů, historie chatů, nahrávání dokumentů (RAG).


===== Formáty a Kvantizace (GGUF) =====

Modely se málokdy stahují v plné velikosti (FP16). Používá se formát **GGUF**, který umožňuje snížit bitovou přesnost (kvantizaci) modelu:

^ Kvantizace ^ Kvalita ^ Nároky ^ Doporučení ^
| **Q8_0** | 99% originálu | Velmi vysoké | Pro kritické úlohy |
| **Q4_K_M** | 95% originálu | Nízké | **Zlatý standard (nejlepší poměr)** |
| **IQ2_S** | 70% originálu | Minimální | Pro slabé telefony/IoT |

===== Rychlý návod: První spuštění (Ollama) =====

  1. Stáhněte a nainstalujte **Ollama** z [[https://ollama.com|oficiálního webu]].
  2. Otevřete terminál (PowerShell / Bash).
  3. Spusťte svůj první model:
<code>
# Pro rychlý test (velmi malý model)
ollama run phi4:tiny

# Pro kvalitní chat (střední model)
ollama run llama3.1:8b
</code>
  4. Model se automaticky stáhne a můžete začít psát.

> **TIP:** Pokud chcete model využívat v jiných aplikacích (např. v MS Word nebo VS Code), Ollama automaticky běží na adrese ''http://localhost:11434''.

---
**Související dokumentace:**
  * [[it:slm|Průvodce Small Language Models]]
  * [[it:gpu_drivers|Aktualizace ovladačů pro AI]]
  * [[it:rag_setup|Nastavení vlastní báze znalostí (RAG)]]

---
**Autor:** @IT_Admin
**Verze dokumentu:** 1.2 (2026)