Obsah

Lokální hostování AI modelů (Self-hosting)

Lokální hostování znamená, že model běží na vašem vlastním procesoru (CPU) nebo grafické kartě (GPU). Veškerá data zůstávají u vás a model funguje i bez připojení k internetu.

Hardwarové požadavky

Nejdůležitějším parametrem je VRAM (video paměť na grafické kartě) nebo Unified Memory (u počítačů Apple).

Hlavní nástroje pro rok 2026

1. Ollama (Doporučeno pro začátečníky)

Ollama je nejjednodušší cesta. Funguje jako služba na pozadí, která automaticky spravuje paměť.

2. LM Studio (GUI aplikace)

Grafické rozhraní, které vám umožní stahovat konkrétní verze modelů z Hugging Face a testovat je v okně chatu.

3. Open WebUI (Firemní standard)

Pokud chcete rozhraní, které vypadá a funguje přesně jako ChatGPT, ale běží u vás.

Formáty a Kvantizace (GGUF)

Modely se málokdy stahují v plné velikosti (FP16). Používá se formát GGUF, který umožňuje snížit bitovou přesnost (kvantizaci) modelu:

Kvantizace Kvalita Nároky Doporučení
Q8_0 99% originálu Velmi vysoké Pro kritické úlohy
Q4_K_M 95% originálu Nízké Zlatý standard (nejlepší poměr)
IQ2_S 70% originálu Minimální Pro slabé telefony/IoT

Rychlý návod: První spuštění (Ollama)

1. Stáhněte a nainstalujte **Ollama** z [[https://ollama.com|oficiálního webu]].
2. Otevřete terminál (PowerShell / Bash).
3. Spusťte svůj první model:
# Pro rychlý test (velmi malý model)
ollama run phi4:tiny

# Pro kvalitní chat (střední model)
ollama run llama3.1:8b
4. Model se automaticky stáhne a můžete začít psát.
TIP: Pokud chcete model využívat v jiných aplikacích (např. v MS Word nebo VS Code), Ollama automaticky běží na adrese http://localhost:11434.

Související dokumentace:

Autor: @IT_Admin Verze dokumentu: 1.2 (2026)