Lokální hostování znamená, že model běží na vašem vlastním procesoru (CPU) nebo grafické kartě (GPU). Veškerá data zůstávají u vás a model funguje i bez připojení k internetu.
Nejdůležitějším parametrem je VRAM (video paměť na grafické kartě) nebo Unified Memory (u počítačů Apple).
Ollama je nejjednodušší cesta. Funguje jako služba na pozadí, která automaticky spravuje paměť.
ollama run llama3.1Grafické rozhraní, které vám umožní stahovat konkrétní verze modelů z Hugging Face a testovat je v okně chatu.
Pokud chcete rozhraní, které vypadá a funguje přesně jako ChatGPT, ale běží u vás.
Modely se málokdy stahují v plné velikosti (FP16). Používá se formát GGUF, který umožňuje snížit bitovou přesnost (kvantizaci) modelu:
| Kvantizace | Kvalita | Nároky | Doporučení |
|---|---|---|---|
| Q8_0 | 99% originálu | Velmi vysoké | Pro kritické úlohy |
| Q4_K_M | 95% originálu | Nízké | Zlatý standard (nejlepší poměr) |
| IQ2_S | 70% originálu | Minimální | Pro slabé telefony/IoT |
1. Stáhněte a nainstalujte **Ollama** z [[https://ollama.com|oficiálního webu]]. 2. Otevřete terminál (PowerShell / Bash). 3. Spusťte svůj první model:
# Pro rychlý test (velmi malý model) ollama run phi4:tiny # Pro kvalitní chat (střední model) ollama run llama3.1:8b
4. Model se automaticky stáhne a můžete začít psát.
TIP: Pokud chcete model využívat v jiných aplikacích (např. v MS Word nebo VS Code), Ollama automaticky běží na adresehttp://localhost:11434.
— Související dokumentace:
— Autor: @IT_Admin Verze dokumentu: 1.2 (2026)