====== Hypernetworks (Hybersítě) ======

**Hypernetwork** je architektura hlubokého učení, ve které jedna neuronová síť (hyperstíť) generuje váhy (parametry) pro jinou neuronovou síť (hlavní neboli cílovou síť). 

Zatímco u běžných modelů jsou váhy pevně dané po skončení trénování, u hyperstítí jsou váhy **dynamické** – mění se v závislosti na vstupu, který hyperstíť dostane. Tento koncept poprvé popularizoval David Ha a kol. v roce 2016.

===== Jak to funguje? =====

V klasickém přístupu se učíme parametry $\theta$ tak, aby minimalizovaly chybu. U hyperstítí se učíme parametry $\phi$ pro hyperstíť $H$, která pak vypočítá váhy pro hlavní síť $M$:
$$\theta = H(x, \phi)$$
Kde $x$ může být kontextová informace, instrukce nebo specifický styl.


===== Klíčové aplikace =====

==== 1. Generování obrazu (Stable Diffusion) ====
V oblasti AI generování (umění) se hyperstítě používají jako lehké doplňky k velkým modelům.
  * **Význam:** Umožňují "dotrénovat" model na specifický styl (např. styl konkrétního malíře) nebo konkrétní objekt, aniž by se musel měnit celý obří základní model. 
  * **Efektivita:** Hyperstíť je datově velmi malá (pár MB), zatímco hlavní model má několik GB.

==== 2. Adaptivní systémy a Meta-learning ====
Hyperstítě umožňují modelům rychle se přizpůsobit novým úlohám. Pokud se změní podmínky (např. jiný jazyk nebo jiný senzor u robota), hyperstíť vygeneruje nové, vhodnější váhy pro hlavní síť "za běhu".

==== 3. Komprese modelů ====
Místo ukládání milionů parametrů velké sítě stačí uložit parametry menší hyperstítě, která dokáže váhy velké sítě kdykoliv zrekonstruovat.

===== Srovnání: Jemné ladění vs. Hypernetworks =====

^ Metoda ^ Změna vah ^ Výhoda ^ Nevýhoda ^
| **Fine-tuning** | Mění se přímo váhy hlavního modelu. | Nejvyšší přesnost. | Nutnost ukládat celou kopii velkého modelu. |
| **LoRA** | Přidávají se malé adaptéry k vrstvám. | Extrémně efektivní a rychlé. | Pevně integrované do architektury. |
| **Hypernetworks** | Váhy jsou generovány externí sítí. | Velká flexibilita a dynamika. | Náročnější na stabilitu trénování. |


===== Význam pro budoucnost IT =====

Hyperstítě směřují k tzv. **podmíněným výpočtům** (Conditional Computation). V budoucnu by velké modely v cloudech typu [[gcp|GCP]] nemusely běžet celé, ale hyperstíť by dynamicky upravovala jejich strukturu podle toho, co uživatel právě potřebuje, čímž by se drasticky snížila energetická náročnost výpočtů.

---
//Související pojmy: [[hluboke_uceni|Hluboké učení]], [[chatgpt|ChatGPT]], [[vertex_ai|Vertex AI]], [[gemini_historie_a_soucasnost|Gemini]]//