Obsah

Generativní modely: GAN vs VAE

Generativní modely jsou třídou modelů strojového učení, které se nesnaží data pouze klasifikovat (např. „toto je pes“), ale snaží se naučit základní distribuci dat tak, aby dokázaly generovat nové vzorky, které vypadají jako ty původní.

Dvěma nejvýznamnějšími architekturami v této oblasti jsou VAE (Variational Autoencoders) a GAN (Generative Adversarial Networks).

1. VAE (Variational Autoencoders)

VAE vycházejí z klasických autoenkodérů, ale přidávají do latentního prostoru (bottlenecku) pravděpodobnostní prvek.

2. GAN (Generative Adversarial Networks)

GAN, které představil Ian Goodfellow v roce 2014, fungují na principu souboje dvou neuronových sítí.

Architektura GAN:

Proces učení (Minimax game):

Během tréninku se obě sítě neustále zlepšují. Generátor se učí vytvářet stále realističtější falzifikáty, zatímco Diskriminátor se učí lépe odhalovat i drobné chyby. Nakonec je Generátor tak dobrý, že Diskriminátor již nedokáže rozdíl poznat.

3. Srovnání GAN vs. VAE

Vlastnost VAE GAN
Princip Statistická rekonstrukce Souboj dvou sítí (Hra s nulovým součtem)
Kvalita výstupu Často rozmazané Velmi ostré a realistické
Stabilita učení Stabilní, snadno se trénuje Nestabilní, citlivé na nastavení parametrů
Latentní prostor Spojitý, snadno interpretovatelný Často nekonzistentní a těžko ovladatelný
Využití Komprese, augmentace dat, anomálie Deepfakes, generování umění, super-rozlišení

[Image comparison of images generated by VAE vs GAN showing blurriness vs sharpness]

4. Praktické aplikace

5. Co přišlo po nich?

Dnes jsou GAN i VAE doplňovány nebo nahrazovány Difúzními modely (Diffusion Models), které stojí za nástroji jako DALL-E, Midjourney nebo Stable Diffusion. Ty fungují na principu postupného odstraňování šumu z obrazu.


Související články:

Tagy: ai neural_networks gan vae generative_models deep_learning