====== Transformer (Architektura AI) ====== **Transformer** je architektura hlubokého učení (Deep Learning), kterou v roce 2017 představili vědci z Google Brain v přelomovém článku //"Attention Is All You Need"//. Na rozdíl od předchozích modelů (jako RNN nebo LSTM) nezpracovává data popořadě, ale všechna najednou, což umožňuje masivní paralelizaci a lepší pochopení souvislostí v textu. Dnes tvoří základ téměř všech [[llm|velkých jazykových modelů]] a nachází uplatnění i v počítačovém vidění (Vision Transformers). ===== Klíčový koncept: Self-Attention (Sebepozornost) ===== Hlavní inovací Transformeru je mechanismus **Self-Attention**. Ten umožňuje modelu při zpracování určitého slova (nebo tokenu) "dívat se" na všechna ostatní slova ve větě a určit, která z nich jsou pro pochopení významu nejdůležitější. * **Příklad:** Ve větě //"Zvíře nepřešlo silnici, protože bylo příliš **unavené**"//, mechanismus pozornosti propojí slovo "unavené" se slovem "zvíře". * Pokud větu změníme na //"...protože byla příliš **široká**"//, model automaticky zaměří pozornost na slovo "silnice". ===== Architektura: Encoder a Decoder ===== Původní Transformer se skládá ze dvou hlavních částí: ==== 1. Encoder (Kodér) ==== Analyzuje vstupní sekvenci a vytváří její bohatou číselnou reprezentaci (vektory). Modely založené pouze na encoderu (např. **BERT**) jsou vynikající pro pochopení textu, klasifikaci nebo analýzu sentimentu. ==== 2. Decoder (Dekodér) ==== Bere reprezentaci z encoderu a generuje výstupní sekvenci (slovo po slově). Modely založené pouze na decoderu (např. **GPT**) jsou optimalizovány pro generování textu. ===== Proč Transformer změnil svět? ===== * **Paralelizace:** Starší modely musely číst text slovo po slově (zleva doprava). Transformery vidí celou větu (nebo odstavec) najednou, což umožnilo trénovat modely na obrovských grafických kartách (GPU). * **Dlouhá paměť:** Mechanismy pozornosti netrpí "ztrátou paměti" u dlouhých textů, což byl hlavní problém starších architektur. * **Přenositelnost (Transfer Learning):** Model se může naučit základy jazyka na obrovském množství dat a poté být snadno "doladěn" (fine-tuned) pro konkrétní úkol (např. lékařskou diagnostiku). ===== Klíčové vrstvy Transformeru ===== ^ Vrstva ^ Funkce ^ | **Positional Encoding** | Protože model vidí všechna slova najednou, tato vrstva mu dodává informaci o tom, v jakém pořadí slova ve větě jsou. | | **Multi-Head Attention** | Umožňuje modelu sledovat několik různých typů vztahů mezi slovy současně. | | **Feed-Forward Network** | Standardní neuronová síť, která dále zpracovává informace získané z pozornosti. | | **Layer Normalization** | Zajišťuje stabilitu tréninku a zrychluje konvergenci modelu. | > **Zajímavost:** Původní motivací pro vytvoření Transformeru byl strojový překlad. Ukázalo se však, že stejný princip funguje skvěle i pro generování zdrojového kódu, skládání hudby nebo predikci struktury bílkovin (AlphaFold). [[it_encyklopedie:ai_rozcestnik|Zpět na AI rozcestník]]