Obsah

Attention Mechanism (Mechanismus pozornosti)

Attention mechanism je technika, která umožňuje neuronové síti zaměřit se na konkrétní, relevantní části vstupních dat při generování výstupu. Místo toho, aby se model snažil komprimovat celou větu do jednoho fixního vektoru (jako to dělaly RNN), „dívá“ se v každém kroku na všechna vstupní slova a přiřazuje jim různou váhu (důležitost).

Tento koncept byl poprvé představen pro strojový překlad, ale stal se základem pro celou revoluci Transformerů.

1. Proč pozornost vznikla? (Problém úzkého hrdla)

U starších modelů typu Encoder-Decoder musel kodér (Encoder) „nacpat“ význam celé věty do jednoho vektoru pevné délky. U dlouhých vět docházelo ke ztrátě informací.

Mechanismus pozornosti tento problém řeší tak, že dekodér má přístup ke všem mezistavům kodéru. Pro každé generované slovo si sám „vybere“, které slovo ze vstupu je pro něj v danou chvíli nejdůležitější.

2. Jak to funguje: Dotaz, Klíč a Hodnota

Moderní mechanismus pozornosti (Scaled Dot-Product Attention) pracuje se třemi vektory pro každý prvek:

Výpočet probíhá tak, že se porovná Dotaz se všemi Klíči, čímž vznikne skóre (váha). Touto váhou se pak vynásobí Hodnoty.

3. Self-Attention (Sebepozornost)

Zásadním typem je Self-Attention. Zde se slova v rámci jedné věty dívají na ostatní slova ve stejné větě, aby pochopila vzájemný kontext.

Příklad: Mějme větu: „Pes nepřešel ulici, protože byl příliš unavený.“ Při zpracování slova „unavený“ mechanismus pozornosti přiřadí vysokou váhu slovu „pes“. Model tak pochopí, že „unavený“ se vztahuje k psovi, nikoliv k ulici.

4. Multi-Head Attention

V praxi se nepoužívá jen jedna „hlava“ pozornosti, ale hned několik paralelně (Multi-Head Attention). Každá hlava se může učit jiné typy vztahů:

5. Hlavní výhody

Zajímavost: Článek z roku 2017, který tento koncept proslavil, se jmenuje „Attention Is All You Need“. Autoři v něm dokázali, že k vytvoření špičkového modelu nepotřebujete žádné rekurentní ani konvoluční vrstvy – stačí vám jen mechanismus pozornosti.

Zpět na AI rozcestník