Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Následující verze | Předchozí verze |
| it:ai:llm [2026/01/02 11:34] – vytvořeno admin | it:ai:llm [2026/01/02 12:20] (aktuální) – [Vysvětlení o co jde v Attention Is All You Need] admin |
|---|
| |
| Většina moderních LLM je postavena na architektuře **Transformer**, kterou v roce 2017 představil Google (paper "Attention Is All You Need"). | Většina moderních LLM je postavena na architektuře **Transformer**, kterou v roce 2017 představil Google (paper "Attention Is All You Need"). |
| | ====Vysvětlení o co jde v Attention Is All You Need ==== |
| | Dominantní modely sekvenční transdukce jsou založeny na komplexních rekurentních nebo konvolučních neuronových sítích v konfiguraci kodér-dekodér. Nejvýkonnější modely také propojují kodér a dekodér prostřednictvím mechanismu pozornosti. Navrhujeme novou jednoduchou síťovou architekturu, Transformer, založenou výhradně na mechanismech pozornosti, která zcela vylučuje rekurence a konvoluce. Experimenty se dvěma úkoly strojového překladu ukazují, že tyto modely jsou kvalitnější, lépe paralelizovatelné a vyžadují výrazně méně času na trénink. Náš model dosahuje skóre 28,4 BLEU v úkolu překladu z angličtiny do němčiny WMT 2014, čímž překonává dosavadní nejlepší výsledky, včetně ansámblů, o více než 2 BLEU. V překladové úloze z angličtiny do francouzštiny WMT 2014 dosahuje náš model nového špičkového skóre BLEU 41,8 po 3,5 dnech tréninku na osmi GPU, což je zlomek nákladů na trénink nejlepších modelů z literatury. Ukazujeme, že Transformer se dobře generalizuje na jiné úkoly, a to díky úspěšnému použití na analýzu anglických větných členů jak s velkým, tak s omezeným množstvím trénovacích dat. |
| | |
| |
| * **Tokenizace:** Text není zpracováván jako celá slova, ale jako "tokeny" (části slov, slabiky). | * **Tokenizace:** Text není zpracováván jako celá slova, ale jako "tokeny" (části slov, slabiky). |