Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- it:ai:llm [2026/01/02 11:34] – vytvořeno admin
+++ it:ai:llm [2026/01/02 12:20] (aktuální) – [Vysvětlení o co jde v Attention Is All You Need] admin
@@ Řádek 10: / Řádek 10: @@
 Většina moderních LLM je postavena na architektuře **Transformer**, kterou v roce 2017 představil Google (paper "Attention Is All You Need").
+====Vysvětlení o co jde v Attention Is All You Need ====
+Dominantní modely sekvenční transdukce jsou založeny na komplexních rekurentních nebo konvolučních neuronových sítích v konfiguraci kodér-dekodér. Nejvýkonnější modely také propojují kodér a dekodér prostřednictvím mechanismu pozornosti. Navrhujeme novou jednoduchou síťovou architekturu, Transformer, založenou výhradně na mechanismech pozornosti, která zcela vylučuje rekurence a konvoluce. Experimenty se dvěma úkoly strojového překladu ukazují, že tyto modely jsou kvalitnější, lépe paralelizovatelné a vyžadují výrazně méně času na trénink. Náš model dosahuje skóre 28,4 BLEU v úkolu překladu z angličtiny do němčiny WMT 2014, čímž překonává dosavadní nejlepší výsledky, včetně ansámblů, o více než 2 BLEU. V překladové úloze z angličtiny do francouzštiny WMT 2014 dosahuje náš model nového špičkového skóre BLEU 41,8 po 3,5 dnech tréninku na osmi GPU, což je zlomek nákladů na trénink nejlepších modelů z literatury. Ukazujeme, že Transformer se dobře generalizuje na jiné úkoly, a to díky úspěšnému použití na analýzu anglických větných členů jak s velkým, tak s omezeným množstvím trénovacích dat.
   * **Tokenizace:** Text není zpracováván jako celá slova, ale jako "tokeny" (části slov, slabiky).