Obsah

Velké jazykové modely (LLM)

Velké jazykové modely (Large Language Models - LLM) jsou pokročilé algoritmy umělé inteligence (AI) založené na hlubokém učení (Deep Learning), které jsou schopny porozumět, generovat a manipulovat s lidským jazykem.

Tyto modely jsou trénovány na masivním množství textových dat (knihy, články, kód, internetové diskuze), díky čemuž se učí statistické vazby mezi slovy a dokáží predikovat, jaký text by měl následovat.

1. Architektura a princip fungování

Většina moderních LLM je postavena na architektuře Transformer, kterou v roce 2017 představil Google (paper „Attention Is All You Need“).

Vysvětlení o co jde v Attention Is All You Need

Dominantní modely sekvenční transdukce jsou založeny na komplexních rekurentních nebo konvolučních neuronových sítích v konfiguraci kodér-dekodér. Nejvýkonnější modely také propojují kodér a dekodér prostřednictvím mechanismu pozornosti. Navrhujeme novou jednoduchou síťovou architekturu, Transformer, založenou výhradně na mechanismech pozornosti, která zcela vylučuje rekurence a konvoluce. Experimenty se dvěma úkoly strojového překladu ukazují, že tyto modely jsou kvalitnější, lépe paralelizovatelné a vyžadují výrazně méně času na trénink. Náš model dosahuje skóre 28,4 BLEU v úkolu překladu z angličtiny do němčiny WMT 2014, čímž překonává dosavadní nejlepší výsledky, včetně ansámblů, o více než 2 BLEU. V překladové úloze z angličtiny do francouzštiny WMT 2014 dosahuje náš model nového špičkového skóre BLEU 41,8 po 3,5 dnech tréninku na osmi GPU, což je zlomek nákladů na trénink nejlepších modelů z literatury. Ukazujeme, že Transformer se dobře generalizuje na jiné úkoly, a to díky úspěšnému použití na analýzu anglických větných členů jak s velkým, tak s omezeným množstvím trénovacích dat.

2. Využití LLM v praxi

LLM nejsou jen o chatování. V IT a byznysu mají široké uplatnění:

3. Přehled jednotlivých modelů (Inteligencí)

Trh s LLM se dělí na uzavřené (proprietary) modely, které běží na serverech poskytovatele, a otevřené (open-weights/source) modely, které lze provozovat lokálně.

A. OpenAI (Rodina GPT)

Průkopník moderní éry generativní AI.

B. Google (Rodina Gemini)

Google sjednotil své předchozí projekty (PaLM, LaMDA) pod značku Gemini. Jsou nativně multimodální.

C. Anthropic (Rodina Claude)

Firma založená bývalými zaměstnanci OpenAI, zaměřuje se na bezpečnost a etiku („Constitutional AI“).

D. Meta (Rodina Llama)

Meta (Facebook) razí cestu Open Weights. Modely dává k dispozici komunitě zdarma.

E. Mistral AI (Evropská špička)

Francouzský startup, který je velmi efektivní a populární mezi vývojáři.

F. Ostatní významné modely

4. Výzvy a rizika


Tagy: ai llm gpt claude llama machine_learning