
Slýcháte v poslední době až nápadně často o architektuře MoE? Vlastně nejde o nic nového, trendem se tento termín stal, ale až v posledních měsících, kdy ji začaly využívat v praxi firmy jako Meta nebo OpenAI.
Mixture of Experts by mohla vyřešit jeden z největších problémů současné AI - jak škálovat modely, aniž by to stálo raketu nebo vyžadovalo datacentrum velikosti města.
Co to tedy je a na jakých principech funguje? Pojďme si to probrat bod po bodu.
Co to je?
MoE (Mixture of Experts) je typ architektury, která při každém dotazu aktivuje jen malou část modelu - konkrétní “experty”.
Představit si ji můžete jako tým specialistů. Pokud budete mít dotaz týkající se HR, nebudete zatěžovat všechny ve firmě, ale půjdete přímo za expertem na danou problematiku. Na podobných principech funguje i MoE.
Její koncept vznikl už v 90. letech, ale až v posledních letech se stala prakticky použitelnou ve větším měřítku.
Proč je teď důležitá?
Současné AI modely se neustále zvětšují, a s tím se zvětšují i náklady na jejich provoz. To pomáhá MoE architektura řešit.
Namísto toho, aby se při každém dotazu aktivoval celý model, MoE spouští jen malou část – konkrétní experty, kteří se hodí pro daný úkol. To znamená nižší spotřebu výpočetního výkonu a rychlejší odpovědi, což je klíčové pro reálné nasazení v chatbotech, mobilních aplikacích nebo agentních systémech.
Zároveň je MoE architektura mnohem lépe škálovatelná než klasické „monolitické“ modely – může růst, aniž by s tím rostly náklady stejným tempem. Právě proto se objevuje ve stále více komerčních systémech: Meta ji používá v Llama 4, Mistral představil čistě MoE model Mixtral a OpenAI naznačuje využití podobného přístupu v GPT-4 Turbo.
Navíc se MoE hodí i pro specializované agenty – každý „expert“ může být zaměřený na něco jiného, což zvyšuje kvalitu odpovědí a snižuje množství provedených výpočtů.
Jednoduše řečeno, MoE architektura je způsobem, jak mít výkonný model, který využívá opravdu jen to, co je potřeba.
Jak to funguje technicky?
Už jsme zmínili, že MoE vybírá při každém dotazu z několika expertů. Například při jednom dotazu může z 64 expertů vybrat 2 nebo 8 z nich. Ale jak dokáže rozhodnout, kteří to budou?
Může za to tzv. routing mechanismus.
Jde o mechanismu, který dokáže na základě ohodnocení vstupního tokenu přiřadit skóre jednotlivým expertům. Poté vybere už jen ty top s nejvyšším skóre.
Populárních způsobů, jak implementovat routing mechanismus, existuje více. Mezi nejběžnější patří například top-k routing nebo expert choice routing. Více o konkrétních rozdílech mezi nimi si můžete přečíst zde.
Z hlediska efektivity je vhodné aby se síť aktivovala rovnoměrně - tj. jeden expert neodbavoval všechny dotazy - to vede k optimalizaci sady expertů. Modely provádějí analýzu nejčastějších oblastí promptů, díky tomu pak vytvoří i oblasti expertízy.
Výstupy aktivovaných expertů se kombinují pomocí váženého součtu, přičemž váhy jsou určeny gating funkcí na základě skóre jednotlivých expertů. Experti s vyšším skóre mají větší vliv na finální výstup. V případě top-k routingu mohou k výsledku přispět i experti s nižším skóre, ale jejich vliv je menší.
Trénování MoE modelu je o něco náročnější, protože zahrnuje několik klíčových aspektů. Model se musí naučit nejen samotný úkol, ale také optimalizovat routing mechanismus, který rozhoduje, který expert je pro daný vstup nejvhodnější.
Další výzvou je zajistit rovnoměrné využití všech expertů. Bez dodatečných opatření může docházet k tomu, že některé experty routing mechanismus preferuje, což vede k jejich přetížení a přeučení, zatímco jiní experti zůstávají nevyužití. K vyvážení zátěže se často používají pomocné ztrátové funkce, které penalizují nerovnoměrné rozdělení vstupů mezi experty.
Závěr
Mixture of Experts je typ architektury, kterou aktuálně používá většina velkých jazykových modelů. Díky ní je možné dosáhnout vyššího výkonu modelů bez nutnosti neustále zvyšovat jejich velikost a náklady. Při každém dotazu totiž aktivuje pouze určitou část modelu - konkrétní “experty”.
Modely využívající architekturu MoE jsou efektivní, škálovatelné a ideální pro praktické nasazení – od chatbotů až po specializované agenty.
Author

Barbora Mrkáčková
HR Specialist & Marketing SpecialistStarám se o spokojenost zaměstnanců v DXH. Mám na starosti nábor, employer branding a plánování akcí. Zároveň se věnuji i našemu marketingu.