
Slýcháte v poslední době až nápadně často o architektuře MoE? Vlastně nejde o nic nového, trendem se tento termín stal, ale až v posledních měsících, kdy ji začaly využívat v praxi firmy jako Meta nebo OpenAI.
Mixture of Experts by mohla vyřešit jeden z největších problémů současné AI - jak škálovat modely, aniž by to stálo raketu nebo vyžadovalo datacentrum velikosti města.
Co to tedy je a na jakých principech funguje? Pojďme si to probrat bod po bodu.
Co to je?
MoE (Mixture of Experts) je typ architektury, která při každém dotazu aktivuje jen malou část modelu - konkrétní “experty”.
Představit si ji můžete jako tým specialistů. Pokud budete mít dotaz týkající se HR, nebudete zatěžovat všechny ve firmě, ale půjdete přímo za expertem na danou problematiku. Na podobných principech funguje i MoE.
Její koncept vznikl už v , ale až v posledních letech se stala prakticky použitelnou ve větším měřítku.
Proč je teď důležitá?
Současné AI modely se neustále zvětšují, a s tím se zvětšují i náklady na jejich provoz. To pomáhá MoE architektura řešit.
Namísto toho, aby se při každém dotazu aktivoval celý model, MoE spouští jen malou část – konkrétní experty, kteří se hodí pro daný úkol. To znamená nižší spotřebu výpočetního výkonu a rychlejší odpovědi, což je klíčové pro reálné nasazení v chatbotech, mobilních aplikacích nebo agentních systémech.
Zároveň je MoE architektura mnohem lépe škálovatelná než klasické „monolitické“ modely – může růst, aniž by s tím rostly náklady stejným tempem. Právě proto se objevuje ve stále více komerčních systémech: Meta ji používá v Llama 4, Mistral představil čistě MoE model Mixtral a OpenAI naznačuje využití podobného přístupu v GPT-4 Turbo.
Navíc se MoE hodí i pro specializované agenty – každý „expert“ může být zaměřený na něco jiného, což zvyšuje kvalitu odpovědí a snižuje množství provedených výpočtů.
Jednoduše řečeno, MoE architektura je způsobem, jak mít výkonný model, který využívá opravdu jen to, co je potřeba.
Jak to funguje technicky?
Už jsme zmínili, že MoE vybírá při každém dotazu z několika expertů. Například při jednom dotazu může z 64 expertů vybrat 2 nebo 8 z nich. Ale jak dokáže rozhodnout, kteří to budou?
Může za to tzv. routing mechanismus.
Jde o mechanismu, který dokáže na základě ohodnocení vstupního tokenu přiřadit skóre jednotlivým expertům. Poté vybere už jen ty top s nejvyšším skóre.