Listopad se nesl ve znamení frontier modelů a agentních nástrojů pro vývojáře. Nejde už jen o vyšší skóre v benchmarcích, ale o to, jak dobře modely zvládají reálnou práci v repozitářích, dlouhé konverzace a automatizované workflow.
Claude Opus 4.5
Claude Opus 4.5 je doposud nejvýkonnější model od Anthropic. Výrazně vylepšuje kódování, práci s autonomními agenty, analýzu dat, tabulky či prezentace. Dokáže bezchybně zvládat vícekrokové workflow, dlouhý kontext i komplexní úlohy, přičemž spotřebuje výrazně méně tokenů, tedy je efektivnější. Nově tak umožňuje nasazení ve firemním prostředí, automatizaci procesů a rozsáhlé „agentní“ scénáře.
Užitečné zdroje:
Gemini 3 Pro
Jde o první model, o kterém můžeme říct, že posouvá laťku téměř ve všech benchmarcích. V Artificial Analysis Indexu se drží nad GPT-5.1, podle některých zdrojů o zhruba tři body. Na ARC-AGI 2 zdvojnásobil dosavadní state of the art výsledek. Podle některých zdrojů jde o opravdu obrovský model, který by měl být 2-3x větší než jiné proprietární modely. Můžeme na něm pozorovat, že škálování stále funguje, ale je stále těžší ho dosáhnout.
Užitečné zdroje:
OpenAI GPT 5.1
OpenAI vydává nový model GPT 5.1, hlavní upgrade se promítá hlavně do rychlosti a efektivity běhu. V inteligenci jako takové naopak není změna nikterak obrovská. Model má dva režimy: Instant pro rychlé odpovědi a Thinking pro náročnější úlohy, kde se vyplatí delší „přemýšlení“. K dispozici je také v řadě velikostí, od Mini až po Pro. Novinkou je i výrazně větší kontextové okno, díky němuž lze pohodlně pracovat s rozsáhlejšími kódbázemi nebo dokumentací v rámci jednoho záběru.
Užitečné zdroje:
OpenAI GPT 5.1 Codex Max
GPT-5.1-Codex-Max je nový „frontier“ model od OpenAI, zaměřený čistě na programování a agentní práci. Díky kombinaci chain-of-thought, tedy generování mezikroků uvažování, a techniky context-compaction zvládá delší, projektově rozsáhlé úlohy (refaktoringy, rozsáhlé debugování nebo generování komplexních systémů) bez omezení a přetížení kontextového okna.
Užitečné zdroje:
Moonshot Kimi K2
Kimi K2 je open-source model s 1 bilionem parametrů (při inference se aktivuje ~32 miliard). Je ideální pro týmy, které chtějí mít kontrolu nad svými daty a zároveň potřebují špičkový výkon v agentních a automatizačních úlohách. Kvůli své velikosti ale vyžaduje robustní infrastrukturu, provoz běžně znamená vícenásobné GPU (např. high-end karty) nebo specializované clustery, pro „plný chod“ je potřeba značné množství paměti, VRAM a výpočetní síly.
Užitečné zdroje:
Grok 4.1
Grok 4.1 umí dobře pracovat s emocemi a mezilidským kontextem, varianta Fast zvládá až 2 miliony tokenů, takže unese velké kódbáze nebo dlouhé konverzace. Díky Agent Tools API je vhodný pro produkční agenty a náročný tool-calling. Na druhou stranu se objevil problém s přehnaným chválením Muska a výrazným zaujetím, což naznačuje možnost biasu. U citlivých témat, jako historie, politika nebo fakta, proto nemusí být jeho odpovědi dostatečně neutrální ani spolehlivé.
Užitečné zdroje: ,
Google Antigravity
Antigravity je nové „agent-first“ IDE od Googlu, postavené kolem Gemini 3 Pro. V praxi jde o vývojové prostředí, kde mají agenti přímý přístup do editoru, terminálu i prohlížeče, a dokážou tak sami psát, spouštět i ověřovat kód. Hned při releasu ale někteří uživatelé hlásili problémy s nedostupností modelu kvůli velkému zatížení, a objevily se i vážné bezpečnostní zranitelnosti, které umožňují agentům, pokud jsou zapnuty výchozí možnosti, číst citlivé soubory a vykonávat libovolné příkazy.
Užitečné zdroje: ,
Listopad pěkně ukazuje, že nejde jen o „co největší“ a nejchytřejší model, ale o to, jak dobře sedí na konkrétní práci a stack týmu. Specializované modely na kód, rychlé malé modely i silné open-source alternativy dávají mnohem víc prostoru ladit výkon, cenu a kontrolu nad daty. A čím dál víc platí, že skutečná hodnota vzniká ve chvíli, kdy je AI dobře napojená do IDE, chatu a interních nástrojů, kde reálně zrychluje vývoj.