

Věděli jste o tom, že Netflix má obrovský tým výzkumníků a že až 80% z toho na co se na Netflixu díváte, je ovlivněno jejich systémem pro doporučování titulů? Zajímalo vás někdy jak doporučování funguje?
Doporučení, která vidíte jsou výsledek výkonných doporučovacích modelů. Původně každá sekce - např. “Pokračovat v přehrávání” a “Příště si nenechte ujít” měla svůj model, který sice bral data ze stejných zdrojů jako ostatní ale každý model byl trénovaný separátně. Údržba a vylepšování individuálních modelů se stávala čím dál náročnější a dražší.
Netflix se letos začíná posouvat k jednotnému a ucelenému systému – staví výkonný foundation model (základní model), který rozumí uživatelskému chování a preferencím a dokáže tato data sdílet napříč všemi doporučovacími systémy.
Původně měl Netflix spoustu menších modelů, každý trénovaný samostatně. Jeden si například pamatoval, co máte rádi v rámci akčních filmů, jiný zas doporučoval pořady, které jsou zrovna populární. Modely spolu ale nekomunikovaly. To způsobovalo problémy především při aktualizacích a když bylo třeba modely vylepšovat.
Nový přístup Netflixu je inspirován fungováním velkých jazykových modelů (= large language models, zkráceně LLMs). Místo budování spousty malých modelů teď staví jeden velký, který chápe vaše sledovací návyky jako celek. Tento model pak může pomáhat ostatním systémům tím, že sdílí, co se naučil — buď přímo, nebo skrze opakovaně použitelné embeddings.
Netflix je profesionální stalker. Sleduje každou vaši interakci: co sledujete, jak dlouho, co přeskočíte, dokonce i na jakém zařízení a v jakém jazyce. Jen surová (unlabeled) data sama o sobě ale nestačí. Netflix proto tyto (inter)akce převádí na tokeny (tokens) — jednotky chování, jako např. „Sledoval Stranger Things 40 minut na telefonu večer“.
Model je krmen těmito tokeny, aby se naučil, jak se uživatelé chovají v čase. Zde nastává další výzva - uživatelé dělají spoustu věcí. Netflix proto musí najít způsob jak rozhodovat, kolik detailů si zachová, ale zároveň musí zařídit, aby se data zpracovávala rychle.
Jak už jsme zmínili, Netflix se inspiroval u LLMs, které předpovídají další slovo neboli token. Netflix chce ale předpovídat další akci, kterou by uživatel mohl udělat. Akcí je ale spousta a tak jim musí přikládat různou váhu - sledování celého filmu má například větší váhu a význam než když se podíváte na trailer, který má 3 minuty. Model se tedy učí vnímat, co je důležité a to mu umožňuje lépe doporučovat pořady, které by se vám mohly líbit.
Když vyjde nový film nebo seriál a nikdo ho ještě neviděl, jak ho Netflix může začít doporučovat?
Snaží se to řešit těmito dvěma způsoby:
Díky tomu se úplně nové pořady mohou objevit ve vašich doporučeních hned první den. Nadále se ale už pořad bude zařazovat podle toho, jak s ním uživatelé budou interagovat.
Embeddings jsou jako digitální otisky každého pořadu, uživatele nebo žánru. Zachycují jemné vzorce chování a preferencí. Tyto vektory se pak sdílejí s dalšími nástroji Netflixu — například při hledání podobných pořadů, predikci dalšího sledování, nebo personalizaci domovské stránky.
Ale má to háček: embeddings se mění při každém novém trénování modelu. Netflix proto používá speciální matematické transformace, které umožňují vzít staré embeddings a přetvořit je na nové, aby se tyto vektory zachovaly co nejstabilnější, a ostatní systémy s nimi mohly nadále pracovat.
Cílem Netflixu je, abyste ideálně nemuseli vůbec nic hledat. Snaží se neustále objevovat věci za vás a brát v potaz vaše preference. Preference, které jsou tvořené na bázi toho, jak se chováte na Netflixu ale i na tom, jak se chovají uživatelé s podobnou historií.
Jejich “foundation model” představuje významný krok směrem k vytvoření jednotného systému místo mnoha malých nástrojů. Stojí na centralizaci dat, inspiraci principy LLMs a využití embeddings.
Model se lépe učí, přizpůsobuje se rychleji a poskytuje kvalitnější doporučení. Podobně jako velké jazykové modely změnily práci s textem, může i tento přístup proměnit způsob, jak fungují doporučovací systémy. Co to znamená pro nás? Přesnější doporučení a více pořadů, na které se opravdu můžeme a chceme dívat, aniž bychom je museli hledat.
https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/18140

Generalistka se zájmem o ops, obchod, software design a programování. V současné době vytvářím aplikace v NextJS a prohlubuju si znalosti v oblasti informatiky.
Let's talk about AI: #2 The Top 5 AI Tools for Technical Writers
Supercharge productivity: Jenni, Bearly, Fireflies, Synthesia, ChatGPT. Streamline writing, enhance efficiency, create videos, support language.

Jan Řičica
The last piece in this series will examine how to use AI technologies to optimize performance on a variety of tasks, including technical writing, marketing, organizing your work, creating graphics, and much more. Let's look at it together.

Jan Řičica
Artificial Intelligence (AI) has been making waves in various industries, and software development is no exception.

Prokop Simek
Ztrácíte se v názvosloví ze světa AI? Pak je tenhle článek pro vás. Dali jsme dohromady nejvyhledávanější a nejpoužívanější pojmy, které souvisejí s umělou inteligencí.

Barbora Mrkáčková
Discover the benefits and potential drawbacks of AI, including its impact on healthcare, education, the tech industry, job displacement, and security risks.

Jan Řičica