Zvládne doporučovací model vašeho e-shopu i nové zboží?

Novinky v sortimentu, které si ještě nikdo nekoupil, jsou pro doporučovací algoritmy e-shopů oříšek. Řešením mohou být neuronové sítě.


S rozvojem e-commerce businessu a stále rostoucím objemem online nákupů se pokročilé doporučovací algoritmy dostávají i do menších e-shopů. Nabídku dnes mohou personalizovat i prodejci, kteří doteď promovali nanejvýš naposledy zobrazené produkty či nejprodávanější zboží z dané kategorie. Inspirovat se můžou u průkopníků jako je Amazon, Spotify nebo Netflix, kteří už úspěch personalizovaných doporučovacích modelů prokázali. 


Cíl doporučovacích modelů je vždy stejný: předpovědět nákupní preference konkrétního zákazníka a nabídnout mu relevantní produkt. Personalizované metody fungují velmi dobře a jejich význam ještě poroste v důsledku rostoucí konkurence na poli e-commerce. Pro rychlou orientaci v tom, jak důležité tyto modely pro internetové prodejce jsou, stačí uvést pár faktů:

  • Streamovací službě Netflix šetří její "recommendation engine" přes 1 miliardu USD ročně.
  • eBay koupil v roce 2011 službu pro personalizované doporučování Hunch za 80 mil. USD.
  • Podíl zboží prodaného na základě více či méně personalizovaného doporučení se v e-shopech podle kategorie pohybuje mezi 5 a 15 procenty. Třeba Amazon už ale před několika lety uvedl, že v jeho případě tvoří příjmy z prodeje produktů, které zákazník našel díky doporučení, dokonce 35 procent.
Klasické modely čerpají z historie nákupů

O jakých doporučovacích modelech tady vlastně mluvíme? Mezi ty základní a nejpoužívanější patří collaborative filtering, který k danému zákazníkovi hledá jemu podobné uživatele a následně mu doporučuje produkty, které si uživatelé s podobným profilem kupovali.

Další kategorií jsou tzv. item-item metody pracující na úrovni produktů. Tyto modely a hledají často se opakující páry zboží, které zákazníci nakupují společně. Pokud si pak zákazník koupí produkt A, nabídneme mu právě s ním nejčastěji kupovaný produkt B.


Vrcholem těchto algoritmů jsou pak sekvenční modely, které u zákazníků pracují s posloupnostmi akcí. Například: klik na reklamu > návštěva webu > prohlížení produktu A > prohlížení produktu B > košík > platba. Takovýchto sekvencí vytvoří zákazníci denně mnoho a dá se na nich naučit model, jenž dokáže předpovídat jednotlivé kroky uživatele na webu. Zde přitom nepředpovídáme jen nákupy, ale všechny akce v dané sekvenci.  


Všechny zmíněné metody, přestože fungují velmi dobře, mají jedno společné. Používají historická data. Tato skutečnost začne být problém ve chvíli, kdy chceme personalizovaně doporučovat také novinky v sortimentu, které si ještě nikdo nekoupil. Zařazení nových produktů bez nákupní historie řeší e-shopy běžně manuálními a nesystémovými zásahy, kdy tyto položky „natvrdo“ vytáhnou nahoru. To není zrovna postup odpovídající roku 2017.


Řešením pro práci s novým zbožím mohou být konvoluční neuronové sítě. Ty se z fotek produktů sami naučí rozpoznávat jejich klíčové parametry a následně daný výrobek párovat s preferovaným vizuálním stylem konkrétního zákazníka. S tímto principem pracuje i model Style Recommender (viz BOX).

Nejvhodnější algoritmus vyžaduje testování

Při vývoji doporučovacího modelu je běžná kombinace různých metod. I když se obecně nedá říct, co bude pro ten který obchod fungovat nejlépe, dobrý data scientist by měl mít představu, kudy se ubírat. Prochází se historie nákupů, chování zákazníků na webu, dostupné sociodemografické údaje, vlastnosti kupovaných produktů atd. A tady to začíná být zajímavé.


Například ve chvíli, kdy narazíte na otázku, podle čeho poznat podobné zákazníky pro collaborative filtering? Jen podle jejich nákupů? Podle chování na webu (rychle nakupuje, pomalu a prohlíží…)? Podle afinity k značkám (vždy si koupil HellFinger a nikdy LaGusta)? Podle četnosti nákupů? Jakou váhu dát v rámci košíku jednotlivým položkám a jejich parametrům? Nebo jak poznáme správné vlastnosti produktů pro item-item přístupy? A jak poznáme, které události při procházení jsou důležité pro následný nákup u sekvenčního modelu?


Řešení je přehršel: od klasických pravděpodobnostních metod přes metody strojového učení, které statistickou rigoróznost přebíjejí úspěchy v praxi, až po odnož strojového učení, kam řadíme i výše zmíněné neuronové sítě. Nejvhodnější algoritmus (nebo jejich kombinace) se pak zvolí podle výsledků na testovacím vzorku dat. 


Pokud se vzorek dat připraví správně, jsou výsledky vybraného testovacího algoritmu stejné i v ostrém nasazení. Už dopředu tak máte relativně přesnou představu o tom, jak bude daný doporučovací model fungovat a jaké výsledky vašemu internetovému prodeji přinese.