Hvordan den multi-armed bandit bestemmer hvilke annoncer og historier du ser online

$config[ads_kvadrat] not found

A Multi-Armed Bandit Framework for Recommendations at Netflix | Netflix

A Multi-Armed Bandit Framework for Recommendations at Netflix | Netflix
Anonim

Forestil dig at du er en gambler, og du står foran flere spilleautomater. Dit mål er at maksimere dine gevinster, men du ved faktisk ikke noget om de potentielle fordele, der tilbydes af hver maskine. Du forstår dog, at de løftestænger du trækker, og hvor ofte du gør det, vil påvirke resultaterne af dit spilobinge.

Dette scenario, der står overfor hver dag af besøgende til Las Vegas og Atlantic City (i hvilken grad folk stadig går til Atlantic City) er også et klassisk logisk puslespil kaldet "Multi-Armed Bandit" - spilleautomater kaldes "One-Armed Banditter "ved at aldre Reno-typer, fordi de har en håndtag og tager folks penge. Selv om der ikke findes nogen rigtig måde at løse Multi-Armed Bandit-situationer - den nærmeste kandidat er Gittins Index - Der er strategiske tilgange til at løse disse problemer, som du ser uden at registrere hver dag, når du går online. Mange algoritmer styrer måden, hvorpå indhold opstår via Google, og på hjemmesider er der bygget op omkring MAB-strategier. Målet i næsten alle tilfælde er at forbinde læring og resultater og maksimere potentialet for begge.

En multi-væbnet bandit tilgang bruges af Washington Post at finde ud af, hvilke fotos og overskrifter du mest sandsynligt vil klikke på, og via trådløse netværk for at finde ud af, hvilke optimale, energibesparende ruter er de bedste. Algoritmerne, der vokser ud af MBA-tilgange, er meget vigtige for disse virksomheder og mange andre, fordi de grundlæggende bestemmer hvornår og hvilke annoncer der vises online.

At finde ud af, hvilke annoncer der viser folk er et udfordrende problem, fordi der er så mange enarmede banditter, der løber rundt ved at klikke på ting online. MAB-algoritmer til reklamer bruger typisk et hurtigt skiftende "dødeligt multiarmet banditproblem", som anvendes over endelige tidsperioder. Trafikdata bruges til at udvikle mere effektive metoder.

Det er svært at knytte MAB'er til et præcist formål, fordi det er muligt at oprette så mange variationer af formlen. K-væbnede banditter har for eksempel "våben", der konkurrerer om at få den højest forventede belønning. Kontekstualisere banditter gør det samme, men med "ekspertråd" - data, der tidligere er indsamlet på brugeren - og den web-ready med navnet "ILOVETOCONBANDITS" virker kun på en skema af foruddefinerede runder. I modsætning hertil har en klassisk MAB-tilgang ikke nogen sideinformation mulig, og resultatet afhænger kun af det valgte potentiales potentiale.

Mens den mest anvendelige ansøgning til MAB'er hidtil synes at være internetrelateret, arbejder forskere på at finde en måde at anvende dem på "real life" (aka meatspace) scenarier. I et dokument fra 2015 overvejer forskere fra University of British Columbia anvendelsen af ​​MAB'er til medicinske forsøg. Målet, hvis MAB'er viser sig at være mulige her, er, at en MAB-algoritme kunne måle effekten af ​​en bestemt medicin. Det åbenlyse problem er, at medmindre en computermoduleret version af dette kunne oprettes, ville det være for tidskrævende at gå med denne tilgang. Der er ingen måde, at et MAB-design kunne placeres inden for et klinisk forsøg.

Ideen er pæn, men ikke gennemførlig fra nu af. Indtil fremtiden er her, vil du for det meste føle den truende tilstedeværelse af en multi-væbnet bandit, når du desperat forsøger at klikke ud af pop-up-annoncer.

$config[ads_kvadrat] not found