Algoritme, der styrede 'Pong' nu Fremragende på 'Flappy Bird', Still Single

$config[ads_kvadrat] not found

Раффаэлло Д'Андреа: Восхитительный атлетизм квадролётов

Раффаэлло Д'Андреа: Восхитительный атлетизм квадролётов
Anonim

Forbedring af en dyb-læringsmetode, der er banebrydende for Pong, Space invaders, og andre Atari-spil, har Stanford University computer science student Kevin Chen oprettet en algoritme, der er ret god til den klassiske 2014 side-scroller Flappy Bird. Chen har udnyttet et koncept kendt som "q-learning", hvor en agent sigter mod at forbedre sin belønning score med hver iteration af at spille for at perfektere et næsten umuligt og umuligt vanedannende spil.

Chen skabte et system, hvor hans algoritme blev optimeret til at søge tre belønninger: en lille positiv belønning for hver ramme, den levede i live, en stor belønning for at passere gennem et rør og en lige stor (men negativ) belønning for at dø. Således motiveret kan det såkaldte deep-q-netværk udvise mennesker, ifølge rapporten Chen skrev: "Vi kunne succesfuldt spille spillet Flappy Bird ved at lære lige fra pixels og scoren, opnå super-menneskelige resultater."

Det originale Atari-papir, udgivet i 2015 i Natur, kom fra det Google-ejede DeepMind-firma (nu berømt for dets beherskelse af det antikke kinesiske brætspil Go). DeepMind-præstationen var et gennembrud, fordi det tog visuel - eller pixel - i det mindste information, og med minimal indgang var i stand til at maksimere belønninger. Et sådant belønningssystem er blevet lignet hjernens dopaminerge reaktion, blot forenklet.

Det er ikke første gang, at en algoritme har erobret den flapping fugl: En tidligere klasse af Stanford University computer science studerende skabte et program, der, da trænet natten over, blev scoren forbedret fra 0 rør passeret til 1.600.

$config[ads_kvadrat] not found