Hvor DeepMind udviklede en ærlig selvuddannet A.I. Det kan udmønte mennesker

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary

Indholdsfortegnelse:

Anonim

Computere har sparket vores skrøbelige menneskelige æsler i skak i et par årtier nu. Første gang dette skete var i 1996, da IBMs Deep Blue var i stand til at tage ned verdensmester Gary Kasperov. Men en ny undersøgelse fra alfabetets A.I. outfit DeepMind kaster lys på, hvor begrænset det omfang, den tidlige sejr virkelig var.

For den ene kastede Kasperov ret tilbage, vinder tre spil og tegner to gange i en seks kampe, pr. En gammel Daglige nyheder rapport.

Men meget mere, som DeepMind forsker Julian Schrittwieser fortæller Inverse, programmer som Deep Blue blev også programmeret manuelt. Det betyder, at mennesker måtte lære A.I. Alt det havde brug for at vide om, hvordan man håndterer enhver tænkelig uforudsete situation. Det kan med andre ord kun være så godt som de mennesker, der programmerer det, var. Og mens Deep Blue var tydeligvis i stand til at blive temmelig god til skak; giv det et andet, lignende spil som Go, og det ville have været clueless.

Alpha Zero er helt anderledes. I en ny undersøgelse offentliggjort i dag i tidsskriftet Videnskab, forfatterne afslører, hvordan de ikke kunne lære Alpha Zero at slå mennesker på skak, men hvordan man lærer Alpha Zero hvordan man kan lære sig selv at mestre flere spil.

Hvordan man lærer A.I. At lære sig selv

Alpha Zero blev udviklet ved hjælp af en teknik kaldet dyb forstærkning læring. I det væsentlige indebærer dette at undervise A.I. noget meget simpelt, ligesom de grundlæggende regler for skak, og så gør det enkle ting igen og igen og igen, indtil det lærer mere komplicerede, interessante ting som strategier og teknikker.

"Traditionelt … mennesker ville tage deres viden om spillet og forsøge at kode det i regler," siger Schrittwieser, der har arbejdet på Alpha Zero i næsten fire år. "Vores tilgang er at vi initialiserer tilfældigt, og lad det spille spil mod sig selv, og fra disse spil kan den lære, hvilke strategier der virker."

Alle Alpha Zero får er de grundlæggende regler, og derfra lærer man hvordan man vinder ved at spille sig selv. Ifølge de nye resultater tog det kun ni timer for Alpha Zero at mestre skak, 12 timer til at mestre Shogi, og omkring 13 dage for at mestre Go. Fordi det spiller sig selv, er det i det væsentlige selvlært. Det er lavet minkød af alle verdensmesterens menneskestyrede algoritmer og slog verdensmesteren 2017 i Shogi 91 procent af tiden.

"Det kan uafhængigt opdage interessant viden om spillet," siger Schrittwieser. "Det fører til programmer, der spiller mere menneskelige."

Mens stilen er menneskelig og kreativ, er det også sandsynligvis optimal, siger han nok, så Alpha Zero skal kunne dominere stort set alle spil, hvor den har adgang til alle tilgængelige oplysninger. Faktisk er Alpha Zero så sofistikeret, at vi måske skal flytte til en helt anden klasse af spil for fortsat at skubbe grænserne for hvordan A.I. løser problemer.

Hvorfor Alpa Zero er så godt

A.I. forskere elsker at bruge disse spil som testgrundlag for stadig mere sofistikerede former for algoritmer af nogle få grunde. De er elegante, og folk har spillet dem i hundreder af år, for en, hvilket betyder at du har mange potentielle udfordrere til at teste din algoritme på. Men de er også komplicerede og indviklede, hvilket betyder, at de kan tjene som en skridt til A.I. der kan løse problemer i den virkelige verden. Schrittwieser siger, at det næste forskningsområde skaber en algoritme som Alpha Zero, der stadig kan træffe optimale beslutninger med ufuldstændige oplysninger.

"I alle disse spil ved du alt, hvad der sker," siger han. "I den virkelige verden kan du kun kende en del af informationen. Du kan måske kende dine egne kort, men du kender ikke din modstander, du har delvis information."

Der er stadig nogle brætspil, der er i stand til at give algoritmer som Alpha Zero denne slags udfordring også - Schrittwieser nævnte Stratego, hvor spillere gemmer deres bevægelser fra hinanden - og Starcraft, som er et andet område af interesse for DeepMinds gamingfokuserede forskere.

"Vi vil gøre de problemer, vi tackler mere og mere komplekse," siger han. "Men det er altid en dimension ad gangen."

Samtidig viser Deep Minds næste generation af computeriserede problemløsere potentialet til at flytte fra spilverdenen til den virkelige verden. Tidligere i ugen annoncerede den en anden algoritme kaldet AlphaFold, som er i stand til at ekstrapolere en proteinsekvens i en præcis forudsigelse af dens 3D-struktur.Det er et problem, der er befuddled forskere i årtier og kunne hjælpe med at åbne døren for at helbrede for sygdomme, der spænder fra Alzheimers til cystisk fibrose.

$config[ads_kvadrat] not found