Deep 'Reinforcement Learning' er undervisning robotter nye færdigheder hurtigere end nogensinde

$config[ads_kvadrat] not found
Anonim

Roboter lærer at fuldføre opgaver i sped-up virtuelle verdener, udvikle færdigheder i løbet af nogle timer, som ellers ville tage måneder. Simuleret dyb forstærkning læring (eller Deep RL) betyder en færdighed, der normalt tager 55 dage for en A.I. at lære i den virkelige verden tager kun en dag i det hyperaccelererede klasseværelse.

"Det har potentiale til virkelig at revolutionere hvad vi kan gøre i robotikdomænet," sagde Raia Hadsell, en forsker ved Google DeepMind, på torsdagens Re-Work Deep Learning Summit i London. "Vi kan lære menneskelige niveau færdigheder."

Det kan lyde kontraintuitivt, da helt sikkert robotters hele punkt er programmører kan lære dem at gøre ting, ikke? Ved design af en maskine, der opererer i den virkelige verden, har robotter dog brug for en masse data for at forstå, hvordan man gør en opgave i en ukendt situation. A.I. kan bruge disse data til at "lære" en færdighed baseret på alle de tilfælde, der kom før.

Dybforstærkning lærer indsamler disse data på samme måde som hvordan mennesker lærer: En robot vil gentage en opgave flere gange, som at fange en bold og optage dataene for at opbygge et billede af, hvordan man bedst kan fange en bold i en ny situation. Da DeepMind brugte modellen i 2013 for at lære en robot at mestre Atari-spil, simpelthen ved at sætte det ned foran skærmen og fortælle det endelige mål, elskede det videnskabelige fællesskab det.

Problemet er, det tager for evigt. Du er nødt til at kaste bolde på en robot flere gange, eller i Atari-sagen, lad robotten være alene i soveværelset i et stykke tid. Ved at køre en MuJoCo-simulering kombineret med et progressivt neuralt netværk kan instruktører køre et program, der efterligner robotten, overfører de lærte adfærd til roboten og kortlægger de virtuelle bevægelser i den virkelige verden.

"Vi kan køre disse simulatorer hele dagen og hele natten," sagde Hadsell.

Resultaterne taler for sig selv. Denne robot, der fik sit eksamensbevis i at fange, kan nu følge virtuelle bolde som om de var virkelige, priming det til den store dag, når det bliver bedt om at fange en rigtig bold:

$config[ads_kvadrat] not found