Deep 'Reinforcement Learning' er undervisning robotter nye færdigheder hurtigere end nogensinde

Roboter lærer at fuldføre opgaver i sped-up virtuelle verdener, udvikle færdigheder i løbet af nogle timer, som ellers ville tage måneder. Simuleret dyb forstærkning læring (eller Deep RL) betyder en færdighed, der normalt tager 55 dage for en A.I. at lære i den virkelige verden tager kun en dag i det hyperaccelererede klasseværelse.

"Det har potentiale til virkelig at revolutionere hvad vi kan gøre i robotikdomænet," sagde Raia Hadsell, en forsker ved Google DeepMind, på torsdagens Re-Work Deep Learning Summit i London. "Vi kan lære menneskelige niveau færdigheder."

Det kan lyde kontraintuitivt, da helt sikkert robotters hele punkt er programmører kan lære dem at gøre ting, ikke? Ved design af en maskine, der opererer i den virkelige verden, har robotter dog brug for en masse data for at forstå, hvordan man gør en opgave i en ukendt situation. A.I. kan bruge disse data til at "lære" en færdighed baseret på alle de tilfælde, der kom før.

Dybforstærkning lærer indsamler disse data på samme måde som hvordan mennesker lærer: En robot vil gentage en opgave flere gange, som at fange en bold og optage dataene for at opbygge et billede af, hvordan man bedst kan fange en bold i en ny situation. Da DeepMind brugte modellen i 2013 for at lære en robot at mestre Atari-spil, simpelthen ved at sætte det ned foran skærmen og fortælle det endelige mål, elskede det videnskabelige fællesskab det.

Problemet er, det tager for evigt. Du er nødt til at kaste bolde på en robot flere gange, eller i Atari-sagen, lad robotten være alene i soveværelset i et stykke tid. Ved at køre en MuJoCo-simulering kombineret med et progressivt neuralt netværk kan instruktører køre et program, der efterligner robotten, overfører de lærte adfærd til roboten og kortlægger de virtuelle bevægelser i den virkelige verden.

"Vi kan køre disse simulatorer hele dagen og hele natten," sagde Hadsell.

Resultaterne taler for sig selv. Denne robot, der fik sit eksamensbevis i at fange, kan nu følge virtuelle bolde som om de var virkelige, priming det til den store dag, når det bliver bedt om at fange en rigtig bold:

'Sæsonens spil' Sæson 8 Spoilers: Aryas færdigheder kunne være nøgle på 2 måder

Et spændende nyt 'Game of Thrones' teori tyder på, at et tegn kunne spille en central rolle i to større konflikter. Vil Arya Starks træning føre menneskeheden til ridderkrigs sejr og påvirke hvem der tager tronen i slutningen af sæson 8? Her er hvorfor nogle fans tror, at hun er den vigtigste person på showet rigtigt ...

Næste Supervolcano Udbrud vil være hurtigere end forventet, siger undersøgelse

En overvågningsudbrud kunne dræbe millioner af mennesker langt hurtigere end forskere, der tidligere troede. Men rolig, det er nok ikke det, der dræber os.

'Black Mirror' Sæson 5 Udgivelsesdato kunne være måde hurtigere end vi troede

Vi kører stadig fra 'Black Mirror' sæson 4, men det ser ud til, at sæson 5 udgivelsesdato kunne ligge lige rundt om hjørnet. Netflix-serien er tilsyneladende indstillet til at vende tilbage i december, og sæson 5 kunne være særlig unik, selv for 'Black Mirror.'

$config[ads_kvadrat] not found