Deepfakes er ingen match til maskinundervisning - her er hvorfor

$config[ads_kvadrat] not found

Aymane Serhani ft. Cheikh Mokhtar El Berkani - MA NEDIKCH A L'VACANCIA (Prod by Hicham Khatir)

Aymane Serhani ft. Cheikh Mokhtar El Berkani - MA NEDIKCH A L'VACANCIA (Prod by Hicham Khatir)

Indholdsfortegnelse:

Anonim

En ny form for misinformation er klar til at sprede sig gennem onlinemiljøer, da 2018 midtvejsvalgskampagner opvarmes. Kaldet "deepfakes" efter den pseudonym online-konto, der populariserede teknikken - som måske har valgt sit navn, fordi processen bruger en teknisk metode kaldet "dyb læring" - disse falske videoer ser meget realistiske ud.

Indtil videre har folk brugt dybfaglige videoer i pornografi og satire for at få det til at fremstå, at berømte mennesker gør ting, de normalt ikke ville have. Men det er næsten sikkert, at der vil ske dybfag i løbet af kampagnesæsonen, der angiveligt viser, at kandidater siger ting eller går steder, den virkelige kandidat ikke ville.

Fordi disse teknikker er så nye, har folk problemer med at fortælle forskellen mellem rigtige videoer og dybfaglige videoer. Mit arbejde med min kollega Ming-Ching Chang og vores Ph.D. studerende Yuezun Li, har fundet en måde at pålideligt fortælle ægte videoer fra dybfaglige videoer. Det er ikke en permanent løsning, fordi teknologien vil blive bedre. Men det er en start, og giver håb om, at computere vil være i stand til at hjælpe folk med at fortælle sandheden fra fiktion.

Hvad er en "Deepfake"? Anyway?

At lave en dybfaglig video er meget som at oversætte mellem sprog. Tjenester som Google Translate bruger maskinindlæring - computeranalyse af titusindvis af tekster på flere sprog - for at registrere ordbrugsmønstre, som de bruger til at oprette oversættelsen.

Deepfake-algoritmer fungerer på samme måde: De bruger en type maskinindlæringssystem kaldet et dybt neuralt netværk for at undersøge ansigtsbevægelser hos en person. Så syntetiserer de billeder af andres ansigt, der gør analoge bevægelser. At gøre det effektivt skaber en video af den målperson, der synes at gøre eller sige de ting, som kildemanden gjorde.

Før de kan fungere ordentligt, kræver dybe neurale netværk en masse kildedata, som f.eks. Fotos af de personer, der er kilden eller målet om efterligning. Jo flere billeder der bruges til at træne en deepfake-algoritme, desto mere realistiske er den digitale efterligning.

Registrering blinker

Der er stadig mangler i denne nye type algoritme. En af dem har at gøre med, hvordan de simulerede ansigter blinker - eller ikke. Friske voksne mennesker blinker et sted mellem hver anden og 10 sekunder, og en enkelt blink tager mellem en tiendedel og fire tiendedele af et sekund. Det er det, der ville være normalt at se i en video af en person, der snakker. Men det sker ikke i mange dybfaglige videoer.

Når en deepfake-algoritme trænes på ansigtsbilleder af en person, afhænger det af de billeder, der er tilgængelige på internettet, der kan bruges som træningsdata. Selv for folk der fotograferes ofte, er der få billeder tilgængelige online, der viser deres øjne lukket. Ikke kun er billeder sådan sjældne - fordi folkens øjne er åbne mest af tiden - men fotografer publicerer normalt ikke billeder, hvor hovedfagets øjne lukkes.

Uden at træne billeder af folk, der blinker, er dybfagalgoritmer mindre tilbøjelige til at skabe ansigter, der blinker normalt.Når vi beregner den samlede blinkingshastighed og sammenligner det med det naturlige interval, fandt vi, at tegn i dybfaglige videoer blinker meget sjældnere i sammenligning med rigtige mennesker. Vores forskning bruger maskine læring til at undersøge øjenåbning og lukning i videoer.

Se også: Hollywood vil ikke kaste asiatiske amerikanske stjerner, men A.I. Maskinindlæring kan

Dette giver os en inspiration til at opdage dybfaglige videoer. Derefter udvikler vi en metode til at opdage, hvornår personen i videoen blinker. For at være mere specifik scanner den hver ramme af en bestemt video, registrerer ansigterne i den og lokaliserer derefter automatisk øjnene. Det anvender derefter et andet dybt neuralt netværk for at afgøre, om det detekterede øje er åbent eller lukket ved hjælp af øjets udseende, geometriske træk og bevægelse.

Vi ved, at vores arbejde udnytter en fejl i den slags data, der er til rådighed til at uddanne deepfake-algoritmer. For at undgå at falde i bytte til en lignende fejl har vi uddannet vores system på et stort bibliotek med billeder af både åbne og lukkede øjne. Denne metode ser ud til at virke godt, og som følge heraf har vi opnået en registreringshastighed på over 95 procent.

Dette er ikke det sidste ord om at opdage deepfakes, selvfølgelig. Teknologien forbedrer sig hurtigt, og konkurrencen mellem generering og opdagelse af falske videoer er analog med et skakspil. Især blinkende kan tilføjes til deepfake videoer ved at inkludere ansigtsbilleder med lukkede øjne eller ved hjælp af videosekvenser til træning. Folk, der ønsker at forvirre offentligheden, bliver bedre til at lave falske videoer - og vi og andre i teknologifællesskabet skal fortsætte med at finde måder at opdage.

Denne artikel blev oprindeligt udgivet på The Conversation af Siwei Lyu. Læs den oprindelige artikel her.

$config[ads_kvadrat] not found