DeepMind A.I. Bridges Gap Mellem Robot og Human Voices

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Kunstig intelligens har netop gjort robot stemmer lyd meget mere realistiske.

DeepMind, som tidligere demonstrerede kraften af ​​A.I. ved at slå en menneskelig spiller på Go i marts og skære sin strømregning i halv juli, er nu fokuseret på talesyntese.

A.I-forskergruppen, som er en del af Googles moderselskabsalfabet, afslørede her til formiddag, at den har oprettet en ny teknologi kaldet WaveNet, der kan bruges til at generere tale, musik og andre lyde mere præcist end før.

DeepMind forklarer, at mange eksisterende talesyntesemetoder er afhængige af, at "en meget stor database med korte talfragmenter optages fra en enkelt højttaler og derefter rekombineres til at danne komplette udtryk." WaveNet bruger derimod "råbølgeformen til lydsignalet "For at skabe mere realistiske stemmer og lyde.

Det betyder, at WaveNet arbejder med de enkelte lyde oprettet, når et menneske taler i stedet for at bruge komplette stavelser eller hele ord. Disse lyde løber derefter gennem en "computationally expensive" proces, som DeepMind har fundet "afgørende for at generere kompleks, realistisk lydende lyd" med maskiner.

Resultatet af alt det ekstra arbejde er en 50 procent forbedring af syntetiseret tale i amerikansk engelsk og kinesisk mandarin. Her er et eksempel på talegenereret ved hjælp af parametrisk tekst-til-tale, som er almindelig i dag, som DeepMind bruger til at demonstrere, hvordan denne talesyntese metode mangler:

Og her er et eksempel på den samme sætning, der genereres af WaveNet:

Da virksomheder fortsætter deres arbejde med naturlige sproggrænseflader, vil det være mere vigtigt at tilbyde mere realistiske svar. WaveNet kan hjælpe med at løse dette problem.

$config[ads_kvadrat] not found