Le videochiamate perdono l’8 per cento dell’audio

Sviluppata da un team di Google, un’intelligenza artificiale utilizzata nell’app Duo per le videochiamate di Google, imita la voce umana per riempire gli spazi vuoti con frammenti di linguaggio generato.

di Will Douglas Heaven

Durante le chiamate online, la voce viene suddivisa in molti piccoli pezzi che vengono compressi su Internet in blocchi di dati noti come pacchetti, che arrivano spesso in modo confuso alla persona con cui si parla, obbligando il software a riordinarli. A volte i pacchetti non arrivano affatto, il che crea problemi e vistose lacune in una conversazione. Secondo Google, il 99 per cento delle chiamate con l‘app Duo ha a che fare con pacchetti confusi e un decimo delle chiamate perde più dell’8 per cento dell’audio.

Per risolvere il problema, il team ha fatto affidamento su una rete neurale sviluppata da DeepMind in grado di generare discorsi realistici a partire da un testo. WaveNetEQ, la nuova rete neurale, è stata quindi addestrata su un ampio set di dati di 100 voci umane registrate che parlano 48 lingue diverse per completare automaticamente le parti del discorso incomprensibili sulla base di schemi di conversazione condivisi.

Poiché Duo è dotato di un sistema crittografato end-to-end, l’IA viene eseguita sul dispositivo, non sul cloud. Durante una chiamata, WaveNetEQ è in grado di apprendere le caratteristiche della voce di chi parla e genera frammenti audio che corrispondono allo stile e al contenuto della conversazione. Quando un pacchetto viene perso, la voce generata dall’IA viene inserita al suo posto.

Per ora, l’IA può solo generare sillabe anziché intere parole o frasi. Ma i materiali che Google ha pubblicato online mostrano che i risultati possono essere piuttosto realistici. In uno degli esempi presentati, l’IA sostituisce la seconda sillaba della parola “guai” con una voce che imita esattamente chi sta parlando.

Immagine di: aehdeschaine / Flickr

(rp)

Related Posts
Total
0
Share