L’IA di Facebook parla con la voce di Bill Gates

Grazie a un sintetizzatore vocale in grado di copiare la voce di chiunque con un’incredibile precisione, un nuovo modello di sintesi vocale parla con la stessa intonazione delle persone reali.

di arXiv

Anche i migliori sistemi di sintesi vocale hanno una qualità meccanica e sono privi dei cambi di intonazione degli umani.
Questa carenza è abbastanza sorprendente, visti gli enormi progressi nell’apprendimento automatico degli ultimi anni. In effetti le tecniche che hanno funzionato così bene nel riconoscere i volti e gli oggetti dovrebbero funzionare altrettanto bene con l’audio. Le cose stanno diversamente.

Almeno, fino a oggi. Se si inseriscono i nomi di Sean Vasquez e Mike Lewis su Facebook AI Research, si può vedere che i due studiosi hanno trovato un modo per superare i limiti dei sistemi di sintesi vocale e produrre clip audio estremamente realistiche generate meccanicamente.

Il loro modello, chiamato MelNet, non solo riproduce l’intonazione umana, ma può farlo con la stessa voce delle persone reali.
I ricercatori hanno addestrato MelNet a parlare come Bill Gates, tra gli altri. Il lavoro apre la possibilità di un’interazione più realistica tra uomo e computer, ma solleva anche lo spettro di una nuova era di contenuti audio falsi.

Già in passato si è tentato di addestrare algoritmi di apprendimento profondo alla riproduzione di schemi vocali reali utilizzando estesi database di audio.
Il problema di questi tentativi, sostengono Vasquez e Lewis, riguarda il tipo di dati. Fino a ora, la maggior parte degli studi si è concentrata sulle registrazioni di forme d’onda audio, che mostrano come l’ampiezza del suono cambi nel tempo, a ogni secondo di audio registrato composto da decine di migliaia di passi temporali.

Queste forme d’onda mostrano schemi specifici su differenti tipi di scale. Per esempio, nel corso di alcuni secondi di conversazione, la forma d’onda riflette gli schemi caratteristici associati alle sequenze di parole. Ma se si passa alla scala dei microsecondi, la forma d’onda mostra caratteristiche associate al tono e al timbro della voce. E su altre scale, la forma d’onda riflette l’inflessione dell’oratore, la struttura dei fonemi e così via.

Un altro modello possibile è basato sulle correlazioni tra la forma d’onda in una fase temporale e la fase successiva. In questo schema, per una data scala temporale, il suono all’inizio di una parola è correlato con i suoni che seguono.
I sistemi di apprendimento profondo dovrebbero essere bravi a riconoscere questi tipi di correlazioni e riprodurli. Il problema è che le correlazioni agiscono su diverse scale temporali e che i sistemi di apprendimento profondo possono studiare queste correlazioni solo su scale temporali limitate. Questo fenomeno è legato all’algoritmo di apprendimento che utilizzano, chiamato retropropagazione dell’errore, che interroga ripetutamente la rete per migliorare le sue prestazioni sulla base degli esempi che vede.

Il tasso di ripetizione limita la scala temporale su cui possono essere apprese le correlazioni. Quindi una rete di apprendimento profondo può apprendere le correlazioni nelle forme d’onda audio su scale di tempo lunghe o brevi, ma non su entrambe. Per questa ragione fornisce prestazioni mediocri nel riprodurre la parola.

Vasquez e Lewis hanno un approccio diverso. Invece di forme d’onda audio, usano gli spettrogrammi per addestrare la loro rete di apprendimento profondo. Gli spettrogrammi registrano l’intero spettro delle frequenze audio e il loro cambiamento nel tempo. Pertanto, mentre le forme d’onda acquisiscono il cambiamento nel tempo del parametro dell’ampiezza, gli spettrogrammi catturano il cambiamento su una vasta gamma di frequenze diverse.

Ciò significa che le informazioni audio sono impacchettate più densamente in questo tipo di rappresentazione dei dati. “L’asse temporale di uno spettrogramma è di ordini di grandezza più compatto di quello di una forma d’onda, il che significa che le dipendenze che si estendono su decine di migliaia di intervalli temporali nelle forme d’onda coprono solo centinaia di intervalli temporali negli spettrogrammi”, affermano Vasquez e Lewis.
Ciò rende le correlazioni più accessibili a un sistema di apprendimento profondo.

I risultati sono impressionanti. Addestrato all’ascolto dei discorsi tenuti nelle conferenze TED, MelNet è in grado di riprodurre la voce dell’altoparlante TED pronunciando una qualunque frase in pochi secondi. I ricercatori di Facebook dimostrano la flessibilità del sistema utilizzando i discorsi di Bill Gates per addestrare MelNet e quindi usare la sua voce per pronunciare una serie di frasi casuali.

Ci sono alcune limitazioni, ovviamente. I normali discorsi contengono correlazioni su scale di tempo ancora più lunghe. Per esempio, le persone modificano l’ intonazione nel caso di un cambiamento di umore e il loro racconto può durare minuti. MelNet può creare frasi realistiche, ma estremamente brevi. L’obiettivo sembra ancora lontano, ma la ricerca potrebbe avere un impatto significativo sull’interazione uomo-computer.
Buona parte delle nostre conversazioni sono basate su frasi brevi, particolarmente nel caso degli operatori telefonici e degli help desk.
Questa tecnologia potrebbe automatizzare queste interazioni in un modo molto più efficace dei sistemi attuali. Per il momento, però, Vasquez e Lewis non si sbilanciano sulle potenziali applicazioni e sulle inevitabili implicazioni etiche che la tecnologia potrebbe sollevare.

Immagine: Jack Taylor /Stringer /Getty. Bill Gates

(rp)

Related Posts
Total
0
Share