La nuova AI poliglotta di Facebook può tradurre frasi da 100 lingue

Il modello, il punto di arrivo della tecnologica nel settore, è stato reso open source per la comunità di ricerca.

di Karen Hao

Facebook sta diffondando un nuovo modello di linguaggio AI chiamato M2M-100 che può tradurre una coppia qualsiasi di frasi tra 100 lingue. Delle 4.450 combinazioni linguistiche possibili, ne traduce direttamente 1.100. Ciò è in contrasto con i precedenti modelli multilingue, che si basano fortemente sull’inglese come lingua intermedia. Una traduzione dal cinese al francese, per esempio, passa in genere dal cinese all’inglese e quindi dall’inglese al francese, il che aumenta la possibilità di introdurre errori.

Il modello è stato addestrato su 7,5 miliardi di coppie di frasi. Per compilare un set di dati così ampio, i ricercatori hanno fatto affidamento sulla selezione automatica. Hanno utilizzato i web crawler, vale a dire software per l’analisi dei contenuti, per raccogliere miliardi di frasi dal Web e hanno impiegato un altro modello di linguaggio chiamato FastText che identifica la lingua.

Successivamente si sono affidati a un programma chiamato LASER 2.0, sviluppato in precedenza dal laboratorio di ricerca AI di Facebook, che utilizza l’apprendimento non supervisionato, l’apprendimento automatico che non richiede dati etichettati manualmente, per abbinare il significato delle frasi tra le diverse lingue.

LASER 2.0 crea quelli che sono noti come “incorporamenti” da grandi insiemi di dati non strutturati di frasi. Si allena sugli esempi di frasi disponibili all’interno di ciascuna lingua e traccia le loro relazioni reciproche in base alla frequenza e alla vicinanza. Questi incorporamenti aiutano il modello di apprendimento automatico ad approssimare il significato di ogni frase, il che consente a LASER 2.0 di accoppiare automaticamente frasi che condividono lo stesso significato in lingue diverse.

I ricercatori si sono concentrati sulle combinazioni linguistiche che ritenevano fossero più comunemente richieste. Hanno raggruppato le lingue in base a somiglianze linguistiche, geografiche e culturali, partendo dal presupposto che le persone che vivono nella stessa regione comunichino più spesso. Un gruppo linguistico, per esempio, includeva le lingue più comuni parlate in India, tra cui bengalese, hindi, tamil e urdu. LASER 2.0 ha quindi indirizzato la sua ricerca di coppie di frasi su tutte le possibili coppie di lingue all’interno di ciascun gruppo.

Le lingue parlate in luoghi come l’Africa e il Sud-est asiatico soffrono ancora di problemi di qualità della traduzione perché sono disponibili troppi pochi dati linguistici per essere estratti dal web, afferma Angela Fan, la responsabile del progetto. Data la dipendenza dai dati web, i ricercatori devono anche capire le tecniche per identificare e sradicare qualsiasi forma di sessismo, razzismo e altri pregiudizi discriminatori incorporati. In questo momento, i ricercatori hanno utilizzato un filtro per ripulire da termini volgari, ma è per lo più limitato all’inglese.

Facebook non ha attualmente in programma di utilizzare il modello nei suoi prodotti. M2M-100 è pensato solo per scopi di ricerca, spiega Fan. In definitiva, l’obiettivo è che il modello migliori ed espanda le capacità di traduzione esistenti di Facebook. Le applicazioni future potrebbero includere la funzione che consente alle persone di tradurre i post nella loro lingua madre e forse la moderazione dei contenuti.

Immagine: Edurne Chopeitia / Unsplash

(rp)

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

Connettività e sicurezza: le nuove frontiere della mobilità

L’IA può rendere più creativi, ma ha dei limiti

La fecondazione in vitro da sola non può salvarci da una crisi di fertilità incombente

I pasti confezionati dai robot stanno per arrivare nel reparto surgelati

La nuova AI poliglotta di Facebook può tradurre frasi da 100 lingue

Il modello, il punto di arrivo della tecnologica nel settore, è stato reso open source per la comunità di ricerca.

Social

La nuova AI poliglotta di Facebook può tradurre frasi da 100 lingue

Il modello, il punto di arrivo della tecnologica nel settore, è stato reso open source per la comunità di ricerca.

Related Posts