Baidu sa insegnare le lingue all’IA

Prendendo spunto dalla differenza tra cinese e inglese, lo sviluppo della comprensione delle lingue da parte dell’IA mostra come la ricerca tragga benefici dalla pluralità di contributi.

di Karen Hao

All’inizio di questo mese, un gigante della tecnologia cinese ha detronizzato silenziosamente Microsoft e Google in una competizione in corso sull’intelligenza artificiale. L’azienda è Baidu, il Google cinese, e la posta in gioco è la valutazione della comprensione della lingua generale, altrimenti nota come GLUE (General language understanding evaluation).

GLUE è un punto di riferimento ampiamente condiviso e misura il modo in cui un sistema di intelligenza artificiale comprende il linguaggio umano. Consiste in nove diversi test su capacità come individuare i nomi di persone, la struttura di una frase in una frase e l’attribuzione del significato giusto a un pronome quando ci sono più scelte possibili. 

Un modello linguistico che ha un punteggio elevato in GLUE, quindi, può gestire diversi compiti di comprensione della lettura. Su un punteggio massimo di 100, la persona media arriva a 87. Baidu è la prima partecipante a superare 90 con il suo modello, ERNIE.

La classifica pubblica di GLUE è in continua evoluzione e altri probabilmente raggiungeranno presto Baidu. Ma ciò che è notevole del risultato di Baidu è che illustra come la ricerca sull’IA tragga beneficio dalla varietà di contributi. I ricercatori dell’azienda hanno dovuto sviluppare una tecnica specifica per la lingua cinese per costruire ERNIE (che sta per Enhanced Representation through kNowledge IntEgration, Rappresentazione migliorata attraverso la conoscenza integrata). Accade così, tuttavia, che la stessa tecnica migliori anche la comprensione dell’inglese.

Il predecessore di Ernie

Per apprezzare ERNIE, è necessario considerare il modello a cui si ispira: Bert di Google (Entrambi hanno i nomi dei personaggi di Sesame Street). Prima della creazione di BERT (cha sta per Bidirectional Encoder Representations from Transformers, Rappresentazioni di encoder bidirezionali da trasformatori) alla fine del 2018, i modelli del linguaggio naturale non erano particolarmente avanzati. 

Sapevano prevedere la parola successiva in una frase, quindi erano ben adatti per applicazioni come il completamento automatico, ma non capivano il significato complessivo di più parole, come nel caso del riferimento di un pronome a un nome o a una parte di frase.

Ma BERT ha modificato la situazione. I modelli precedenti avevano imparato a predire e interpretare il significato di una parola considerando solo quanto veniva prima o dopo di essa, mai contemporaneamente. Erano, in altre parole, unidirezionali.

BERT, al contrario, considera il contesto generale tutto in una volta, rendendolo bidirezionale. Lo fa usando una tecnica nota come “mascheramento”. In un dato passaggio di testo, BERT nasconde casualmente il 15 per cento delle parole e quindi cerca di prevederle a partire dalle rimanenti.

Questo sistema gli permette di fare previsioni più accurate perché ha almeno il doppio del numero di spunti su cui lavorare, in quanto considera ciò che viene prima e quanto viene successivamente. Nella frase “L’uomo è andato al ___ per comprare il latte”, per esempio, sia l’inizio che la fine della frase danno indicazioni sulla parola mancante. Il ___ è un posto dove si può sia andare sia comprare il latte.

L’uso del mascheramento è una delle principali innovazioni alla base degli importanti passi in avanti nelle attività che utilizzano il linguaggio naturale e fa parte del motivo per cui modelli come l’ormai famoso GPT-2 di OpenAI può scrivere testi estremamente convincenti senza deviare da una tesi centrale.

Dall’inglese al cinese e viceversa

Quando i ricercatori di Baidu hanno iniziato a sviluppare il proprio modello linguistico, hanno scelto di basarsi sulla tecnica del mascheramento. Ma si sono resi conto che dovevano modificarla per adattarsi alla lingua cinese.

In inglese, la parola funge da unità semantica, il che significa che una parola estratta completamente dal contesto contiene ancora un significato. Lo stesso non si può dire per il cinese. 

Mentre alcuni caratteri hanno un significato intrinseco, come il fuoco (火, huŏ), l’acqua (水, shuĭ) o il legno (木, ), la maggior parte non lo ha fino a quando non vengono messi insieme con altri. Il logogramma 灵 (líng), per esempio, può significare intelligente (机灵, jīlíng) o anima (灵魂, línghún), a seconda della combinazione. E i caratteri in nomi come Boston (波士顿, bōshìdùn) o Stati Uniti (美国, měiguó) non significano la stessa cosa una volta divisi.

I ricercatori hanno quindi addestrato ERNIE su una nuova versione del mascheramento che nasconde stringhe di caratteri. Lo hanno anche addestrato a distinguere tra stringhe significative e casuali in modo da poter mascherare le giuste combinazioni di caratteri. Per questa ragione, ERNIE ha una maggiore comprensione di come le parole codificano le informazioni in cinese ed è molto più accurato nel prevedere i pezzi mancanti. La capacità si rivela utile per applicazioni come la traduzione e il recupero di informazioni da un documento di testo.

I ricercatori hanno scoperto molto rapidamente che questo approccio in realtà funziona bene anche per l’inglese che a sua volta, pur in misura minore del cinese, presenta stringhe di parole che esprimono un significato diverso dalla somma delle loro parti. Nomi propri come “Harry Potter” ed espressioni come “chip off the old block” non possono essere analizzate in modo significativo separandole in singole parole.

Quindi per la frase:

Harry Potter è il titolo di una serie di romanzi fantasy scritti da JK Rowling.

BERT potrebbe mascherarlo nel modo seguente:
[maschera] Potter è una serie [maschera] romanzi fantasy [maschera] di J. [maschera] Rowling.

ERNIE invece lo maschererebbe così:
Harry Potter è [maschera] [maschera] [maschera] romanzi fantasy di [maschera] [maschera] [maschera].

ERNIE è in grado di fare previsioni più solide basate sul significato invece che sui modelli statistici di utilizzo delle parole.

Una varietà di idee

L’ultima versione di ERNIE utilizza anche molte altre tecniche di allenamento. Per esempio, considera l’ordine delle frasi e le distanze tra loro per comprendere lo sviluppo logico di un paragrafo. Ancora più importante, tuttavia, utilizza un metodo chiamato “formazione permanente” che gli consente di allenarsi su nuovi dati e nuove attività senza dimenticare quelle apprese in precedenza, migliorando sempre di più nel tempo con una minima interferenza umana.

Baidu utilizza attivamente ERNIE per fornire agli utenti risultati di ricerca più applicabili, rimuovere storie duplicate nel suo feed di notizie e migliorare la capacità di Xiao Du, il suo assistente IA, di rispondere con precisione alle richieste. Ha anche descritto l’ultima architettura di ERNIE in un documento che il prossimo anno sarà presentato alla conferenza dell’Association for the Advancement of Artificial Intelligence. 

Allo stesso modo in cui il loro team si basa sul lavoro di Google con BERT, i ricercatori sperano che anche altri possano trarre vantaggio dal loro lavoro con ERNIE.
“Quando abbiamo iniziato queste ricerche, pensavamo specificamente a determinate caratteristiche della lingua cinese”, afferma Hao Tian, capo architetto di Baidu Research. “Ma abbiamo rapidamente scoperto che era applicabile a più sistemi”.

Immagine: Ms. Tech / Unsplash

(rp)

Related Posts
Total
0
Share