Stephanie Arnett/MIT Technology Review | Getty, rawpixel

Il nuovo strumento di Google consente ai LLM di verificare le loro risposte

Potrebbe aiutare l’azienda a integrare l’intelligenza artificiale in un numero sempre maggiore di prodotti.

Da quando esistono i chatbot, essi hanno inventato cose. Queste “allucinazioni” sono parte integrante del funzionamento dei modelli di IA. Tuttavia, sono un grosso problema per le aziende che puntano molto sull’IA, come Google, perché rendono inaffidabili le risposte che essa genera.

Google rilascia oggi uno strumento per risolvere il problema. Chiamato DataGemma, utilizza due metodi per aiutare i modelli linguistici di grandi dimensioni a verificare le loro risposte con dati affidabili e a citare le loro fonti in modo più trasparente per gli utenti.

Il primo dei due metodi è chiamato Retrieval-Interleaved Generation (RIG), che agisce come una sorta di fact-checker. Se un utente pone al modello una domanda come “L’uso di fonti di energia rinnovabili è aumentato nel mondo?”, il modello propone una “prima bozza” di risposta. Poi RIG identifica quali parti della bozza di risposta possono essere verificate rispetto a Data Commons di Google, un enorme archivio di dati e statistiche provenienti da fonti affidabili come le Nazioni Unite o i Centri per il controllo e la prevenzione delle malattie. Quindi esegue tali controlli e sostituisce le ipotesi originali errate con fatti corretti. Inoltre, cita le fonti all’utente.

Il secondo metodo, comunemente utilizzato in altri modelli linguistici di grandi dimensioni, è chiamato Retrieval-Augmented Generation (RAG). Si consideri una domanda come “Quali progressi ha fatto il Pakistan rispetto agli obiettivi di salute globale?”. In risposta, il modello esamina quali dati presenti nei Data Commons potrebbero aiutarlo a rispondere alla domanda, come ad esempio le informazioni sull’accesso all’acqua potabile, le vaccinazioni contro l’epatite B e le aspettative di vita. Con questi dati in mano, il modello costruisce la sua risposta sulla base dei dati e cita le sue fonti.

“Il nostro obiettivo era quello di utilizzare Data Commons per migliorare il ragionamento dei LLM, basandolo su dati statistici reali che potessero essere ricondotti alla fonte”, afferma Prem Ramaswami, responsabile di Data Commons di Google. In questo modo, afferma, “creeremo un’intelligenza artificiale più affidabile e attendibile”.

Per ora è disponibile solo per i ricercatori, ma Ramaswami dice che l’accesso potrebbe ampliarsi ulteriormente dopo ulteriori test. Se funziona come si spera, potrebbe essere una vera manna per il piano di Google di incorporare l’intelligenza artificiale nel suo motore di ricerca. 

Tuttavia, il sistema presenta una serie di avvertenze. In primo luogo, l’utilità dei metodi è limitata dalla presenza dei dati rilevanti nel Data Commons, che è più un archivio di dati che un’enciclopedia. Può dirvi il PIL dell’Iran, ma non è in grado di confermare la data della prima battaglia di Falluja o quando Taylor Swift ha pubblicato il suo ultimo singolo. In effetti, i ricercatori di Google hanno scoperto che per circa il 75% delle domande del test, il metodo RIG non è stato in grado di ottenere alcun dato utilizzabile da Data Commons. E anche se i dati utili si trovano effettivamente nei Data Commons, il modello non sempre formula le domande giuste per trovarli.

In secondo luogo, c’è la questione dell’accuratezza. Quando hanno testato il metodo RAG, i ricercatori hanno scoperto che il modello forniva risposte errate dal 6% al 20% delle volte. Nel frattempo, il metodo RIG ha ricavato la risposta corretta da Data Commons solo nel 58% dei casi (anche se si tratta di un notevole miglioramento rispetto al tasso di accuratezza compreso tra il 5% e il 17% dei modelli linguistici di grandi dimensioni di Google quando non inviano messaggi a Data Commons).

Ramaswami afferma che l’accuratezza di DataGemma migliorerà man mano che verrà addestrato su un numero sempre maggiore di dati. La versione iniziale è stata addestrata solo su circa 700 domande e la messa a punto del modello ha richiesto al team di controllare manualmente ogni singolo fatto generato. Per migliorare ulteriormente il modello, il team prevede di aumentare il set di dati da centinaia di domande a milioni.

Related Posts
Total
0
Share