Sarah Rogers/MITTR | Getty

Perché con l’IA “più grande” non sempre significa “migliore”

I modelli più piccoli si stanno dimostrando altrettanto capaci, con un’impronta di carbonio di gran lunga inferiore.

Nella ricerca sull’intelligenza artificiale, tutti sembrano pensare che più grande è meglio. L’idea è che più dati, più potenza di calcolo e più parametri portino a modelli più potenti. Questo pensiero è iniziato con un documento storico del 2017, in cui i ricercatori di Google hanno introdotto l’architettura transformer alla base dell’attuale boom dei modelli linguistici e hanno contribuito a radicare la mentalità “la scala è tutto ciò che serve” nella comunità dell’IA. Oggi le grandi aziende tecnologiche sembrano competere soprattutto per la scala.

“È come dire: quanto è grande il tuo modello, fratello?”, dice Sasha Luccioni, responsabile dell’AI e del clima presso la startup Hugging Face. Le aziende tecnologiche non fanno altro che aggiungere miliardi di parametri, il che significa che una persona comune non potrebbe scaricare i modelli e modificarli, anche se fossero open-source (ma in genere non lo sono). I modelli di intelligenza artificiale di oggi sono semplicemente “troppo grandi”, dice l’autrice. 

La scala comporta una serie di problemi, come pratiche invasive di raccolta dati e materiale pedopornografico nei set di dati, come Luccioni e coautori dettagliano in un nuovo documento. Inoltre, i modelli più grandi hanno anche un’impronta di carbonio molto maggiore, perché richiedono più energia per funzionare.

Un altro problema che la scalabilità comporta è l’estrema concentrazione di potere, dice Luccioni. Scalare costa tonnellate di denaro e solo i ricercatori d’élite che lavorano nelle Big Tech hanno le risorse per costruire e gestire modelli di questo tipo.

“C’è un collo di bottiglia creato da un numero molto ristretto di aziende ricche e potenti che utilizzano l’IA come parte del loro prodotto principale”, afferma l’autrice.

Non deve essere per forza così. Ho appena pubblicato un articolo su un nuovo modello linguistico multimodale di grandi dimensioni, piccolo ma potente. I ricercatori dell’Allen Institute for Artificial Intelligence (Ai2) hanno creato una famiglia di modelli open-source chiamata Molmo, che raggiunge prestazioni impressionanti con una frazione delle risorse utilizzate per costruire modelli all’avanguardia.

L’organizzazione sostiene che il suo modello più grande, Molmo, che ha 72 miliardi di parametri, supera il GPT-4o di OpenAI, che si stima abbia più di mille miliardi di parametri, in test che misurano cose come la comprensione di immagini, grafici e documenti. 

Nel frattempo, Ai2 afferma che un modello Molmo più piccolo, con 7 miliardi di parametri, si avvicina al modello all’avanguardia di OpenAI in termini di prestazioni, un risultato che attribuisce a una raccolta di dati e a metodi di addestramento molto più efficienti. Per saperne di più, leggete qui. Molmo dimostra che non abbiamo bisogno di serie di dati enormi e di modelli enormi che richiedono tonnellate di denaro ed energia per essere addestrati.

Uscire dalla mentalità “la scala è tutto ciò che serve” è stata una delle sfide più grandi per i ricercatori che hanno costruito Molmo, dice Ani Kembhavi, direttore senior della ricerca di Ai2.

Quando abbiamo iniziato questo progetto, ci siamo detti: “Dobbiamo pensare completamente fuori dagli schemi, perché ci deve essere un modo migliore per addestrare i modelli”, dice. Il team voleva dimostrare che i modelli aperti possono essere altrettanto potenti di quelli chiusi e proprietari, e questo richiedeva la costruzione di modelli accessibili e che non costassero milioni di dollari per essere addestrati.

Molmo dimostra che “less is more, small is big, open [is as good as] closed”, dice Kembhavi.

C’è un’altra buona ragione per ridurre le dimensioni. I modelli più grandi tendono a essere in grado di fare una gamma di cose più ampia di quella di cui gli utenti finali hanno effettivamente bisogno, dice Luccioni.

“Nella maggior parte dei casi non serve un modello che faccia tutto. È necessario un modello che svolga un compito specifico. E per questo, i modelli più grandi non sono necessariamente migliori”, afferma.

Dobbiamo invece cambiare il modo in cui misuriamo le prestazioni dell’IA per concentrarci su aspetti che contano davvero, sostiene Luccioni. Per esempio, in un algoritmo di rilevamento del cancro, invece di usare un modello che può fare ogni sorta di cose ed è addestrato su Internet, forse dovremmo dare priorità a fattori come l’accuratezza, la privacy o se il modello è addestrato su dati di cui ci si può fidare, dice Luccioni.

Ma questo richiederebbe un livello di trasparenza più elevato di quello che è attualmente la norma nell’IA. I ricercatori non sanno come e perché i loro modelli fanno quello che fanno, e non hanno nemmeno una conoscenza approfondita di quello che succede nei loro set di dati. La scalabilità è una tecnica molto diffusa, perché i ricercatori hanno scoperto che, se i modelli vengono sottoposti a un numero maggiore di operazioni, sembra che le loro prestazioni siano migliori. La comunità dei ricercatori e le aziende devono spostare gli incentivi in modo che le aziende tecnologiche siano obbligate a essere più attente e trasparenti su ciò che viene inserito nei loro modelli e ci aiutino a fare di più con meno.

“Non dovete pensare che [i modelli di IA] siano una scatola magica e che risolvano tutti i vostri problemi”, afferma l’esperta.

Related Posts
Total
0
Share