Sarah Rogers/MITTR | Getty

Un nuovo minuscolo modello IA open-source ha prestazioni pari a quelle dei grandi modelli più potenti

I risultati suggeriscono che l’addestramento dei modelli su un numero minore di dati, ma di qualità superiore, può ridurre i costi di calcolo.

L’Allen Institute for Artificial Intelligence (Ai2), una società di ricerca senza scopo di lucro, sta rilasciando una famiglia di modelli linguistici multimodali open-source, chiamati Molmo, che, a suo dire, hanno prestazioni pari a quelle dei migliori modelli proprietari di OpenAI, Google e Anthropic.

L’organizzazione sostiene che il suo modello più grande, Molmo, che ha 72 miliardi di parametri, supera il GPT-4o di OpenAI, che si stima abbia più di mille miliardi di parametri, in test che misurano cose come la comprensione di immagini, grafici e documenti. 

Nel frattempo, Ai2 afferma che un modello Molmo più piccolo, con 7 miliardi di parametri, si avvicina al modello all’avanguardia di OpenAI in termini di prestazioni, un risultato che attribuisce a una raccolta di dati e a metodi di addestramento molto più efficienti.

Molmo dimostra che lo sviluppo dell’intelligenza artificiale open-source è ora alla pari con i modelli chiusi e proprietari, afferma Ali Farhadi, CEO di Ai2. E i modelli open-source hanno un vantaggio significativo, in quanto la loro natura aperta significa che altre persone possono costruire applicazioni su di essi. La demo di Molmo è disponibile qu ie sarà disponibile per gli sviluppatori sul sito web di Hugging Face. (Alcuni elementi del modello Molmo più potente sono ancora nascosti).

Altri modelli linguistici multimodali di grandi dimensioni vengono addestrati su vasti set di dati contenenti miliardi di immagini e campioni di testo prelevati da Internet e possono includere diversi trilioni di parametri. Questo processo introduce molto rumore nei dati di addestramento e, con esso, allucinazioni, afferma Ani Kembhavi, direttore senior della ricerca di Ai2. Al contrario, i modelli Molmo di Ai2 sono stati addestrati su un set di dati molto più piccolo e curato, contenente solo 600.000 immagini, con un numero di parametri compreso tra 1 e 72 miliardi. L’attenzione ai dati di alta qualità, rispetto a quelli raccolti in modo indiscriminato, ha permesso di ottenere buone prestazioni con un numero di risorse molto inferiore, afferma Kembhavi.

Ai2 ha ottenuto questo risultato chiedendo agli annotatori umani di descrivere le immagini del set di dati di addestramento del modello in modo estremamente dettagliato su più pagine di testo. Hanno chiesto agli annotatori di parlare di ciò che vedevano invece di digitarlo. Poi hanno utilizzato tecniche di intelligenza artificiale per convertire il loro discorso in dati, rendendo il processo di addestramento molto più rapido e riducendo la potenza di calcolo necessaria.

Queste tecniche potrebbero rivelarsi davvero utili se vogliamo governare in modo significativo i dati che utilizziamo per lo sviluppo dell’IA, afferma Yacine Jernite, responsabile dell’apprendimento automatico e della società presso Hugging Face, che non ha partecipato alla ricerca.

“È logico che, in generale, l’addestramento su dati di qualità superiore possa ridurre i costi di calcolo”, afferma Percy Liang, direttore dello Stanford Center for Research on Foundation Models, che non ha partecipato alla ricerca.

Un’altra capacità impressionante è che il modello può “puntare” verso le cose, cioè può analizzare gli elementi di un’immagine identificando i pixel che rispondono alle richieste.

In una dimostrazione condivisa con il MIT Technology Review, i ricercatori di Ai2 hanno scattato una foto fuori dal loro ufficio del porto turistico locale di Seattle e hanno chiesto al modello di identificare vari elementi dell’immagine, come le sedie a sdraio. Il modello è riuscito a descrivere il contenuto dell’immagine, a contare le sedie a sdraio e a individuare con precisione gli altri elementi dell’immagine come richiesto dai ricercatori. Tuttavia, non era perfetto. Ad esempio, non è riuscito a individuare un parcheggio specifico.

Altri modelli avanzati di IA sono bravi a descrivere scene e immagini, dice Farhadi. Ma questo non è sufficiente quando si vogliono costruire agenti web più sofisticati in grado di interagire con il mondo e di prenotare, ad esempio, un volo. Il puntamento consente alle persone di interagire con le interfacce utente.

Jernite afferma che Ai2 sta operando con un grado di apertura maggiore rispetto a quello visto da altre aziende di IA. Sebbene Molmo sia un buon inizio, la sua reale importanza risiederà nelle applicazioni che gli sviluppatori costruiranno su di esso e nei modi in cui le persone lo miglioreranno.

Farhadi è d’accordo. Negli ultimi anni le aziende di intelligenza artificiale hanno attirato investimenti massicci e multimiliardari. Ma negli ultimi mesi, gli investitori hanno espresso scetticismo sulla possibilità che questi investimenti portino dei ritorni. I grandi e costosi modelli proprietari non sono in grado di farlo, ma quelli open-source sì. Il lavoro dimostra che l’IA open-source può essere costruita in modo da fare un uso efficiente del denaro e del tempo. “Siamo entusiasti di consentire ad altri di costruire con questo sistema”, afferma Farhadi.

Related Posts
Total
0
Share