Una poltrona a forma di avocado potrebbe indicare il futuro dell’AI

OpenAI ha esteso il campo d’azione di GPT-3 con due nuovi modelli che combinano la programmazione neurolinguistica con il riconoscimento delle immagini per dare alla sua AI una migliore comprensione dei concetti quotidiani.

di Will Douglas Heaven

Con GPT-3, OpenAI ha dimostrato che un singolo modello di apprendimento profondo può essere addestrato per utilizzare il linguaggio in una varietà di modi semplicemente inserendo grandi quantità di testo. Ha poi dimostrato che scambiando il testo con i pixel, lo stesso approccio potrebbe essere utilizzato per addestrare un’intelligenza artificiale a completare immagini presentate a metà. GPT-3 imita il modo in cui gli umani usano le parole e con le immagini prevede ciò che vediamo.

Ora OpenAI ha messo insieme queste tecniche e costruito due nuovi modelli, chiamati DALL E e CLIP, che combinano linguaggio e immagini in un modo da rendere le AI migliori nel comprendere sia le parole sia ciò a cui si riferiscono. “Viviamo in un mondo basato sulle immagini”, afferma Ilya Sutskever, responsabile scientifico di OpenAI. “Alla lunga, avremo modelli in grado di comprendere la combinazione di testo e immagini. L’intelligenza artificiale sarà in grado di capire meglio la lingua perché può vedere cosa significano parole e frasi”.

Nonostante l’estro di GPT-3, quello che dice a volte può sembrare svincolato dalla realtà, come se non sapesse di cosa sta parlando. Ed è effettivamente così. Basando il testo sulle immagini, i ricercatori di OpenAI e altrove stanno cercando di fornire ai modelli linguistici una migliore comprensione dei concetti quotidiani che gli esseri umani usano per dare un senso alle cose.

DALL E e CLIP affrontano questo problema da direzioni diverse. A prima vista, CLIP (Contrastive Language-Image Pre-training) è un altro sistema di riconoscimento delle immagini. Solo che ha imparato a riconoscere le immagini non da esempi etichettati in set di dati curati, come fanno la maggior parte dei modelli esistenti, ma da immagini e didascalie prese da Internet. Apprende cosa c’è in un’immagine da una descrizione piuttosto che da un’etichetta composta da una sola parola come “gatto” o “banana”.

CLIP viene addestrato facendogli prevedere la didascalia corretta per un’immagine, tra una selezione casuale di 32.768. Per risolvere questo problema, CLIP impara a collegare un’ampia varietà di oggetti con i loro nomi e le parole che li descrivono. Ciò consente quindi di identificare gli oggetti nelle immagini al di fuori del proprio set di addestramento. La maggior parte dei sistemi di riconoscimento delle immagini è addestrata per identificare determinati tipi di oggetti, come i volti nei video di sorveglianza o gli edifici nelle immagini satellitari. 

Come GPT-3, CLIP può fare generalizzazioni senza ulteriore formazione. È anche meno probabile, rispetto ad altri modelli di riconoscimento delle immagini all’avanguardia, che venga fuorviato da esempi contraddittori, che in genere confondono gli algoritmi anche se gli esseri umani potrebbero non notare una differenza.

Invece di riconoscere le immagini, DALL E le disegna. Questo modello è una versione ristretta di GPT-3 che è stata anche addestrata su coppie di immagini di testo prese da Internet. Data una breve didascalia in linguaggio naturale, come “un dipinto di un capibara in un campo all’alba” o “vista di una sezione trasversale di una noce”, DALL · E genera molte immagini corrispondenti: dozzine di capibara di tutte le forme e dimensioni su sfondi arancioni e gialli; file di noci (anche se non tutte in sezione trasversale). 

Ai limiti del surreale

I risultati sono sorprendenti, anche se contrastanti. La didascalia “una finestra di vetro colorato con l’immagine di una fragola blu” produce molti risultati corretti, ma anche altri che non contengono nulla che assomigli a una finestra o una fragola. Il team di OpenAI ha pubblicato le 32 immagini di DALL E selezionate da CLIP, con la didascalia ritenuta più adatta alla descrizione.

“Il testo correlato all’immagine è una sfida che la ricerca porta avanti da tempo”, afferma Mark Riedl, che lavora sulla programmazione neurolinguistica e sulla creatività computazionale presso il Georgia Institute of Technology di Atlanta. “Ma questa è una serie impressionante di esempi”.

Immagini di DALL E per la frase: “Un daikon in tutù che passeggia con un cane”.

Per testare la capacità di DALL E di lavorare con nuovi concetti, i ricercatori gli hanno fornito didascalie che descrivevano oggetti che non poteva aver visto, come “una poltrona a forma di avocado” e “un’illustrazione di un ravanello daikon in tutù che passeggia con un cane.” In entrambi i casi, l’AI ha generato immagini che combinavano questi concetti in modi plausibili.

“La cosa che mi ha sorpreso di più è che il modello può prendere due concetti non correlati e metterli insieme in un modo che si traduca in qualcosa di funzionale”, afferma Aditya Ramesh, che ha lavorato a DALL E. Ciò è probabilmente dovuto al fatto che un avocado dimezzato assomiglia un po’ a una poltrona con lo schienale alto, con la rientranza come cuscino. Per altre didascalie, come “una lumaca a forma di arpa”, i risultati sono meno buoni, con immagini che combinano lumache e arpe in modi strani.

Immagini di DALL E per l’espressione: “Una lumaca a forma di arpa”

DALL E è il tipo di sistema che Riedl immaginava di sottoporre al test Lovelace 2.0, un esperimento per misurare la creatività ideato nel 2014. Il test ha lo scopo di sostituire il test di Turing come punto di riferimento per misurare l’intelligenza artificiale. Il presupposto è che un segno di intelligenza sia la capacità di fondere concetti in modi creativi. 

Riedl suggerisce che chiedere a un computer di disegnare una foto di un uomo che tiene in mano un pinguino è un test di intelligenza più avanzato rispetto alla richiesta a un chatbot di ingannare un essere umano in una conversazione, perché i risultati sono più leggibili. “Il vero test è vedere fino a che punto l’AI può essere portata al di fuori della sua zona di comfort”, afferma Riedl. 

“La capacità del modello di generare immagini sintetiche da un testo piuttosto stravagante mi sembra molto interessante”, afferma Ani Kembhavi dell’Allen Institute for Artificial Intelligence (AI2), che ha anche sviluppato un sistema che genera immagini dal testo. “I risultati sembrano obbedire alla semantica desiderata, il che credo sia piuttosto impressionante”. 

Anche Jaemin Cho, un collega di Kembhavi, è rimasto colpito: “I generatori esistenti di testo in immagine non hanno mostrato questo livello di controllo disegnando più oggetti o le capacità di ragionamento spaziale di DALL E”, egli spiega.

Eppure DALL E mostra dei limiti. Includere troppi oggetti in una didascalia mette in crisi la sua capacità di tenere traccia di cosa disegnare. E riformulare una didascalia con parole che significano la stessa cosa a volte produce risultati diversi. Ci sono anche segni che DALL E stia imitando le immagini che ha incontrato online piuttosto che generarne di nuove.

Tuttavia, la maggior parte dei ricercatori di intelligenza artificiale concorda sul fatto che il linguaggio di base nella comprensione visiva è un buon modo per rendere le AI più intelligenti.  “Il futuro farà affidamento su sistemi come questo”, afferma Sutskever, “ed entrambi questi modelli sono un passo nella direzione giusta”.

Immagine di: OpenAI

(rp)

Related Posts
Total
0
Share