Stephanie Arnett/MIT Technology Review | Envato

Le immagini generate dall’IA possono insegnare ai robot come comportarsi

I modelli di intelligenza artificiale non sono buoni solo per creare immagini: possono essere messi a punto anche per generare dati utili per l’addestramento dei robot.

I modelli di intelligenza artificiale generativa possono produrre immagini in risposta a richieste in pochi secondi e recentemente sono stati utilizzati per qualsiasi scopo, dall’evidenziare i propri pregiudizi intrinseci alla conservazione di ricordi preziosi.

Ora i ricercatori del Robot Learning Lab di Stephen James a Londra stanno utilizzando i modelli di intelligenza artificiale che generano immagini per un nuovo scopo: creare dati di addestramento per i robot. Hanno sviluppato un nuovo sistema, chiamato Genima, che mette a punto il modello di IA generatore di immagini Stable Diffusion per disegnare i movimenti dei robot, aiutandoli a guidarli sia nelle simulazioni che nel mondo reale. La ricerca sarà presentata il mese prossimo alla Conference on Robot Learning (CoRL).

Il sistema potrebbe facilitare l’addestramento di diversi tipi di robot per il completamento di compiti, da bracci meccanici a robot umanoidi e automobili senza conducente. Potrebbe anche aiutare a rendere migliori gli agenti web di IA, una nuova generazione di strumenti di IA in grado di svolgere compiti complessi con poca supervisione, nello scorrere e nel cliccare, dice Mohit Shridhar, uno scienziato di ricerca specializzato in manipolazione robotica, che ha lavorato al progetto.

“È possibile utilizzare i sistemi di generazione di immagini per fare quasi tutte le cose che si possono fare in robotica”, spiega l’esperto. “Volevamo vedere se potevamo prendere tutte queste cose straordinarie che accadono nella diffusione e usarle per i problemi di robotica”.

Per insegnare a un robot a completare un compito, i ricercatori normalmente addestrano una rete neurale su un’immagine di ciò che si trova davanti al robot. La rete fornisce quindi un output in un formato diverso, ad esempio le coordinate necessarie per spostarsi in avanti.

L’approccio di Genima è diverso perché sia l’input che l’output sono immagini, che sono più facili da imparare per le macchine, dice Ivan Kapelyukh, dottorando all’Imperial College di Londra, specializzato nell’apprendimento dei robot ma non coinvolto in questa ricerca.

“È anche molto utile per gli utenti, che possono vedere dove si muoverà il robot e cosa farà. Rende il tutto più interpretabile e significa che, se si intende utilizzare questo sistema, si può vedere prima che il robot attraversi un muro o qualcosa del genere”, afferma.

Genima funziona sfruttando la capacità di Stable Diffusion di riconoscere gli schemi (ad esempio, sa che aspetto ha una tazza perché è stato addestrato su immagini di tazze) e poi trasforma il modello in una sorta di agente, un sistema decisionale.

MOHIT SHRIDHAR, YAT LONG (RICHIE) LO, STEPHEN JAMES ROBOT LEARNING LAB

Per prima cosa, i ricercatori hanno messo a punto Stable Diffusion per poter sovrapporre i dati dei sensori del robot alle immagini catturate dalle sue telecamere.

Il sistema visualizza l’azione desiderata, come aprire una scatola, appendere una sciarpa o prendere un quaderno, in una serie di sfere colorate sulla parte superiore dell’immagine. Queste sfere indicano al robot dove il suo giunto deve muoversi un secondo dopo.

La seconda parte del processo converte queste sfere in azioni. Il team ha ottenuto questo risultato utilizzando un’altra rete neurale, chiamata ACT, mappata sugli stessi dati. Poi hanno usato Genima per completare 25 simulazioni e nove compiti di manipolazione del mondo reale usando un braccio robotico. Il tasso di successo medio è stato rispettivamente del 50% e del 64%.

Sebbene queste percentuali di successo non siano particolarmente elevate, Shridhar e il team sono ottimisti sul fatto che la velocità e la precisione del robot possano migliorare. Sono particolarmente interessati all’applicazione di Genima ai modelli di IA di generazione video, che potrebbero aiutare un robot a prevedere una sequenza di azioni future invece di una sola.

La ricerca potrebbe essere particolarmente utile per addestrare i robot domestici a piegare il bucato, chiudere i cassetti e svolgere altre attività domestiche. Tuttavia, il suo approccio generalizzato significa che non è limitato a un tipo specifico di macchina, afferma Zoey Chen, dottoranda presso l’Università di Washington, che ha già utilizzato Stable Diffusion per generare dati di addestramento per i robot, ma non ha partecipato a questo studio.

“Si tratta di una nuova direzione davvero entusiasmante”, afferma l’autrice. “Penso che questo possa essere un modo generale per addestrare i dati per tutti i tipi di robot”.

Related Posts
Total
0
Share