L’AI multimodale, cos’è, e a cosa serve

Un modello di apprendimento automatico permette di rappresentare e classificare i dati presentati in modalità audiovisive. Vale a dire come li percepiamo

MIT Technology Review Italia

Gli esseri umani osservano il mondo attraverso una combinazione di diverse modalità, come la vista, l’udito e la comprensione del linguaggio. Ma, a differenza nostra, come può una macchina allineare diversi formati – video, clip audio e immagini – e interpretarli? Alexander Liu, del Computer Science and Artificial Intelligence Laboratory (CSAIL), e i suoi collaboratori hanno sviluppato una tecnica di intelligenza artificiale che impara a rappresentare i dati in un modo che cattura concetti condivisi tra modalità visive e audio.
 
Il loro modello di apprendimento automatico, che sarà presentato al Meeting Annuale dell’Association for Computational Linguistics, può identificare ed etichettare una determinata azione in un video e dare risposte a domande orali di un utente che implicano la ricerca di un dato, oltre ad aprire prospettive di conoscenza più vicine a quelle umane.

I ricercatori concentrano il loro lavoro sull’apprendimento della rappresentazione, che è una forma di apprendimento automatico che cerca di trasformare i dati di input per semplificare l’esecuzione di attività come la classificazione o la previsione. Questo modello prende i dati grezzi, come i video e le didascalie di testo corrispondenti, e li codifica estraendo caratteristiche o osservazioni su oggetti e azioni nel video. Quindi mappa i punti dati in una griglia, nota come spazio di incorporamento. Il modello raggruppa dati simili come singoli punti nella griglia. Ciascuno di questi punti dati, o vettori, è rappresentato da una singola parola.

Il modello può utilizzare solo 1.000 parole e decidere quali azioni o concetti desidera codificare in un singolo vettore. Piuttosto che codificare i dati da diverse modalità su griglie separate, il loro metodo utilizza uno spazio di incorporamento condiviso in cui due modalità possono essere codificate insieme. Per aiutare il sistema a elaborare i dati da più fonti, i ricercatori hanno progettato un algoritmo che guida la macchina a codificare concetti simili nello stesso vettore. “Se c’è un video sui maiali, il modello potrebbe assegnare la parola ‘maiale’ a uno dei 1.000 vettori. Quindi, se il modello sente qualcuno pronunciare la parola “maiale” in una clip audio, dovrebbe comunque utilizzare lo stesso vettore per codificarlo“, spiega Liu.

Per le attività di recupero multimodale sono stati utilizzati tre set di dati: video-testo con clip video e didascalie di testo, video-audio con clip video e didascalie audio e una combinazione immagine-audio con didascalie. Poiché il modello può utilizzare solo 1.000 parole in totale per etichettare i vettori, un utente può vedere più facilmente quali parole ha utilizzato la macchina per concludere che il video e le parole pronunciate sono simili. 

Ciò potrebbe rendere il modello più facile da applicare in situazioni del mondo reale in cui è fondamentale che gli utenti comprendano come prende le decisioni, afferma Liu. Il modello presenta ancora alcune limitazioni che si intendono affrontare in lavori futuri. Per esempio, la loro ricerca si è concentrata sulla presentazione dei dati in due modalità alla volta, ma nel mondo reale gli esseri umani si trovano di fronte a molte modalità in sincrono, dice Liu. Infine, le immagini e i video nei loro set di dati contenevano oggetti semplici o azioni dirette mentre i dati del mondo reale sono molto più disordinati. 

Immagine: Wikimedia Commons

(rp)

Related Posts
Total
0
Share