L’intelligenza artificiale si prepara a raccontare le vostre storie per voi

Le reti neurali sanno ormai descrivere i contenuti delle immagini, e stanno imparando a raccontare storie partendo da una raccolta di foto.

di Signe Brewster

Quando gli utenti di social-media caricano fotografie e aggiungono una didascalia, non solo etichettano i loro contenuti; Raccontano una storia che contestualizza le immagini e aggiunge loro un significato emotivo.

Un paper pubblicato da Microsoft Research descrive un sistema in grado di imitare lo stile unico degli esseri umani nel raccontare le immagini. Società quali Microsoft, Google e Facebook hanno trascorso anni a insegnare ai computer come descrivere i contenuti delle immagini, ma questa nuova ricerca si spinge oltre insegnando a un sistema di reti neurali come dedurre una storia da una raccolta di immagini. Un giorno potrebbe essere utilizzato per generare automaticamente delle descrizioni, o portare il linguaggio umano ad altre applicazioni dell’intelligenza artificiale.

“Piuttosto che fornire descrizioni blande e superficiali su quanto accade nelle immagini, le inseriamo in un contesto narrativo più ampio”, dice Frank Ferraro, uno studente PhD della Johns Hopkins University e coautore del paper. “Si può così cominciare a dedurre quello che potrebbe essere accaduto”.

Pensate a un album di immagini raffiguranti un gruppo di amici che celebra un compleanno al bar. Alcune delle prime immagini mostrano un gruppo di persone che ordinano e bevono birra, mentre altre foto successive ritraggono alcuni degli invitati che dormono su un divano.

“Un sistema di sottotitolazione potrebbe semplicemente dire, ‘Una persona è seduta su un divano’”, spiega Ferraro. “Un sistema di narrazione sarebbe anche in grado di dire, ‘ Beh, se consideriamo che queste persone stavano festeggiando, questa persona potrebbe essersi ubriacata’”.

Un esempio descritto nel paper include una serie di cinque immagini. Mostrano una famiglia riunita attorno a una tavola imbandita, un cane, ed alcune immagini in una spiaggia. La rete neurale ha descritto le immagini con una storia: “La famiglia si è riunita per un pasto. Hanno tutti mangiato bene, Il cane era felice di essere con loro. Hanno trascorso dei bei momenti in spiaggia. Sono persino andati a nuotare”.

Il team, che è stato guidato dalla ricercatrice Microsoft Margaret Mitchell assieme a stagisti quali Ferraro e a ricercatori di Facebook AI, ha tramutato una cosiddetta rete neurale ricorrente “sequence-to-sequence” in un narratore, utilizzando immagini raccolte da Flickr. Alcuni assistenti hanno provveduto a trascrivere le descrizioni di immagini singole e di gruppi di immagini.

Un approccio simile a quello utilizzato per etichettare il contenuto di singole immagini ha prodotto storie troppo generiche. Per ovviare a questo problema, il team ha sviluppato un sistema che permette alla rete neurale di scegliere parole con una maggiore probabilità di apparire salienti. Hanno anche richiesto al sistema di non ripetere alcuna parola.

La narrativa è una parte importante dell’essere umani, dice Fei-Fei Li, direttrice dello Stanford Vision Lab. Una tecnologia in grado di imitare le tecniche umane per documentare storie deve essere in grado di dedurre il rapporto fra oggetti e persone incontrati in molteplici immagini.

“Questa pubblicazione rappresenta solo l’inizio di questo genere di tecnologia”, spiega Li. “Costituisce però un buon passo verso la gestione di un progetto talmente ambizioso. Sono ansiosa di seguire i progressi di questi autori e di altri ricercatori”.

Related Posts
Total
0
Share