IIT Innovazione – Se sono i gesti a parlare - MIT Technology Review Italia

Presentato a novembre un nuovo metodo di analisi automatica delle immagini video di una conversazione tra persone, basato sullo studio dei gesti degli interlocutori, e non del suono.

di Fonte IIT

Durante l'”InterHub 2011: Workshop on Interactive Human Behavior Analysis in Open or Public Spaces”, che si è tenuto ad Amsterdam nel mese di Novembre 2011, un gruppo di ricercatori coordinati da Vittorio Murino, direttore del Dipartimento di Pattern Analysis & Computer Vision (PAVIS) dell’Istituto Italiano di Tecnologia di Genova, ha presentato un nuovo metodo di analisi automatica delle immagini video di una conversazione tra persone, basato sullo studio dei gesti degli interlocutori, e non del suono.

Il lavoro, intitolato “Look at Who’s Talking: Voice Activity Detection by Automated Gesture Analysis”, ha dimostrato che il metodo permette di ricostruire, con un’accuratezza del 71%, la dinamica di una conversazione identificando le persone che parlano in base ai movimenti del loro corpo, in particolare della testa, delle braccia e del busto.

L’obiettivo dello studio è di fornire un metodo di analisi basato sui gesti, che sia alternativo e complementare al più consueto metodo di acquisizione e rilevazione vocale VAD (Voice Activity Detection), e che può trovare applicazione nel riconoscimento automatico di scene reali, come per esempio può succedere in situazioni di sorveglianza di luoghi pubblici, di monitoraggio di impianti industriali pericolosi, etc., là dove l’uso di microfoni è difficile o illegale per motivi di violazione di privacy. Sebbene il metodo non dia la possibilità di ricostruire il contenuto di una conversazione, si è mostrato in grado di ricostruire la dinamica di una conversazione, intesa come turn-organization, e di conseguenza, analizzando il comportamento degli interlocutori, potrà essere potenziato per rendere possibile l’individuazione di informazioni di tipo sociale, come per esempio il ruolo, la dominanza, la personalità e la presenza o meno di conflitti.

Tale metodo è stato provato in uno scenario di sorveglianza in cui era presente una sola telecamera, distante 7 metri da un gruppo di persone che conversavano in piedi. Analizzando il flusso di movimento di ogni persona, ossia valutando la postura del corpo e la direzione e quantità del moto delle braccia, è stato possibile correlare il segnale video con il segnale vocale, trovando una stima elevata di corrispondenza tra i tempi del parlato e quelli della gesticolazione.

SCENARI DI APERTURA:

Lo studio mostra come sia possibile estrarre informazioni relative a dati mancanti (in questo caso il parlato), a partire da evidenze disponibili (il video della conversazione), e apre prospettive nuove e critiche nel campo del riconoscimento automatico delle scene: da una parte, infatti, il nuovo metodo potenzia gli strumenti di sorveglianza rendendo predicibili fenomeni che non sono registrabili direttamente dai sensori, dall’altra esso mostra come le attuali misure di protezione della privacy (per esempio la limitazione nell’uso di microfoni in luoghi pubblici) potrebbero rivelarsi non più adeguate ed efficaci.

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

IIT Innovazione – Se sono i gesti a parlare

Social

IIT Innovazione – Se sono i gesti a parlare

Related Posts