Sarah Rogers/MITTR | Getty

Volete un’IA che segnali i contenuti odiosi? Costruitela

Un nuovo concorso promette 10.000 dollari in premi a chiunque riesca a rintracciare immagini di odio online.

Humane Intelligence, un’organizzazione che si occupa di valutare i sistemi di intelligenza artificiale, sta lanciando un concorso che sfida gli sviluppatori a creare un modello di visione computerizzata in grado di rintracciare la propaganda odiosa basata su immagini online. Organizzato in collaborazione con il gruppo antiterrorismo nordico Revontulet, il programma di taglie si apre il 26 settembre. È aperto a chiunque, dai 18 anni in su, voglia partecipare e promette ai vincitori premi per 10.000 dollari.

Questo è il secondo di una serie programmata di 10 programmi di “taglie per i pregiudizi algoritmici” di Humane Intelligence, un’organizzazione no-profit che indaga sull’impatto sociale dell’IA e che è stata lanciata dall’importante ricercatore di IA Rumman Chowdhury nel 2022. La serie è sostenuta da Google.org, il braccio filantropico di Google.

“L’obiettivo dei nostri programmi bounty è, in primo luogo, insegnare alle persone come effettuare valutazioni algoritmiche”, spiega Chowdhury, “ma anche, in secondo luogo, risolvere effettivamente un problema urgente nel settore”.

La prima sfida chiedeva ai partecipanti di valutare le lacune presenti negli insiemi di dati campione che possono essere utilizzati per addestrare i modelli, lacune che possono in particolare produrre risultati imprecisi, distorti o fuorvianti.

La seconda sfida riguarda il monitoraggio delle immagini di odio online, un problema incredibilmente complesso. L’intelligenza artificiale generativa ha permesso un’esplosione di questo tipo di contenuti e viene utilizzata anche per manipolarli in modo che non vengano rimossi dai social media. Ad esempio, i gruppi estremisti possono usare l’IA per alterare leggermente un’immagine che una piattaforma ha già vietato, creando rapidamente centinaia di copie diverse che non possono essere facilmente segnalate dai sistemi di rilevamento automatico. Le reti estremiste possono anche utilizzare l’IA per incorporare un modello in un’immagine che non è rilevabile dall’occhio umano, ma che confonde ed elude i sistemi di rilevamento. In sostanza, si è creato un gioco del gatto e del topo tra gruppi estremisti e piattaforme online.

La sfida richiede due modelli diversi. Il primo, un compito per chi ha competenze intermedie, è quello che identifica le immagini di odio; il secondo, considerato una sfida avanzata, è un modello che tenta di ingannare il primo. “Questo imita il funzionamento del mondo reale”, spiega Chowdhury. “I buoni fanno un approccio e poi i cattivi fanno un approccio”. L’obiettivo è quello di coinvolgere i ricercatori di apprendimento automatico sul tema dell’attenuazione dell’estremismo, che potrebbe portare alla creazione di nuovi modelli in grado di individuare efficacemente le immagini di odio. 

Una sfida fondamentale del progetto è che la propaganda basata sull’odio può dipendere molto dal suo contesto. Chi non ha una conoscenza approfondita di certi simboli o significanti potrebbe non essere in grado di capire cosa si qualifica come propaganda di un gruppo nazionalista bianco.

“Se [il modello] non vede mai un esempio di immagine odiosa proveniente da una parte del mondo, allora non sarà in grado di rilevarla”, afferma Jimmy Lin, professore di informatica presso l’Università di Waterloo, che non è associato al programma a premi.

Questo effetto è amplificato in tutto il mondo, poiché molti modelli non hanno una vasta conoscenza dei contesti culturali. Ecco perché Humane Intelligence ha deciso di collaborare con un’organizzazione non statunitense per questa particolare sfida. “La maggior parte di questi modelli sono spesso adattati agli esempi statunitensi, per questo è importante lavorare con un gruppo antiterrorismo nordico”, afferma Chowdhury.

Lin, tuttavia, avverte che per risolvere questi problemi potrebbe essere necessario qualcosa di più di semplici modifiche algoritmiche. “Abbiamo modelli che generano contenuti falsi. Possiamo sviluppare altri modelli in grado di rilevare i contenuti falsi generati? Sì, questo è certamente un approccio”, afferma. “Ma credo che nel complesso, a lungo termine, gli sforzi di formazione, alfabetizzazione ed educazione saranno più vantaggiosi e avranno un impatto più duraturo. Perché non saranno soggetti a questo gioco del gatto e del topo”.

La sfida durerà fino al 7 novembre 2024. Saranno selezionati due vincitori, uno per la sfida intermedia e uno per quella avanzata, che riceveranno rispettivamente 4.000 e 6.000 dollari. I partecipanti saranno inoltre sottoposti alla revisione dei loro modelli da parte di Revontulet, che potrebbe decidere di aggiungerli alla sua attuale suite di strumenti per combattere l’estremismo.

Related Posts
Total
0
Share