L’AI non sa moderare l’incitamento all’odio

Nonostante tutti i recenti progressi nella tecnologia dell’intelligenza artificiale del linguaggio, in un nuovo studio gli scienziati hanno testato quattro dei migliori sistemi di intelligenza artificiale per rilevare i messaggi d’odio e hanno scoperto che tutti hanno difficoltà a distinguere tra frasi “tossiche” e innocue.

di Karen Hao

I risultati non sono sorprendenti: creare un’intelligenza artificiale che comprenda le sfumature del linguaggio naturale è difficile. Ma il modo in cui i ricercatori hanno diagnosticato il problema è importante. Hanno sviluppato 29 test mirati a diversi aspetti dell’incitamento all’odio per individuare con maggiore precisione esattamente dove ogni sistema fallisce. Questo rende più facile capire come superare i punti deboli di un sistema e sta già aiutando un servizio commerciale a migliorare la sua intelligenza artificiale.

Gli autori dello studio, guidati da scienziati dell’Università di Oxford e dell’Alan Turing Institute, hanno intervistato dipendenti di 16 organizzazioni non profit che lavorano sull’odio online. Il team ha utilizzato queste interviste per creare una tassonomia di 18 diversi tipi di incitamento all’odio, concentrandosi solo sull’incitamento all’odio in inglese, inclusi discorsi offensivi, insulti e linguaggio minaccioso. Hanno anche identificato 11 scenari di non odio che mettono in crisi i moderatori di intelligenza artificiale, incluso l’uso di parolacce in dichiarazioni innocue e denunce che citano o fanno riferimento al discorso di odio originale (noto come contro discorso) e riapproziazione linguistica.

Per ciascuna delle 29 diverse categorie, hanno realizzato a mano dozzine di esempi e hanno utilizzato frasi “modello” come “Odio [IDENTITÀ]” o “Sei solo un [INSULTO] per me” per generare gli stessi set di esempi per sette gruppi protetti: identità legalmente protette dalla discriminazione ai sensi della legge statunitense. Hanno reso open source il set di dati finale chiamato HateCheck, che contiene quasi 4.000 esempi totali.

I ricercatori hanno quindi testato due popolari servizi commerciali: l’API Perspective di Google Jigsaw e SiftNinja di Two Hat. Entrambi consentono ai clienti di segnalare la violazione dei contenuti nei post o nei commenti. La prospettiva, in particolare, è utilizzata da piattaforme come Reddit e quotidiani come “The New York Times” e “Wall Street Journal”. Segnala e dà priorità a post e commenti per la revisione umana in base alla sua misura di “tossicità”.

Mentre SiftNinja era eccessivamente indulgente con l’incitamento all’odio, non riuscendo a rilevare quasi tutte le sue variazioni, Perspective era eccessivamente duro. Eccelleva nel rilevare la maggior parte delle 18 categorie di odio, ma segnalava anche la maggior parte dei discorsi che citavano le frasi offensive. 

I ricercatori hanno trovato lo stesso schema quando hanno testato due modelli accademici di Google che rappresentano alcune delle migliori tecnologie di intelligenza artificiale linguistica disponibili e probabilmente servono come base per altri sistemi commerciali di moderazione dei contenuti. I modelli accademici hanno anche mostrato prestazioni non uniformi tra i gruppi protetti, classificando erroneamente l’odio diretto ad alcuni gruppi più spesso di altri.

I risultati indicano il tipo di problemi che affrontano i sistemi di rilevamento dell’incitamento all’odio basati sull’intelligenza artificiale: se moderano troppo poco, non riescono a risolvere il problema, se moderano troppo, censurano il linguaggio che i gruppi emarginati usano per comunicare e difendersi. “Il rischio è penalizzare proprio quelle comunità che sono più spesso prese di mira dall’odio”, afferma Paul Röttger, un dottorando presso l’Oxford Internet Institute e coautore del documento.

Lucy Vasserman, responsabile del software a Jigsaw, afferma che Perspective supera queste limitazioni affidandosi a moderatori umani per prendere la decisione finale. Ma questo processo non si adatta a piattaforme più grandi. Jigsaw sta ora lavorando allo sviluppo di una funzione che ripristinerebbe le priorità di post e commenti in base all’incertezza di Perspective, rimuovendo automaticamente i contenuti che sono sicuramente odiosi e segnalando i contenuti limite agli umani.

La cosa eccitante del nuovo studio, dice, è che fornisce un modo preciso per valutare lo stato dell’arte. “Molte delle cose che vengono evidenziate in questo documento, come la riappropiazione linguistica di parole inizialmente offensive rappresentano una sfida per questi modelli, difficile da quantificare”, afferma. Jigsaw ora utilizza HateCheck per comprendere meglio le differenze tra i suoi modelli e dove devono migliorare.

Anche gli accademici sono entusiasti della ricerca. “Questo documento ci offre una buona risorsa per valutare i sistemi industriali”, afferma Maarten Sap, ricercatore di intelligenza artificiale linguistica dell’Università di Washington, che “consente alle aziende e agli utenti di chiedere miglioramenti”.

Immagine: Ms Tech / Getty / Unsplash

Related Posts
Total
0
Share