STEPHANIE ARNETT/MITTR | ENVATO

I LLM diventano più velatamente razzisti con l’intervento umano

I ricercatori hanno scoperto che alcuni pregiudizi sono peggiorati con l’aumentare delle dimensioni dei modelli.

Fin dalla loro nascita, è stato chiaro che i modelli linguistici di grandi dimensioni come ChatGPT assorbono opinioni razziste da milioni di pagine Internet su cui vengono addestrati. Gli sviluppatori hanno risposto cercando di renderli meno tossici. Ma una nuova ricerca suggerisce che questi sforzi, soprattutto quando i modelli diventano più grandi, stanno solo limitando le opinioni razziste palesi, lasciando che gli stereotipi più nascosti si rafforzino e si nascondano meglio.

I ricercatori hanno chiesto a cinque modelli di intelligenza artificiale, tra cui GPT-4 di OpenAI e modelli più vecchi di Facebook e Google, di esprimere giudizi su chi parlava in inglese afroamericano (AAE). La razza dell’oratore non era menzionata nelle istruzioni.

Anche quando le due frasi avevano lo stesso significato, i modelli erano più propensi ad applicare aggettivi come “sporco”, “pigro” e “stupido” ai parlanti di AAE rispetto a quelli di Standard American English (SAE). I modelli associavano i parlanti di AAE a lavori meno prestigiosi (o non li associavano completamente al fatto di avere un lavoro) e, quando si chiedeva loro di esprimere un giudizio su un ipotetico imputato criminale, erano più propensi a raccomandare la pena di morte.

Un dato ancora più rilevante potrebbe essere un difetto che lo studio individua nei modi in cui i ricercatori cercano di risolvere tali pregiudizi.

Per eliminare i modelli dalle opinioni odiose, aziende come OpenAI, Meta e Google utilizzano l’addestramento con feedback, in cui gli operatori umani regolano manualmente il modo in cui il modello risponde a determinate richieste. Questo processo, spesso chiamato “allineamento”, mira a ricalibrare i milioni di connessioni della rete neurale e a far sì che il modello si conformi meglio ai valori desiderati.

Il metodo funziona bene per combattere gli stereotipi palesi e le aziende leader lo utilizzano da quasi un decennio. Se gli utenti chiedevano al GPT-2, per esempio, di nominare gli stereotipi sulle persone di colore, era probabile che elencasse “sospettoso”, “radicale” e “aggressivo”, ma il GPT-4 non risponde più con queste associazioni, secondo il documento.

Tuttavia il metodo fallisce sugli stereotipi nascosti che i ricercatori hanno suscitato utilizzando l’inglese afroamericano nel loro studio, pubblicato su arXiv e che non è stato sottoposto a revisione paritaria. Questo è dovuto in parte al fatto che le aziende sono state meno consapevoli del pregiudizio dialettale come problema, secondo i ricercatori. È anche più facile allenare un modello a non rispondere a domande apertamente razziste che a non rispondere negativamente a un intero dialetto.

“L’addestramento al feedback insegna ai modelli a considerare il loro razzismo”, afferma Valentin Hofmann, ricercatore dell’Allen Institute for AI e coautore del lavoro. “Ma il pregiudizio dialettico apre un livello più profondo”.

Avijit Ghosh, ricercatore di etica presso Hugging Face, che non ha partecipato alla ricerca, afferma che la scoperta mette in discussione l’approccio che le aziende adottano per risolvere i pregiudizi.

“Questo allineamento, in cui il modello si rifiuta di emettere risultati razzisti, non è altro che un filtro fragile che può essere facilmente rotto”, afferma.

I ricercatori hanno scoperto che gli stereotipi occulti si rafforzavano anche con l’aumentare delle dimensioni dei modelli. Questa scoperta offre un potenziale avvertimento ai produttori di chatbot come OpenAI, Meta e Google, che stanno correndo per rilasciare modelli sempre più grandi. In genere i modelli diventano più potenti ed espressivi con l’aumentare della quantità di dati di addestramento e del numero di parametri, ma se questo peggiora i pregiudizi razziali occulti, le aziende dovranno sviluppare strumenti migliori per combatterli. Non è ancora chiaro se sarà sufficiente aggiungere più AAE ai dati di addestramento o rendere più robusti gli sforzi di feedback.

“Questo rivela fino a che punto le aziende stanno giocando a “whack-a-mole”, cercando di colpire il prossimo pregiudizio che il giornalista o l’articolo più recente ha trattato”, afferma Pratyusha Ria Kalluri, dottoranda a Stanford e coautrice dello studio. “I pregiudizi nascosti mettono in discussione questo approccio ragionevole”.

Gli autori del documento utilizzano esempi particolarmente estremi per illustrare le potenziali implicazioni dei pregiudizi razziali, come chiedere all’IA di decidere se un imputato debba essere condannato a morte. Ma, osserva Ghosh, l’uso discutibile di modelli di IA per aiutare a prendere decisioni critiche non è fantascienza. Succede oggi.

Gli strumenti di traduzione guidati dall’intelligenza artificiale vengono utilizzati per valutare le richieste di asilo negli Stati Uniti, e un software di previsione del crimine è stato usato per giudicare se agli adolescenti debba essere concessa la libertà vigilata. I datori di lavoro che utilizzano ChatGPT per vagliare le candidature potrebbero discriminare i nomi dei candidati sulla base della razza e del genere, e se utilizzano modelli per analizzare ciò che un candidato scrive sui social media, un pregiudizio nei confronti degli AAE potrebbe portare a valutazioni errate.

“Gli autori affermano con umiltà che i loro casi d’uso di far scegliere ai laureati in LLM i candidati o di giudicare i casi penali sono esercizi costruiti”, dice Ghosh. “Ma io sostengo che i loro timori siano fondati”.

Related Posts
Total
0
Share