IA a prova di hacker

Un nuovo set di immagini ideate per mettere alla prova l’intelligenza artificiale potrebbe migliorare le capacità degli algoritmi di difendersi dagli attacchi.

di Karen Hao

L’intelligenza artificiale è abile nell’identificare gli oggetti che compaiono nelle immagini, ma è ancora abbastanza facile ingannarla. Se si aggiungono rumori statici impercettibili all’occhio umano a una immagine si può scardinare un sistema di riconoscimento, a volte con effetti letali.

L’aggiunta di alcuni adesivi a un segnale di stop può far credere a una vettura con guida autonoma di procedere su una strada a scorrimento veloce, mentre inserirli su una corsia stradale può far sbandare una Tesla nella corsia opposta.

Tutti questi sono noti come esempi antagonistici e i ricercatori stanno cercando dei modi per proteggere i sistemi di intelligenza artificiale da queste “illusioni ottiche”. Ma in un documento dello scorso anno, un gruppo di ricercatori di Google Brain e Princeton, tra cui Ian Goodfellow, uno dei primi ricercatori a interessarsi all’argomento, ha sostenuto che fino a oggi l’approccio è stato troppo teorico e non ha ottenuto risultati.

A loro avviso, mentre la maggior parte della ricerca si concentrava sulla protezione dei sistemi da attacchi deliberatamente progettati, un hacker avrebbe potuto scegliere uno strumento molto più semplice: una foto del tutto diversa invece di un modello di rumore da stratificare su uno già esistente. Una mossa del genere sarebbe sufficiente a causare il cattivo funzionamento del sistema.

La critica ha spinto Dan Hendrycks, uno studente che segue un dottorato all’Università della California, a Berkeley, a compilare un nuovo dataset di immagini da lui definite “esempi antagonisti naturali” che, senza particolari ritocchi, ingannano comunque il sistema.

Le sue immagini includono uno scoiattolo che i sistemi comuni etichettano come un leone marino o una libellula che viene erroneamente scambiata per un tombino. “In questi casi sembra molto più difficile riuscire a difendersi”, dice Hendrycks.

Gli esempi antagonisti sintetici devono sapere perfettamente come funzionano le difese del sistema di IA per raggiungere il loro obiettivo. Al contrario, gli esempi naturali possono avere successo anche quando il sistema difensivo è stato modificato, egli spiega.

Poco più di una settimana fa, Hendrycks ha rilasciato una prima versione del set di dati, con circa 6.000 immagini, alla Conferenza internazionale sull’apprendimento automatico. Entro brevissimo tempo, ha in programma di rilasciare una versione finale con circa 8.000 immagini. 

A suo parere, la comunità di ricerca dovrebbe utilizzare il suo dataset solo per i test e addestrare invece i sistemi di riconoscimento delle immagini direttamente sulle immagini. “Se una persone si allenasse solo su un dataset, non farebbe altro che memorizzare gli esempi”, conclude Hendrycks. “Eviterebbe gli errori con il dataset, ma non saprebbe cosa fare con nuove immagini”.

(rp)

Related Posts
Total
0
Share