L’apprendimento automatico ha il suo primo scandalo

Perché e in che modo Baidu ha barato nel test per l’intelligenza artificiale.

di Tom Simonite

Questa settimana è scoppiato il primo scandalo nello sport dell’addestramento automatico di software. Il mese scorso Baidu, la società dietro il motore di ricerca cinese, aveva annunciato che il suo software di riconoscimento delle immagini aveva battuto il software di Google nel test di riferimento per valutare la precisione.

Gli esperti accademici che gestiscono il test hanno annullato il risultato raggiunto da Baidu. Ren Wu, il ricercatore a capo del lavoro condotto sul software in questione, si è scusato ed ha dichiarato che la società sta revisionando i risultati. La società ha corretto il documento tecnico che aveva pubblicato riguardo il suo software.

Non sappiamo se questa è stata l’azione di un singolo individuo o la strategia di un intero team. Il motivo per cui una simile corporazione multimiliardaria sia arrivata a barare in un oscuro test, gestito da accademici su base volontaria, è però chiaro.

Negli ultimi anni Baidu, Google, Facebook ed altre importanti società informatiche hanno investito pesantemente nella formazione di gruppi di ricerca dedicati all’apprendimento approfondito, un approccio alla costruzione di software di apprendimento automatico che ha conseguito importanti risultati nel riconoscimento di immagini e parole. Queste società hanno lavorato duramente per assoldare i principali esperti di questo piccolo settore � spesso rubandoseli l’un l’altro (vedi �Is Google Cornering the Market on Deep Learning“). Una manciata di test standardizzati sviluppati dalle accademie corrisponde al metro di valutazione che queste società impiegano per confrontare i propri progressi e vantarsi dei propri risultati.

Baidu ha ottenuto un vantaggio scorretto sfruttando il design di questi test. Per far valutare il software all’interno dell’ImageNet Challenge bisogna anzitutto addestrarlo con un set standardizzato di 1.5 milioni di immagini. Dopodiché si inserisce il codice nel server dell’ImageNet Challenge per procedere con la valutazione della sua accuratezza su una raccolta di 100,000 �immagini di validazione� che il software non ha mai visto prima.

Le regole della sfida impongono che il codice venga testato solamente due volte la settimana. Si considerano infatti delle possibili casualità nel punteggio finale.

Baidu ha ammesso di aver utilizzato molteplici account email per riuscire a testare il suo codice quasi duecento volte in meno di sei mesi � più di quattro volte il limite concesso dalle regole.

Oren Etzioni, CEO dell’Allen Institute for Artificial Intelligence, paragona la mossa di Baidu all’acquisto di più biglietti della lotteria. �Acquistando ogni settimana 200 biglietti della lotteria si avranno maggiori probabilità di vincere che non acquistandone solo 2�, dice. Oltretutto, collaudando a più riprese codici leggermente differenti, un team di ricerca potrebbe ottimizzare il software per identificare delle peculiarità in una raccolta di immagini di validazione che non rispecchiano le foto del mondo reale.

Il miglioramento dell’apprendimento approfondito in questo particolare test è tale che persino un piccolo margine di vantaggio potrebbe fare la differenza. Baidu aveva riportato un margine di errore pari al 4.58 percento, battendo il precedente record del 4.82 percento che aveva stabilito a marzo. Alcuni esperti sostengono che i margini di miglioramento in questo particolare test siano talmente bassi da renderlo sempre più insignificante. Il fatto che Baidu e altre società continuino a sbandierare i propri risultato � e che siano persino disposti a barare � lascia intendere quanto sia importante per loro essere i migliori nell’apprendimento automatico.

(MO)

Related Posts
Total
0
Share