L’intelligenza artificiale di Baidu batte Google nel riconoscimento delle immagini

Un supercomputer specializzato in una tecnica di apprendimento automatico conosciuta come apprendimento approfondito potrebbe aiutare i software a comprenderci meglio.

di Tom Simonite

La società cinese Baidu ha realizzato un computer per accelerare la propria ricerca nell’intelligenza artificiale.Baidu, il gigante cinese dei motori di ricerca, sostiene di aver inventato un potente supercomputer per dare manforte a una tecnica di intelligenza artificiale che mira a migliorare la capacità dei software di comprendere parole, immagini e testi scritti.

Il nuovo computer, denominato Minwa e situato a Pechino, vanta 72 potenti processori e 144 processori grafici, conosciuti come GPU. Nel tardo lunedì, Baidu ha pubblicato un documento in cui afferma che il computer è stato utilizzato per addestrare un software di apprendimento automatico col quale avrebbe stabilito un nuovo record, battendo quello precedente di Google.

“La nostra società è ora in testa nella corsa all’intelligenza artificiale”, ha detto Ren Wu, uno scienziato di Baidu che lavora al progetto, in occasione dell’Embedded Vision Summit che si è tenuto martedì. Se non fosse specializzato nell’apprendimento approfondito, il Minwa rientrerebbe fra i 300 computer più potenti al mondo, ha detto Wu. “Penso che questo sia il più veloce supercomputer dedicato all’apprendimento approfondito. Abbiamo un grande potere fra le mani – superiore a quello dei nostri competitori”.

La potenza di calcolo conta molto nel mondo dell’apprendimento approfondito, che ha portato a importanti progressi nel riconoscimento di parole, immagini e volti, ed ha migliorato i servizi di ricerca per immagini e riconoscimento vocale offerti da Google e Baidu.

La tecnica è una versione potenziata di un approccio definito per la prima volta dieci anni fa, in cui i dati vengono elaborati da una rete di neuroni artificiali che gestiscono le informazioni ispirandosi ai cervelli biologici. L’apprendimento approfondito comporta l’utilizzo di reti neurali più grandi, disposte secondo gerarchie di strati, e il loro addestramento utilizzando enormi raccolte di dati che sono formate da foto, documenti di testo o registrazioni audio.

A differenza delle tecniche di apprendimento automatico, il cui rendimento era in diminuzione nonostante l’aumento delle reti e dei dati utilizzati per addestrare i software, l’apprendimento approfondito continua a dare risultati sempre migliori. Stando a Baidu, Minwa permetterebbe di creare una rete neurale artificiale con centinaia di miliardi di connessioni – una quantità centinaia di volte superiore a quella incontrata in qualunque altra rete realizzata in precedenza.

Un documento pubblicato lunedì serve a offrire un assaggio delle capacità superiori del Minwa. Descrive il modo in cui il supercomputer è stato utilizzato per addestrare la rete neurale che ha stabilito il nuovo record in un classico esercizio di riconoscimento delle immagini. L’ImageNet Classification Challenge comporta l’addestramento del software con una raccolta di 1.5 milioni di immagini, catalogate in 1,000 categorie differenti, e la sua successiva interrogazione su un insieme di altre 100,000 immagini non ancora catalogate.

Il software viene valutato sulla base della frequenza con cui le sue cinque risposte a una determinata immagine risultano errate. Il sistema addestrato dal nuovo computer di baidu ha sbagliato solamente il 4.58 percento delle volte. Il record precedente, stabilito da Google nel mese di marzo, era del 4.82 percento. Il mese prima, Microsoft aveva raggiunto il 4.94 percento, divenendo la prima società a superare la prestazione umana media del 5.1 percento.

Wu ha detto che Minwa ha permesso di addestrare il sistema con immagini ad alta risoluzione. Ha permesso inoltre di ricorrere a una tecnica grazie alla quale è stato possibile convertire gli 1.2 milioni di immagini in 2 miliardi di immagini distorte, capovolte ed alterate nei colori. L’utilizzo di un set così ampio ha migliorato la precisione del software impedendo al sistema di fissarsi troppo sui dettagli delle immagini utilizzate nell’addestramento. Il sistema risultante, secondo Wu, dovrebbe essere migliore nel gestire immagini del mondo reale.

Come suggerito dal graduale miglioramento nella sfida di ImageNet, l’apprendimento approfondito è ormai pronto ad affrontare sfide più avvincenti del riconoscimento di immagini, come l’interpretazione di video o la descrizione di immagini con brevi periodi (vedi “Google’s Brain-Inspired Software Describes What It Sees in Complex Images“). Stando a Wu, oltre a considerare nuovi metodi per migliorare Minwa ed utilizzarlo su immagini e testi, i ricercatori di Baidu stanno lavorando a soluzioni per ridurre le reti neurali in modo da poterle utilizzare anche all’interno di dispositivi mobili.

Wu ha mostrato un prototipo di app per smartphone che è in grado di riconoscere diverse razze di cani grazie a una versione condensata della rete di apprentimento approfondito addestrata dal Minwa. “Sapendo come attingere potenza di calcolo dal GPU di un telefono cellulare, è possibile riconoscere l’immagine partendo direttamente dal sensore imamgini”, ha detto.

(MO)

Related Posts
Total
0
Share