Il sistema di apprendimento approfondito di Baidu compete con gli esseri umani nel riconoscimento vocale

La principale società Internet della Cina, Baidu, sta sviluppando potenti sistemi di riconoscimento vocale per le sue interfacce vocali.

di Will Knight

Baidu, la principale società cinese dei motori di ricerca, ha sviluppato un sistema vocale in grado di riconoscere il mandarino e l’inglese parlato meglio delle persone, almeno in alcuni casi.

Il nuovo sistema, denominato Deep Speech 2, è particolarmente significativo perché si affida interamente all’apprendimento automatico per effettuare le traduzioni. Laddove i sistemi di riconoscimento vocali più vecchi includevano diverse componenti realizzate appositamente per elaborare e trascrivere i documenti audio, il sistema di Baidu ha imparato a riconoscere le parole partendo da zero, semplicemente ascoltando migliaia di ore di documenti audio.

La tecnologia si affida alla potente tecnica dell’apprendimento approfondito, che comporta l’addestramento di una imponente rete multistrato di neuroni virtuali affinché riconoscano degli schemi in una grande quantità di dati. L’app per smartphone di baidu permette ai suoi utenti di effettuare ricerche utilizzando comandi vocali e include Duer, un’assistente personale comandata con l’uso della voce (vedi “Baidu’s Duer Joins the Personal Assistant Party”). Le ricerche vocali sono molto più comuni in Cina perché l’inserimento manuale di testi è più lento, e perché alcune persone non sanno come utilizzare Pinyin, il sistema fonetico di trascrizione del mandarino con caratteri latini.

“Storicamente, le persone hanno sempre visto il cinese e l’inglese come due lingue estremamente differenti, per cui era necessario sviluppare funzioni molto differenti”, spiega Andrew Ng, un ex professore di Stanford e ricercatore di Google, oggi nuovo capo scientifico della società cinese. “Gli algoritmi di apprendimento sono ormai talmente comuni che basta semplicemente istruirli”.

L’apprendimento approfondito trova le sue origini in alcune idee che risalgono a più di 50 anni fa; solamente negli ultimi anni, però, grazie a nuove tecniche matematiche abbinate ad una maggiore potenza di calcolo e ad enormi quantità di dati di addestramento, è stato possibile applicare queste idee a funzioni che richiedevano una qualche forma di percezione visiva o auditiva. La tecnica ha già permesso di migliorare le prestazioni dei sistemi di riconoscimento vocale e visivo, e grandi società quali Google, Facebook e Baidu stanno utilizzandola sulle massicce quantità di dati che possiedono.

L’apprendimento approfondito sta trovando applicazioni anche in operazioni più particolari. Facebook, ad esempio, ricorre all’apprendimento approfondito per individuare volti nelle immagini caricate dai suoi utenti. Recentemente, ha fatto progressi nell’analisi di testi scritti (vedi “Come farci capire dalle macchine”). Google utilizza l’apprendimento approfondito in oltre 100 progetti differenti, dalla ricerca alla guida autonoma.

Nel 2013, Baidu ha inaugurato il Deep Learning Institute, il suo ufficiale sforzo verso lo sfruttamento di questa nuova tecnologia, con sedi all’interno del quartier generale di Pechino e nella Silicon Valley. Il Deep Speech 2 è stato sviluppato principalmente dal team californiano.

Nello sviluppare il Deep Speech 2, Baidu ha anche creato una nuova architettura hardware per l’apprendimento approfondito che opera a velocità sette volte superiori rispetto alla versione precedente. L’apprendimento approfondito si affida solitamente a processori grafici, vista la loro abilità nel gestire intense operazioni di calcolo in parallelo.

“La velocità ottenuta ci ha permesso di condurre esperimenti su una scala ben maggiore rispetto ai risultati precedenti”, ha detto Jesse Engel, uno scienziato ricercatore di Baidu nonché uno dei 30 ricercatori menzionati in un documento che descrive il Deep Speech 2. “Siamo riusciti a ricercare diverse architetture per reti neurali, e ridurre del 40 percento il tasso di errore nel riconoscimento delle parole”. Ng ha aggiunto che questa ricerca ha recentemente prodotto risultati impressionanti. “Per le frasi brevi, fuori tema, pare che il sistema sia in grado di superare i livelli di riconoscimento umani”, ha detto. “Nel mandarino esistono diversi dialetti regionali che vengono utilizzati da popolazioni ben più piccole, per cui la quantità di dati a disposizione è molto inferiore. Il sistema potrebbe aiutarci a riconoscere meglio questi dialetti.

(MO)

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

Il sistema di apprendimento approfondito di Baidu compete con gli esseri umani nel riconoscimento vocale

La principale società Internet della Cina, Baidu, sta sviluppando potenti sistemi di riconoscimento vocale per le sue interfacce vocali.

Social

Il sistema di apprendimento approfondito di Baidu compete con gli esseri umani nel riconoscimento vocale

La principale società Internet della Cina, Baidu, sta sviluppando potenti sistemi di riconoscimento vocale per le sue interfacce vocali.

Related Posts