GOOGLE

Astra di Google è il suo primo agente AI per tutto

Al momento del lancio, gli utenti potranno interagire con l’assistente AI utilizzando audio e video.

Google si appresta a introdurre un nuovo sistema chiamato Astra nel corso dell’anno e promette che sarà il più potente e avanzato tipo di assistente AI mai lanciato.

L’attuale generazione di assistenti AI, come ChatGPT, è in grado di recuperare informazioni e offrire risposte, ma nulla di più. Quest’anno, però, Google ha deciso di rinominare i suoi assistenti come “agenti” più avanzati, in grado di dimostrare capacità di ragionamento, pianificazione e memoria e di compiere più passi per eseguire i compiti.

Le persone potranno utilizzare Astra attraverso i loro smartphone e forse anche attraverso i computer desktop, ma l’azienda sta esplorando anche altre opzioni, come l’inserimento negli occhiali intelligenti o in altri dispositivi, ha dichiarato Oriol Vinyals, vicepresidente della ricerca di Google DeepMind, a MIT Technology Review.

“Siamo agli albori [dello sviluppo di agenti di intelligenza artificiale]”, ha dichiarato Sundar Pichai, CEO di Google, durante una telefonata in vista della conferenza I/O di oggi.

“Abbiamo sempre voluto costruire un agente universale che fosse utile nella vita di tutti i giorni”, ha dichiarato Demis Hassabis, CEO e cofondatore di Google DeepMind. “Immaginate agenti in grado di vedere e ascoltare ciò che facciamo, di comprendere meglio il contesto in cui ci troviamo e di rispondere rapidamente nelle conversazioni, rendendo il ritmo e la qualità dell’interazione molto più naturali”. Questo, dice, è ciò che sarà Astra.

L’annuncio di Google arriva un giorno dopo che il concorrente OpenAI ha presentato il proprio assistente AI potenziato, GPT-GPT-4o. Astra di Google DeepMind risponde a input audio e video, più o meno come GPT-4o (anche se in modo meno civettuolo).

In una dimostrazione per la stampa, un utente ha puntato la fotocamera dello smartphone e gli occhiali intelligenti su alcuni oggetti e ha chiesto ad Astra di spiegare cosa fossero. Quando la persona ha puntato il dispositivo verso la finestra e ha chiesto “In che quartiere pensi che mi trovi?”, il sistema di intelligenza artificiale è stato in grado di identificare King’s Cross, Londra, sede di Google DeepMind. È stato anche in grado di dire che gli occhiali della persona erano su una scrivania, avendoli registrati in precedenza durante l’interazione.

La demo illustra la visione di Google DeepMind di un’intelligenza artificiale multimodale (in grado di gestire diversi tipi di input – voce, video, testo e così via) che lavora in tempo reale, spiega Vinyals.

“Siamo entusiasti di poter essere in grado, in futuro, di avvicinarci all’utente e di assisterlo in tutto ciò che desidera”, ha dichiarato. Google ha recentemente aggiornato il suo modello di intelligenza artificiale Gemini per elaborare quantità ancora maggiori di dati, un aggiornamento che lo aiuta a gestire documenti e video più grandi e a intrattenere conversazioni più lunghe.

Le aziende tecnologiche sono nel mezzo di una feroce competizione per la supremazia dell’IA e gli agenti di IA sono l’ultimo sforzo delle grandi aziende tecnologiche per dimostrare che stanno spingendo la frontiera dello sviluppo. Gli agenti si inseriscono anche nella narrativa di molte aziende tecnologiche, tra cui OpenAI e Google DeepMind, che mirano a costruire l’intelligenza artificiale generale, un’idea altamente ipotetica di sistemi AI superintelligenti.

“Alla fine avrete un agente che vi conosce bene, che può fare molte cose per voi e che può lavorare su più attività e domini”, afferma Chirag Shah, professore dell’Università di Washington specializzato nella ricerca online.

Questa visione è ancora un’aspirazione. Ma l’annuncio di oggi deve essere visto come un tentativo di Google di tenere il passo con i concorrenti. Affrettando l’uscita di questi prodotti, Google può raccogliere ancora più dati da più di un miliardo di suoi utenti su come utilizzano i modelli e su cosa funziona, dice Shah.

Google sta svelando oggi molte altre nuove funzionalità AI oltre agli agenti. L’intelligenza artificiale verrà integrata più profondamente nella ricerca grazie a una nuova funzione chiamata “AI overviews”, che raccoglie informazioni da Internet e le trasforma in brevi riassunti in risposta alle query di ricerca. La funzione, lanciata oggi, sarà inizialmente disponibile solo negli Stati Uniti, mentre altri Paesi potranno accedervi in seguito.

Questo aiuterà a velocizzare il processo di ricerca e a fornire agli utenti risposte più specifiche a domande più complesse e di nicchia, afferma Felix Simon, ricercatore in IA e notizie digitali presso il Reuters Institute for Journalism. “Credo che sia questo il punto in cui la ricerca ha sempre avuto difficoltà”, afferma.

Un’altra novità dell’offerta di Google AI Search è una migliore pianificazione. Le persone potranno presto chiedere a Search di fornire suggerimenti per i pasti e i viaggi, ad esempio, proprio come se chiedessero a un agente di viaggio di suggerire ristoranti e hotel. Gemini sarà in grado di aiutarli a pianificare ciò che devono fare o comprare per cucinare le ricette, e potranno anche conversare con il sistema di intelligenza artificiale, chiedendogli di svolgere compiti relativamente banali, come informarli sulle previsioni del tempo, o molto complessi, come aiutarli a prepararsi per un colloquio di lavoro o un discorso importante.

Le persone potranno anche interrompere Gemini a metà frase e fare domande chiarificatrici, proprio come in una conversazione reale.

In un’altra mossa per superare il concorrente OpenAI, Google ha anche presentato Veo, un nuovo sistema di IA per la generazione di video. Veo è in grado di generare video brevi e permette agli utenti di avere un maggiore controllo sugli stili cinematografici, comprendendo richieste come “time lapse” o “riprese aeree di un paesaggio”.

Google ha un vantaggio significativo quando si tratta di addestrare modelli video generativi, perché possiede YouTube. Ha già annunciato collaborazioni con artisti come Donald Glover e Wycleaf Jean, che utilizzano la sua tecnologia per produrre le loro opere.

All’inizio di quest’anno, il CTO di OpenAI, Mira Murati, ha tergiversato quando gli è stato chiesto se il modello dell’azienda fosse stato addestrato sui dati di YouTube. Anche Douglas Eck, senior research director di Google DeepMind, è stato vago sui dati di addestramento utilizzati per creare Veo quando gli è stato chiesto da MIT Technology Review, ma ha detto che “potrebbe essere addestrato su alcuni contenuti di YouTube in conformità con i nostri accordi con i creatori di YouTube”.

Da un lato, Google presenta la sua IA generativa come uno strumento che gli artisti possono usare per le loro creazioni, ma è probabile che gli strumenti ottengano la capacità di creare tali oggetti utilizzando materiale di artisti esistenti, afferma Shah. Aziende di IA come Google e OpenAI hanno affrontato una serie di cause legali da parte di scrittori e artisti che sostengono che la loro proprietà intellettuale è stata utilizzata senza consenso o compenso. 

“Per gli artisti è un’arma a doppio taglio”, afferma Shah.

Related Posts
Total
0
Share