STEPHANIE ARNETT/MITTR | GOOGLE, OPENAI

OpenAI e Google lanciano assistenti IA potenziati. Ecco come provarli

Promettono di essere un passo avanti rispetto a strumenti come Siri o Alexa.

Questa settimana, Google e OpenAI hanno annunciato di aver realizzato assistenti AI potenziati: strumenti in grado di conversare con l’utente in tempo reale e di riprendersi quando li si interrompe, di analizzare l’ambiente circostante tramite video in diretta e di tradurre le conversazioni al volo.

OpenAI ha fatto centro lunedì, quando ha presentato il suo nuovo modello di punta GPT-4o. La dimostrazione dal vivo lo ha mostrato mentre leggeva storie della buonanotte e aiutava a risolvere problemi matematici, il tutto con una voce che assomigliava in modo inquietante a quella della fidanzata AI di Joaquin Phoenix nel film Her (una caratteristica che non è sfuggita al CEO Sam Altman).

Martedì scorso Google ha annunciato i suoi nuovi strumenti, tra cui un assistente conversazionale chiamato Gemini Live, in grado di fare molte delle stesse cose. Ha inoltre rivelato che sta costruendo una sorta di agente AI “fai-da-te”, che è attualmente in fase di sviluppo ma non sarà rilasciato prima della fine dell’anno.

Presto sarete in grado di esplorare voi stessi per valutare se utilizzerete questi strumenti nella vostra routine quotidiana come sperano i loro creatori, o se sono più simili a un trucco da festa fantascientifico che alla fine perde il suo fascino. Ecco cosa c’è da sapere su come accedere a questi nuovi strumenti, a cosa potrebbero servire e quanto costeranno.

GPT-4o di OpenAI

Cosa è in grado di fare: Il modello può parlare con l’utente in tempo reale, con un ritardo di risposta di circa 320 millisecondi, che secondo OpenAI è pari a quello di una conversazione umana naturale. È possibile chiedere al modello di interpretare tutto ciò che viene puntato dalla fotocamera dello smartphone e può fornire assistenza in compiti come la codifica o la traduzione di testi. Può anche riassumere informazioni e generare immagini, font e rendering 3D.

Come accedervi: OpenAI dice che inizierà a distribuire le funzioni di testo e di visione di GPT-4o nell’interfaccia web e nell’app GPT, ma non ha fissato una data. L’azienda afferma che aggiungerà le funzioni vocali nelle prossime settimane, anche se non ha ancora fissato una data precisa. Gli sviluppatori possono accedere alle funzioni di testo e visione nell’API, ma la modalità vocale sarà inizialmente disponibile solo per un “piccolo gruppo” di sviluppatori.

Quanto costa: L’utilizzo di GPT-4o sarà gratuito, ma OpenAI stabilirà dei limiti di utilizzo del modello prima di dover passare a un piano a pagamento. Chi aderisce a uno dei piani a pagamento di OpenAI, che partono da 20 dollari al mese, avrà una capacità cinque volte superiore su GPT-4o.

Gemini Live di Google

Che cos’è Gemini Live? È il prodotto di Google più paragonabile al GPT-4, una versione del modello AI dell’azienda con cui si può parlare in tempo reale. Google afferma che “più avanti nel corso dell’anno” sarà possibile utilizzare lo strumento anche per comunicare tramite video in diretta. L’azienda promette che si tratterà di un assistente di conversazione utile per cose come la preparazione di un colloquio di lavoro o le prove di un discorso.

Come accedervi: Gemini Live sarà lanciato “nei prossimi mesi” attraverso il piano AI premium di Google, Gemini Advanced.

Quanto costa: Gemini Advanced offre un periodo di prova gratuito di due mesi e successivamente costa 20 dollari al mese.

Ma aspetta, cos’è il Progetto Astra? Astra è un progetto per la costruzione di un agente AI in grado di fare tutto, che è stato dimostrato alla conferenza I/O di Google, ma non verrà rilasciato prima della fine dell’anno.

Le persone potranno utilizzare Astra attraverso i loro smartphone e forse anche attraverso i computer desktop, ma l’azienda sta esplorando anche altre opzioni, come l’inserimento negli occhiali intelligenti o in altri dispositivi, ha dichiarato Oriol Vinyals, vicepresidente della ricerca di Google DeepMind, a MIT Technology Review.

Qual è il migliore?

È difficile dirlo senza aver toccato con mano le versioni complete di questi modelli. Google ha mostrato il Project Astra attraverso un video raffinato, mentre OpenAI ha scelto di far debuttare il GPT-4o attraverso una dimostrazione dal vivo apparentemente più autentica, ma in entrambi i casi ai modelli è stato chiesto di fare cose che probabilmente i progettisti avevano già provato. Il vero banco di prova sarà il debutto di fronte a milioni di utenti con esigenze uniche. 

Detto questo, se si confrontano i video pubblicati da OpenAI con quelli di Google, i due strumenti principali sembrano molto simili, almeno per quanto riguarda la facilità d’uso. Per generalizzare, GPT-4o sembra essere leggermente in vantaggio per quanto riguarda l’audio, dimostrando voci realistiche, flusso di conversazione e persino canto, mentre Project Astra mostra capacità visive più avanzate, come la capacità di “ricordare” dove si sono lasciati gli occhiali. La decisione di OpenAI di distribuire le nuove funzioni più rapidamente potrebbe significare che il suo prodotto sarà più utilizzato all’inizio rispetto a quello di Google, che non sarà completamente disponibile prima della fine dell’anno. È troppo presto per dire quale modello avrà meno “allucinazioni”, informazioni false o crea risposte più utili.

Sono sicuri?

Sia OpenAI che Google affermano che i loro modelli sono ben testati: OpenAI afferma che GPT-4o è stato valutato da più di 70 esperti in campi come la disinformazione e la psicologia sociale, mentre Google ha dichiarato che Gemini “ha le valutazioni di sicurezza più complete di qualsiasi modello di IA di Google fino ad oggi, anche per quanto riguarda i pregiudizi e la tossicità”.

Ma queste aziende stanno costruendo un futuro in cui i modelli di intelligenza artificiale cercano, analizzano e valutano le informazioni del mondo per darci una risposta concisa alle nostre domande. Ancor più che con i chatbot più semplici, è saggio rimanere scettici su ciò che ci dicono.

Related Posts
Total
0
Share