Gemini permette di prenotare un Uber o ordinare un pasto DoorDash dal telefono. Ecco come funziona.
La tecnologia del voice assistant ha subito un notevole sviluppo negli ultimi anni, con aziende come Google e Apple che hanno lanciato promesse ambiziose sulla capacità dei loro assistenti vocali di completare compiti per conto degli utenti.
La tecnologia del voice assistant ha subito un notevole sviluppo negli ultimi anni, con aziende come Google e Apple che hanno lanciato promesse ambiziose sulla capacità dei loro assistenti vocali di completare compiti per conto degli utenti. Decenni fa, Apple annunciava che Siri potesse richiedere un Uber, aprendo direttamente l'app del servizio, mentre Google aveva promesso di permettere agli utenti di "Ordina il mio solito" al Starbucks grazie all'assistente vocale. Tuttavia, l'esperienza di Google era considerata complessa e poco intuitiva, portando l'azienda a rimuovere la funzione nel tempo. Ora, con l'arrivo di modelli linguistici di grandi dimensioni e l'introduzione di sistemi di intelligenza artificiale in grado di comprendere il linguaggio naturale, le stesse promesse tornano al centro dell'attenzione. A questo proposito, durante l'evento Galaxy Unpacked di Samsung, Google e Samsung hanno presentato una funzione innovativa che permette all'assistente vocale Gemini di completare compiti come prenotare un Uber o ordinare cibo tramite app come Uber Eats, DoorDash o Grubhub. Questa funzione, ancora in fase di anteprima, sarà disponibile inizialmente negli Stati Uniti e in Corea del Sud, insieme al Galaxy S26 e successivamente come aggiornamento software per la serie Pixel 10.
La nuova funzione si basa su un concetto di automazione dei compiti, in cui l'utente può richiedere a Gemini di "Prendimi un Uber all'aeroporto" e il sistema aprirà l'app del servizio in una finestra virtuale. Il processo rimane in background, ma l'utente può monitorarlo tramite una notifica in tempo reale. Se ci sono informazioni mancanti, ad esempio se l'utente si trova nell'area del New York tristate e Gemini non è sicuro dell'aeroporto di destinazione, il sistema richiederà ulteriori dettagli. Una volta completato il processo, l'utente riceverà una notifica e verrà indirizzato alla fase di prenotazione, ma Gemini non prenderà decisioni definitive: l'utente dovrà scegliere tra le opzioni disponibili, verificare i costi e confermare l'ordine. Questa funzione rappresenta un passo significativo verso l'automazione di compiti routine, che l'azienda definisce come "lavoretti digitali" - attività necessarie ma non sempre gradite.
Lo sviluppo di questa tecnologia non è un evento isolato, ma parte di un contesto più ampio in cui le aziende hanno cercato per anni di rendere gli assistenti vocali più utili nella vita quotidiana. Google, in particolare, ha investito notevolmente nel miglioramento delle capacità di comprensione del linguaggio naturale dei suoi modelli, con l'obiettivo di ridurre la dipendenza dall'interazione manuale. Lo stesso approccio è stato adottato da Apple, che ha cercato di integrare Siri in modo più profondo con i servizi di terze parti. Tuttavia, le prime esperienze, come quella di Google con l'ordinazione al Starbucks, hanno mostrato limiti tecnologici e un'interfaccia troppo complessa. Con l'evoluzione dei modelli linguistici e la maggiore maturità dei sistemi di intelligenza artificiale, le aziende ora possono offrire funzionalità più avanzate, come la gestione di compiti multipli o la capacità di interpretare contesti complessi.
L'impatto di questa tecnologia è già visibile in diversi ambiti, sia in termini di efficienza che di esperienza utente. Ad esempio, lo sviluppo di Gemini mostra come gli assistenti vocali possano gestire compiti che richiedono una combinazione di informazioni e azioni. Nel caso di Grubhub, Gemini è stato in grado di analizzare un messaggio di gruppo in cui diversi amici discutevano di ordinare pizza da Pizza Hut e di organizzare gli ordini in modo coerente. Questo tipo di automazione non solo semplifica la vita quotidiana, ma anche la gestione di eventi sociali o di lavoro. Inoltre, il sistema ha dimostrato di poter adattarsi a situazioni impreviste, come quando un ristorante limita il numero di pizza grandi durante gli orari di punta, richiedendo all'utente di scegliere alternative. Queste capacità rappresentano un passo avanti rispetto alle funzionalità precedenti, che spesso si basavano su mappe statiche degli app o su interfacce rigide.
L'evoluzione di Gemini non si ferma alla gestione di compiti specifici: l'azienda sta anche esplorando nuove possibilità per integrare l'assistente vocale in dispositivi diversi da smartphone. Lo stesso Sameer Samat, presidente dell'ecosistema Android di Google, ha sottolineato che il futuro potrebbe includere dispositivi come occhiali smart o un anello intelligente, che permetterebbero agli utenti di iniziare compiti da un'altra piattaforma. Questo approccio mira a rendere l'interazione con l'assistente vocale più fluida e ubiqua, riducendo la dipendenza dallo schermo del telefono. Tuttavia, la sicurezza rimane un tema cruciale: Samat ha espresso preoccupazioni per il rischio di accessi non autorizzati, come l'ipotesi di un'altra persona che potrebbe usare un dispositivo di terze parti per effettuare ordini senza il consenso dell'utente. Per affrontare questa sfida, Google sta valutando nuove tecnologie di autenticazione, che potrebbero essere implementate in dispositivi futuri. Queste innovazioni segnano un cambiamento significativo nel modo in cui gli utenti interagiscono con la tecnologia, aprendo la strada a un'era di intelligenza mobile più avanzata.
Fonte: Wired Articolo originale
Video correlati
Argomenti
Articoli Correlati
Da Centocelle al Pigneto: piano Ama su misura per pulire le strade del municipio
4 giorni fa
La guerra contro l'Iran minaccia forniture globali di chip e espansione AI
4 giorni fa
Oracle annuncia migliaia di licenziamenti per crisi di liquidità da investimenti aggressivi in IA
4 giorni fa