L’arrivo della modalità fotocamera di Gemini Live segna un significativo passo avanti nell’evoluzione dell’intelligenza artificiale, portando un pezzo tangibile del futuro direttamente a portata di mano. Mentre i primi utilizzatori con dispositivi Pixel 9 e Samsung Galaxy S25 hanno goduto di questa innovativa funzione per qualche tempo, il recente annuncio di Google alla sua conferenza I/O estende l’accesso a un pubblico molto più vasto, comprendendo sia utenti Android che iOS. Questo sviluppo è particolarmente entusiasmante per i possessori di iPhone, che ora possono sperimentare una delle funzionalità AI più interessanti attualmente disponibili, soprattutto considerando che la modalità fotocamera era stata inizialmente distribuita ad altri utenti Android ad aprile.
Svelare il potere della vista: come funziona la modalità fotocamera di Gemini
Al suo interno, la modalità fotocamera di Gemini Live concede all’AI la capacità di “vedere”, consentendole di riconoscere e identificare gli oggetti posti nel campo visivo della fotocamera. Non si tratta semplicemente di un espediente superficiale; è uno strumento potente che consente agli utenti di interagire con l’ambiente circostante in modo più intuitivo e informativo.
Oltre al semplice riconoscimento degli oggetti, Gemini può anche rispondere a domande sugli elementi identificati, fornendo contesto e approfondimenti su richiesta. Inoltre, gli utenti possono condividere il proprio schermo con Gemini, consentendo all’AI di analizzare e identificare gli elementi visualizzati sullo schermo del proprio telefono. Per avviare una sessione live con la modalità fotocamera, gli utenti abilitano semplicemente la visualizzazione live della fotocamera, consentendo loro di impegnarsi in una conversazione con il chatbot su qualsiasi cosa la fotocamera catturi.
Prime impressioni: un test drive con Gemini Live
Durante la mia fase di test iniziale con Gemini Live su un Pixel 9 Pro XL, sono rimasto profondamente colpito dalle sue capacità. Un’esperienza particolarmente memorabile ha coinvolto la richiesta a Gemini di localizzare le mie forbici smarrite.
L’AI ha risposto con notevole precisione: “Ho appena individuato le tue forbici sul tavolo, proprio accanto alla confezione verde di pistacchi. Le vedi?”
Con mia sorpresa, Gemini aveva ragione. Le forbici erano esattamente dove aveva indicato, nonostante avessi solo brevemente passato la fotocamera davanti a loro durante una sessione live di 15 minuti in cui stavo essenzialmente dando al chatbot AI un tour del mio appartamento.
Incuriosito da questo successo iniziale, ho esplorato con entusiasmo ulteriormente la modalità fotocamera. In un altro test più esteso, ho attivato la funzione e ho iniziato a camminare per il mio appartamento, chiedendo a Gemini di identificare gli oggetti che vedeva. Ha riconosciuto accuratamente vari oggetti, tra cui frutta, ChapStick e altri oggetti di uso quotidiano. La riscoperta delle mie forbici, tuttavia, è rimasta la dimostrazione più sorprendente delle sue capacità.
Il fatto che Gemini abbia identificato le forbici senza alcuna richiesta preventiva è stato particolarmente impressionante. L’AI le aveva silenziosamente riconosciute a un certo punto durante la sessione e aveva ricordato accuratamente la loro posizione con notevole precisione. Questa esperienza è stata davvero come uno sguardo al futuro, spingendomi a condurre ulteriori indagini sul suo potenziale.
Traendo ispirazione: la visione di Google per Live Video AI
La mia sperimentazione con la funzione fotocamera di Gemini Live ha rispecchiato la demo mostrata da Google l’estate precedente, che offriva un primo sguardo a queste funzionalità AI video live. La demo presentava Gemini che ricordava all’utente dove aveva lasciato i suoi occhiali, un’impresa apparentemente troppo bella per essere vera. Tuttavia, come ho scoperto, questo livello di accuratezza era effettivamente raggiungibile.
Gemini Live è in grado di riconoscere molto più che semplici oggetti domestici. Google afferma che può assistere gli utenti nella navigazione in stazioni ferroviarie affollate o nell’identificazione dei ripieni nei pasticcini. Può anche fornire approfondimenti più profondi sulle opere d’arte, come la loro origine e se si tratta di pezzi in edizione limitata.
Questa funzionalità va oltre quella di un normale Google Lens. Puoi avere una conversazione con l’AI, che è molto più colloquiale di Google Assistant.
Google ha anche rilasciato un video di YouTube che dimostra la funzionalità e ora ha la sua pagina sul Google Store.
Per iniziare, avvia Gemini, accendi la fotocamera e inizia a parlare.
Gemini Live si basa sul Project Astra di Google, che è stato inizialmente presentato l’anno scorso ed è forse la più grande funzionalità “siamo nel futuro” dell’azienda, un ulteriore passo sperimentale per le capacità di AI generativa, oltre a digitare o anche pronunciare istruzioni in un chatbot come ChatGPT, Claude o Gemini.
Le aziende di AI stanno continuamente migliorando le capacità degli strumenti di AI, dalla creazione di video alla potenza di elaborazione di base. Visual Intelligence di Apple, che il produttore di iPhone ha rilasciato in beta l’anno scorso, è paragonabile a Gemini Live.
Gemini Live ha il potenziale per rivoluzionare il modo in cui ci connettiamo con l’ambiente, fondendo i nostri ambienti digitali e fisici mentre teniamo semplicemente la fotocamera di fronte a qualsiasi cosa.
Mettere alla prova Gemini Live: scenari del mondo reale
La prima volta che l’ho usato, Gemini ha riconosciuto accuratamente un oggetto da collezione di un videogioco molto specifico di un coniglio di peluche nella visuale della mia fotocamera. La seconda volta, l’ho mostrato a un amico in una galleria d’arte. Ha immediatamente riconosciuto la tartaruga su una croce (non chiedermi) e ha identificato e tradotto il kanji proprio accanto ad essa, dando a entrambi i brividi e lasciandoci leggermente spaventati. In modo positivo, credo.
Ho iniziato a considerare come avrei potuto stressare la funzione. Quando ho tentato di registrarla in azione, è costantemente fallita. Cosa succederebbe se mi allontanarsi dal solito percorso? Sono un grande appassionato del genere horror (film, serie televisive e videogiochi) e possiedo una pletora di oggetti da collezione, cianfrusaglie e altri oggetti. Quanto bene si comporterebbe con oggetti più oscuri, come i miei oggetti da collezione a tema horror?
Innanzitutto, devo affermare che Gemini può essere sia incredibilmente sorprendente che incredibilmente irritante nello stesso round di domande. Avevo circa 11 oggetti che volevo che Gemini identificasse e più la sessione live durava, peggio diventava, quindi ho dovuto limitare le sessioni a uno o due oggetti. A mio parere, Gemini ha tentato di utilizzare informazioni contestuali da oggetti riconosciuti in precedenza per indovinare quelli nuovi, il che ha un senso in una certa misura, ma alla fine non ha giovato né a me né a lui.
A volte, Gemini era abbastanza preciso, fornendo le risposte corrette facilmente e senza confusione, anche se questo è successo più frequentemente con oggetti più recenti o popolari. Sono rimasto sorpreso, ad esempio, quando ha immediatamente dedotto che uno dei miei oggetti di prova non proveniva solo da Destiny 2, ma era anche un’edizione limitata di un evento stagionale dell’anno precedente.
Gemini sarebbe frequentemente completamente fuori strada, richiedendomi di fornire ulteriori suggerimenti per avvicinarmi alla risposta corretta. A volte, sembrava come se Gemini stesse utilizzando il contesto delle mie precedenti sessioni live per generare risposte, identificando più oggetti come provenienti da Silent Hill quando non lo erano. Ho una vetrina dedicata alla serie di giochi, quindi posso capire perché vorrebbe attingere rapidamente a quell’area.
Svelare le imperfezioni: bug e stranezze nel sistema
Gemini può essere completamente pieno di bug a volte. Occasionalmente, Gemini ha identificato erroneamente uno degli oggetti come un personaggio fittizio del gioco inedito Silent Hill: f, combinando chiaramente parti di diversi titoli in qualcosa che non è mai esistito. Quando Gemini ha dato una risposta errata e l’ho corretta e gli ho fornito un suggerimento più vicino alla risposta - o semplicemente gli ho dato la risposta - solo per fargliela ripetere come se fosse una nuova ipotesi, è stato l’altro bug coerente che ho incontrato. Quando ciò accadeva, chiudevo la sessione e ne iniziavo una nuova, il che non era sempre utile.
Una tecnica che ho scoperto è stata che alcune discussioni erano più efficaci di altre. Se esaminavo l’elenco delle conversazioni di Gemini, toccavo una vecchia chat che aveva corretto un particolare oggetto e poi tornavo di nuovo in diretta da quella chat, sarebbe stato in grado di identificare gli oggetti senza problemi. Sebbene ciò non sia sempre inaspettato, è stato interessante notare che alcuni dialoghi funzionavano meglio di altri, anche quando si utilizzava lo stesso linguaggio.
Google non ha risposto alle mie richieste di maggiori informazioni su come funziona Gemini Live.
Volevo che Gemini rispondesse con successo alle mie domande impegnative, a volte molto specifiche, quindi ho offerto molti suggerimenti per aiutarlo a farlo. Le spinte si sono rivelate utili, ma non sempre.
Una tecnologia trasformativa: l’impatto potenziale di Gemini Live
Gemini Live rappresenta un cambio di paradigma nel modo in cui interagiamo con l’ambiente circostante, fondendo perfettamente i regni digitali e fisici attraverso l’obiettivo delle nostre fotocamere. Sebbene la tecnologia sia ancora nelle sue prime fasi, le sue potenziali applicazioni sono vaste e trasformative.
Immagina di utilizzare Gemini Live per:
- Navigare in ambienti sconosciuti: Punta semplicemente la fotocamera su segnali stradali o punti di riferimento e Gemini fornirà indicazioni e informazioni in tempo reale.
- Imparare a conoscere manufatti storici: Durante la visita a un museo, usa Gemini per identificare e fornire contesto per opere d’arte e oggetti storici.
- Cucinare ricette complesse: Chiedi a Gemini di guidarti attraverso ogni passaggio di una ricetta, identificando gli ingredienti e suggerendo tecniche alternative.
- Diagnosticare semplici problemi domestici: Punta la fotocamera verso un elettrodomestico difettoso e Gemini fornirà suggerimenti per la risoluzione dei problemi e potenziali soluzioni.
Questi sono solo alcuni esempi delle innumerevoli forme in cui Gemini Live può migliorare la nostra vita quotidiana. Man mano che la tecnologia continua a evolvere e migliorare, il suo potenziale per rivoluzionare il modo in cui interagiamo con il mondo che ci circonda è davvero illimitato.
L’integrazione di Gemini Live nei dispositivi iOS amplia ulteriormente la sua portata e accessibilità, portando la potenza della visione basata sull’AI a un pubblico più ampio. Man mano che la tecnologia AI continua ad avanzare a un ritmo esponenziale, funzionalità come Gemini Live offrono uno sguardo a un futuro in cui i nostri dispositivi non sono solo strumenti per la comunicazione e l’intrattenimento, ma anche compagni intelligenti che possono aiutarci a navigare, comprendere e interagire con il mondo che ci circonda in modi nuovi e significativi.