Google Gemini: Panoramica IA

Svelando Gemini: La Famiglia AI di Nuova Generazione di Google

Gemini è l’ambiziosa incursione di Google nella prossima generazione di modelli AI. Sviluppato attraverso gli sforzi collaborativi di DeepMind e Google Research, i principali laboratori di ricerca sull’intelligenza artificiale di Google, Gemini non è un’entità monolitica, ma piuttosto una famiglia di modelli, ciascuno adattato per compiti specifici e livelli di prestazioni. Questa famiglia comprende:

  • Gemini Ultra: Il peso massimo della famiglia, progettato per compiti altamente complessi che richiedono una notevole potenza di calcolo. (Attualmente non disponibile)
  • Gemini Pro: Un modello robusto, più piccolo di Ultra, ma in grado di gestire una vasta gamma di attività. Gemini 2.0 Pro, l’ultima iterazione, è attualmente il fiore all’occhiello di Google.
  • Gemini Flash: Una versione semplificata e “distillata” di Pro, che privilegia velocità ed efficienza.
  • Gemini Flash-Lite: Una versione leggermente ridotta e più rapida di Gemini Flash.
  • Gemini Flash Thinking: Un modello che mostra capacità di “ragionamento”.
  • Gemini Nano: Composto da due modelli compatti, Nano-1 e il leggermente più potente Nano-2, progettati per il funzionamento offline sui dispositivi.

Una caratteristica distintiva di tutti i modelli Gemini è la loro multimodalità intrinseca. A differenza dei modelli addestrati esclusivamente su dati di testo, come LaMDA di Google, i modelli Gemini sono abili nell’elaborare e analizzare diversi tipi di dati. Sono stati addestrati su un vasto set di dati che comprende audio, immagini, video, codebase e testo in più lingue, sia pubblici che proprietari e concessi in licenza.

Questa natura multimodale consente a Gemini di trascendere i limiti dei modelli solo testuali. Mentre LaMDA è limitato all’input e all’output basati su testo, i modelli Gemini, in particolare le versioni più recenti di Flash e Pro, possono generare nativamente immagini e audio insieme al testo.

Tuttavia, le implicazioni etiche e legali dell’addestramento di modelli AI su dati disponibili pubblicamente, spesso senza il consenso esplicito dei proprietari dei dati, rimangono una questione complessa. Sebbene Google offra una polizza di indennizzo AI per proteggere determinati clienti Google Cloud da potenziali cause legali, questa polizza ha delle limitazioni. Gli utenti, in particolare quelli che intendono utilizzare Gemini per scopi commerciali, dovrebbero prestare attenzione.

App Gemini vs. Modelli Gemini: Comprendere la Distinzione

È fondamentale distinguere tra i modelli Gemini e le app Gemini disponibili su piattaforme web e mobili (precedentemente note come Bard).

Le app Gemini funzionano come client, collegandosi a vari modelli Gemini e presentando un’interfaccia user-friendly, simile a un chatbot. Servono come front-end per interagire con le capacità di intelligenza artificiale generativa di Google.

Sui dispositivi Android, l’app Gemini sostituisce l’app Google Assistant. Su iOS, le app Google e Google Search fungono da client Gemini.

Gli utenti Android possono richiamare una sovrapposizione Gemini per porre domande sui contenuti visualizzati sullo schermo, come un video di YouTube. Questa sovrapposizione viene attivata premendo e tenendo premuto il pulsante di accensione di uno smartphone supportato o utilizzando il comando vocale “Hey Google”.

Le app Gemini sono versatili e accettano immagini, comandi vocali e testo come input. Possono elaborare file come PDF, caricati direttamente o importati da Google Drive, e generare immagini. Le conversazioni avviate con le app Gemini su dispositivi mobili si sincronizzano perfettamente con Gemini sul Web, a condizione che l’utente abbia effettuato l’accesso allo stesso account Google.

Gemini Advanced: Sbloccare Funzionalità AI Premium

Le app Gemini non sono l’unica porta d’accesso per sfruttare la potenza dei modelli Gemini. Google sta progressivamente integrando funzionalità basate su Gemini nelle sue applicazioni e servizi principali, tra cui Gmail e Google Docs.

Per sfruttare appieno queste capacità, gli utenti in genere richiedono il piano Google One AI Premium. Questo piano, tecnicamente un componente di Google One, costa $ 20 al mese e garantisce l’accesso a Gemini all’interno delle applicazioni Google Workspace come Docs, Maps, Slides, Sheets, Drive e Meet. Sblocca anche “Gemini Advanced”, fornendo l’accesso ai modelli Gemini più sofisticati di Google all’interno delle app Gemini.

Gli utenti di Gemini Advanced godono di vantaggi aggiuntivi, come l’accesso prioritario a nuove funzionalità e modelli, la possibilità di eseguire e modificare codice Python direttamente all’interno di Gemini e limiti estesi per NotebookLM, lo strumento di Google per trasformare i PDF in podcast generati dall’intelligenza artificiale. Una recente aggiunta a Gemini Advanced è una funzione di memoria che memorizza le preferenze dell’utente e consente a Gemini di fare riferimento a conversazioni passate, fornendo contesto per le interazioni correnti.

Una delle funzionalità più interessanti esclusive di Gemini Advanced è “Deep Research”. Questa funzionalità sfrutta i modelli Gemini con capacità di ragionamento avanzate per generare brief dettagliati. In risposta a un prompt, come “Come dovrei riprogettare la mia cucina?”, Deep Research formula un piano di ricerca in più fasi, perlustra il Web e compila una risposta completa.

All’interno di Gmail, Gemini risiede in un pannello laterale, in grado di comporre e-mail e riassumere thread di messaggi. Un pannello simile appare in Docs, assistendo nella scrittura, nel perfezionamento e nel brainstorming dei contenuti. In Slides, Gemini genera diapositive e immagini personalizzate. In Google Sheets, aiuta nel monitoraggio, nell’organizzazione e nella creazione di formule dei dati.

La presenza di Gemini si estende a Google Maps, dove aggrega recensioni sulle attività commerciali locali e offre consigli, come suggerimenti di itinerari per visitare una città straniera. Le capacità del chatbot comprendono anche Drive, dove può riassumere file e cartelle e fornire informazioni concise sui progetti.

Gemini è stato recentemente integrato nel browser Chrome di Google come strumento di scrittura AI. Questo strumento può essere utilizzato per creare contenuti completamente nuovi o riscrivere testo esistente, tenendo conto del contesto della pagina Web corrente per fornire consigli personalizzati.

Oltre a queste applicazioni principali, tracce di Gemini si possono trovare nei prodotti di database di Google, negli strumenti di sicurezza cloud e nelle piattaforme di sviluppo di app (inclusi Firebase e Project IDX). Alimenta anche funzionalità in app come Google Foto (query di ricerca in linguaggio naturale), YouTube (brainstorming di idee video) e Meet (traduzione di didascalie).

Code Assist (precedentemente Duet AI for Developers), la suite di strumenti basati sull’intelligenza artificiale di Google per il completamento e la generazione di codice, si affida a Gemini per attività ad alta intensità di calcolo. Allo stesso modo, i prodotti di sicurezza di Google, come Gemini in Threat Intelligence, utilizzano Gemini per analizzare codice potenzialmente dannoso e facilitare le ricerche in linguaggio naturale di minacce e indicatori di compromissione.

Estensioni e Gemme di Gemini: Personalizzare l’Esperienza AI

Gli utenti di Gemini Advanced hanno la possibilità di creare “Gemme”, chatbot personalizzati basati su modelli Gemini, accessibili sia su desktop che su piattaforme mobili. Le gemme possono essere generate da descrizioni in linguaggio naturale, come “Sei il mio allenatore di corsa. Dammi un piano di corsa giornaliero”, e possono essere condivise con altri utenti o mantenute private.

Le app Gemini possono integrarsi con vari servizi Google tramite “estensioni Gemini”. Queste estensioni consentono a Gemini di interagire con Drive, Gmail, YouTube e altri servizi, consentendogli di rispondere a domande come “Potresti riassumere le mie ultime tre e-mail?”.

Gemini Live: Impegnarsi in Conversazioni Vocali Approfondite

“Gemini Live” offre un’esperienza immersiva, consentendo agli utenti di impegnarsi in conversazioni vocali dettagliate con Gemini. Questa funzionalità è disponibile all’interno delle app Gemini sui dispositivi mobili e sui Pixel Buds Pro 2, dove è possibile accedervi anche quando il telefono è bloccato.

Con Gemini Live, gli utenti possono interrompere Gemini mentre parla per porre domande chiarificatrici e il chatbot si adatta ai modelli di discorso in tempo reale. Live è anche progettato per funzionare come un coach virtuale, assistendo nella preparazione di eventi, brainstorming e altre attività. Ad esempio, Live può suggerire competenze da evidenziare durante un colloquio di lavoro e fornire suggerimenti per parlare in pubblico.

Gemini per Adolescenti: Un’Esperienza AI su Misura per gli Studenti

Google offre un’esperienza Gemini specializzata su misura per gli studenti adolescenti.

Questa versione di Gemini incentrata sugli adolescenti incorpora “politiche e salvaguardie aggiuntive”, tra cui un processo di onboarding personalizzato e una guida all’alfabetizzazione AI. A parte queste modifiche, assomiglia molto all’esperienza Gemini standard, inclusa la funzione “double-check” che verifica l’accuratezza delle risposte di Gemini facendo riferimento incrociato alle informazioni sul Web.

Esplorare le Capacità dei Modelli Gemini

La natura multimodale dei modelli Gemini consente loro di eseguire una vasta gamma di attività, dalla trascrizione vocale alla didascalia di immagini e video in tempo reale. Molte di queste capacità sono già state incorporate nei prodotti Google, con ulteriori progressi promessi nel prossimo futuro.

Tuttavia, è importante riconoscere che Google, come i suoi concorrenti, non ha completamente affrontato alcune delle sfide intrinseche associate alla tecnologia AI generativa, come i pregiudizi codificati e la tendenza a fabbricare informazioni (allucinazioni). Queste limitazioni dovrebbero essere considerate quando si valuta l’uso di Gemini, in particolare per applicazioni critiche.

La Potenza di Gemini Pro

Google afferma che il suo ultimo modello Pro, Gemini 2.0 Pro, rappresenta la sua offerta più avanzata per la codifica e la gestione di prompt complessi. 2.0 Pro supera il suo predecessore, Gemini 1.5 Pro, nei benchmark che valutano la programmazione, il ragionamento, la matematica e l’accuratezza fattuale.

All’interno della piattaforma Vertex AI di Google, gli sviluppatori possono personalizzare Gemini Pro per contesti e casi d’uso specifici tramite la messa a punto o il “grounding”. Ad esempio, a Pro (insieme ad altri modelli Gemini) può essere indicato di utilizzare dati di fornitori di terze parti come Moody’s, Thomson Reuters, ZoomInfo e MSCI, o di reperire informazioni da set di dati aziendali o da Google Search invece che dalla sua base di conoscenza più ampia. Gemini Pro può anche essere collegato a API esterne di terze parti per eseguire azioni specifiche, come l’automazione dei flussi di lavoro di back-office.

La piattaforma AI Studio di Google fornisce modelli per la creazione di prompt di chat strutturati con Pro. Gli sviluppatori possono controllare la gamma creativa del modello, fornire esempi per guidare il tono e lo stile e mettere a punto le impostazioni di sicurezza di Pro.

Gemini Flash: Efficienza Leggera e le Capacità di Ragionamento di Gemini Flash Thinking

Gemini 2.0 Flash è in grado di utilizzare la ricerca Google e altre API esterne. Anche se è più piccolo, supera alcuni dei modelli 1.5 più grandi nei benchmark che misurano la codifica e l’analisi delle immagini. Come derivato di Gemini Pro, Flash è progettato per l’efficienza, mirando a compiti di intelligenza artificiale generativa ristretti e ad alta frequenza.

Google evidenzia l’idoneità di Flash per applicazioni come il riepilogo, le applicazioni di chat, la didascalia di immagini e video e l’estrazione di dati da documenti e tabelle di grandi dimensioni. Nel frattempo, Gemini 2.0 Flash-Lite, un’iterazione più compatta di Flash, supera Gemini 1.5 Flash in termini di prestazioni mantenendo lo stesso prezzo e velocità, secondo Google.

Nel dicembre dell’anno precedente, Google ha introdotto una variante “pensante” di Gemini 2.0 Flash, dotata di capacità di “ragionamento”. Questo modello AI impiega alcuni secondi per ripercorrere a ritroso un problema prima di fornire una risposta, migliorando potenzialmente la sua affidabilità.

Gemini Nano: Potenza AI On-Device

Gemini Nano è una versione straordinariamente compatta di Gemini, progettata per funzionare direttamente su dispositivi compatibili, eliminando la necessità di inviare attività a un server remoto. Attualmente, Nano alimenta diverse funzionalità su Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24, tra cui Summarize in Recorder e Smart Reply in Gboard.

L’app Recorder, che consente agli utenti di registrare e trascrivere l’audio, incorpora una funzione di riepilogo basata su Gemini per conversazioni registrate, interviste, presentazioni e altri frammenti audio. Questi riepiloghi vengono generati anche senza una connessione di rete e, nell’interesse della privacy, nessun dato lascia il dispositivo dell’utente durante il processo.

Nano trova posto anche in Gboard, la sostituzione della tastiera di Google, dove alimenta Smart Reply. Questa funzione suggerisce risposte nelle app di messaggistica come WhatsApp, semplificando le conversazioni.

Una futura iterazione di Android è prevista per sfruttare Nano per avvisare gli utenti di potenziali truffe durante le telefonate. La nuova app meteo sui telefoni Pixel utilizza Gemini Nano per generare bollettini meteorologici personalizzati. Inoltre, TalkBack, il servizio di accessibilità di Google, utilizza Nano per creare descrizioni sonore di oggetti per utenti con disabilità visive.

Gemini Ultra: In Attesa del Suo Ritorno

Gemini Ultra è stato relativamente assente dai riflettori negli ultimi mesi. Il modello non è attualmente disponibile all’interno delle app Gemini, né è elencato nella pagina dei prezzi dell’API Gemini di Google. Tuttavia, ciò non preclude la possibilità che Google reintroduca Ultra in futuro.

Struttura dei Prezzi per i Modelli Gemini

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite sono accessibili tramite l’API Gemini di Google per lo sviluppo di applicazioni e servizi. Funzionano in base al consumo. Il prezzo base, esclusi i componenti aggiuntivi, al 22 febbraio 2025, è il seguente:

  • Gemini 1.5 Pro: $ 1,25 per 1 milione di token di input (per prompt fino a 128K token) o $ 2,50 per 1 milione di token di input (per prompt più lunghi di 128K token); $ 5 per 1 milione di token di output (per prompt fino a 128K token) o $ 10 per 1 milione di token di output (per prompt più lunghi di 128K token)
  • Gemini 1.5 Flash: 7,5 centesimi per 1 milione di token di input (per prompt fino a 128K token), 15 centesimi per 1 milione di token di input (per prompt più lunghi di 128K token), 30 centesimi per 1 milione di token di output (per prompt fino a 128K token), 60 centesimi per 1 milione di token di output (per prompt più lunghi di 128K token)
  • Gemini 2.0 Flash: 10 centesimi per 1 milione di token di input, 40 centesimi per 1 milione di token di output. Per l’audio, 70 centesimi per 1 milione di token di input.
  • Gemini 2.0 Flash-Lite: 7,5 centesimi per 1 milione di token di input, 30 centesimi per 1 milione di token di output.

I token rappresentano unità suddivise di dati grezzi, come le sillabe “fan”, “tas” e “tic” nella parola “fantastic”. Un milione di token equivale all’incirca a 750.000 parole. “Input” si riferisce ai token immessi nel modello, mentre “output” indica i token generati dal modello.

I prezzi per 2.0 Pro devono ancora essere annunciati e Nano rimane in accesso anticipato.

Il Potenziale Arrivo di Gemini su iPhone

La prospettiva dell’integrazione di Gemini con gli iPhone è una possibilità concreta.

Apple ha indicato di essere impegnata in discussioni per utilizzare potenzialmente Gemini e altri modelli di terze parti per varie funzionalità all’interno della sua suite Apple Intelligence. A seguito di una presentazione al WWDC 2024, il vicepresidente senior di Apple Craig Federighi ha confermato i piani di collaborazione con modelli, tra cui Gemini, ma si è astenuto dal divulgare ulteriori dettagli.