Google Gemini: IA Generativa

Desvendando o Gemini: A Família de IA de Próxima Geração do Google

Gemini é a ambiciosa incursão do Google na próxima geração de modelos de IA. Desenvolvido através dos esforços colaborativos do DeepMind e do Google Research, os principais laboratórios de pesquisa de IA do Google, o Gemini não é uma entidade monolítica, mas sim uma família de modelos, cada um adaptado para tarefas e níveis de desempenho específicos. Esta família inclui:

  • Gemini Ultra: O peso-pesado da família, projetado para tarefas altamente complexas que exigem poder computacional substancial. (Atualmente indisponível)
  • Gemini Pro: Um modelo robusto, menor que o Ultra, mas capaz de lidar com uma ampla gama de tarefas. O Gemini 2.0 Pro, a iteração mais recente, é atualmente o carro-chefe do Google.
  • Gemini Flash: Uma versão simplificada e “destilada” do Pro, priorizando velocidade e eficiência.
  • Gemini Flash-Lite: Uma versão ligeiramente reduzida e mais rápida do Gemini Flash.
  • Gemini Flash Thinking: Um modelo que apresenta habilidades de “raciocínio”.
  • Gemini Nano: Compreendendo dois modelos compactos, Nano-1 e o ligeiramente mais potente Nano-2, projetados para operação offline em dispositivos.

Uma característica definidora de todos os modelos Gemini é a sua multimodalidade inerente. Ao contrário dos modelos treinados apenas em dados de texto, como o LaMDA do Google, os modelos Gemini são adeptos do processamento e análise de diversos tipos de dados. Eles foram treinados em um vasto conjunto de dados que abrange áudio, imagens, vídeos, bases de código e texto em vários idiomas, tanto públicos, proprietários como licenciados.

Essa natureza multimodal permite que o Gemini transcenda as limitações dos modelos apenas de texto. Enquanto o LaMDA está confinado à entrada e saída baseadas em texto, os modelos Gemini, particularmente as versões mais recentes do Flash e Pro, podem gerar nativamente imagens e áudio juntamente com o texto.

No entanto, as implicações éticas e legais do treinamento de modelos de IA em dados publicamente disponíveis, muitas vezes sem o consentimento explícito dos proprietários dos dados, continuam a ser uma questão complexa. Embora o Google ofereça uma política de indenização de IA para proteger certos clientes do Google Cloud de potenciais ações judiciais, essa política tem limitações. Os utilizadores, especialmente aqueles que pretendem utilizar o Gemini para fins comerciais, devem ter cautela.

Aplicações Gemini vs. Modelos Gemini: Compreendendo a Distinção

É crucial diferenciar entre os modelos Gemini e as aplicações Gemini disponíveis nas plataformas web e móvel (anteriormente conhecidas como Bard).

As aplicações Gemini funcionam como clientes, conectando-se a vários modelos Gemini e apresentando uma interface amigável, semelhante a um chatbot. Eles servem como front-end para interagir com os recursos de IA generativa do Google.

Em dispositivos Android, a aplicação Gemini substitui a aplicação Google Assistant. No iOS, as aplicações Google e Google Search atuam como clientes Gemini.

Os utilizadores do Android podem invocar uma sobreposição Gemini para fazer perguntas sobre o conteúdo exibido no ecrã, como um vídeo do YouTube. Essa sobreposição é acionada pressionando e segurando o botão liga/desliga de um smartphone compatível ou usando o comando de voz “Hey Google”.

As aplicações Gemini são versáteis, aceitando imagens, comandos de voz e texto como entrada. Eles podem processar arquivos como PDFs, carregados diretamente ou importados do Google Drive, e gerar imagens. As conversas iniciadas com aplicações Gemini no telemóvel sincronizam-se perfeitamente com o Gemini na web, desde que o utilizador esteja conectado à mesma Conta Google.

Gemini Advanced: Desbloqueando Recursos Premium de IA

As aplicações Gemini não são a única porta de entrada para aproveitar o poder dos modelos Gemini. O Google está progressivamente a integrar recursos baseados no Gemini nas suas principais aplicações e serviços, incluindo o Gmail e o Google Docs.

Para aproveitar ao máximo esses recursos, os utilizadores normalmente precisam do Plano Google One AI Premium. Este plano, tecnicamente um componente do Google One, custa US$ 20 por mês e concede acesso ao Gemini em aplicações do Google Workspace, como Docs, Maps, Slides, Sheets, Drive e Meet. Ele também desbloqueia o “Gemini Advanced”, fornecendo acesso aos modelos Gemini mais sofisticados do Google nas aplicações Gemini.

Os utilizadores do Gemini Advanced desfrutam de benefícios adicionais, como acesso prioritário a novos recursos e modelos, a capacidade de executar e modificar código Python diretamente no Gemini e limites expandidos para o NotebookLM, a ferramenta do Google para transformar PDFs em podcasts gerados por IA. Uma adição recente ao Gemini Advanced é um recurso de memória que armazena as preferências do utilizador e permite que o Gemini faça referência a conversas anteriores, fornecendo contexto para as interações atuais.

Um dos recursos mais interessantes exclusivos do Gemini Advanced é o “Deep Research”. Este recurso aproveita os modelos Gemini com recursos de raciocínio aprimorados para gerar resumos detalhados. Em resposta a um prompt, como “Como devo redesenhar a minha cozinha?”, o Deep Research formula um plano de pesquisa em várias etapas, pesquisa na web e compila uma resposta abrangente.

No Gmail, o Gemini reside num painel lateral, capaz de redigir e-mails e resumir tópicos de mensagens. Um painel semelhante aparece no Docs, auxiliando na escrita, refinamento e brainstorming de conteúdo. No Slides, o Gemini gera slides e imagens personalizadas. No Google Sheets, ele auxilia no rastreamento, organização e criação de fórmulas de dados.

A presença do Gemini estende-se ao Google Maps, onde agrega avaliações sobre empresas locais e oferece recomendações, como sugestões de itinerários para visitar uma cidade estrangeira. Os recursos do chatbot também abrangem o Drive, onde ele pode resumir arquivos e pastas e fornecer informações concisas sobre projetos.

O Gemini foi recentemente integrado ao navegador Chrome do Google como uma ferramenta de escrita de IA. Essa ferramenta pode ser usada para criar conteúdo totalmente novo ou reescrever texto existente, levando em consideração o contexto da página da web atual para fornecer recomendações personalizadas.

Além dessas aplicações principais, vestígios do Gemini podem ser encontrados nos produtos de banco de dados do Google, ferramentas de segurança na nuvem e plataformas de desenvolvimento de aplicações (incluindo Firebase e Project IDX). Ele também alimenta recursos em aplicações como Google Fotos (consultas de pesquisa em linguagem natural), YouTube (brainstorming de ideias de vídeo) e Meet (tradução de legendas).

O Code Assist (anteriormente Duet AI for Developers), o conjunto de ferramentas baseadas em IA do Google para conclusão e geração de código, depende do Gemini para tarefas computacionalmente intensivas. Da mesma forma, os produtos de segurança do Google, como o Gemini in Threat Intelligence, utilizam o Gemini para analisar código potencialmente malicioso e facilitar pesquisas em linguagem natural por ameaças e indicadores de comprometimento.

Extensões e Gems do Gemini: Adaptando a Experiência de IA

Os utilizadores do Gemini Advanced têm a capacidade de criar “Gems”, chatbots personalizados com tecnologia de modelos Gemini, acessíveis em plataformas desktop e móveis. Os Gems podem ser gerados a partir de descrições em linguagem natural, como “Você é meu treinador de corrida. Dê-me um plano de corrida diário”, e podem ser compartilhados com outros utilizadores ou mantidos privados.

As aplicações Gemini podem integrar-se com vários serviços Google através de “extensões Gemini”. Essas extensões permitem que o Gemini interaja com o Drive, Gmail, YouTube e outros serviços, permitindo que ele responda a perguntas como “Poderia resumir meus últimos três e-mails?”.

Gemini Live: Envolvendo-se em Conversas de Voz Detalhadas

O “Gemini Live” oferece uma experiência imersiva, permitindo que os utilizadores participem de conversas de voz detalhadas com o Gemini. Este recurso está disponível nas aplicações Gemini em dispositivos móveis e no Pixel Buds Pro 2, onde pode ser acessado mesmo quando o telefone está bloqueado.

Com o Gemini Live, os utilizadores podem interromper o Gemini enquanto ele fala para fazer perguntas esclarecedoras, e o chatbot adapta-se aos padrões de fala em tempo real. O Live também foi projetado para funcionar como um treinador virtual, auxiliando na preparação de eventos, brainstorming e outras tarefas. Por exemplo, o Live pode sugerir habilidades a serem destacadas durante uma entrevista de emprego e fornecer dicas para falar em público.

Gemini para Adolescentes: Uma Experiência de IA Personalizada para Estudantes

O Google oferece uma experiência Gemini especializada, adaptada para estudantes adolescentes.

Esta versão do Gemini focada em adolescentes incorpora “políticas e salvaguardas adicionais”, incluindo um processo de integração personalizado e um guia de alfabetização em IA. Além dessas modificações, ele se assemelha muito à experiência padrão do Gemini, incluindo o recurso de “verificação dupla” que verifica a precisão das respostas do Gemini fazendo referência cruzada de informações na web.

Explorando as Capacidades dos Modelos Gemini

A natureza multimodal dos modelos Gemini permite que eles executem uma ampla gama de tarefas, desde a transcrição de fala até legendagem de imagens e vídeos em tempo real. Muitos desses recursos já foram incorporados aos produtos do Google, com mais avanços prometidos para um futuro próximo.

No entanto, é importante reconhecer que o Google, como os seus concorrentes, não abordou totalmente alguns dos desafios inerentes associados à tecnologia de IA generativa, como vieses codificados e a tendência de fabricar informações (alucinações). Essas limitações devem ser consideradas ao avaliar o uso do Gemini, principalmente para aplicações críticas.

A Proeza do Gemini Pro

O Google afirma que seu modelo Pro mais recente, o Gemini 2.0 Pro, representa sua oferta mais avançada para codificação e tratamento de prompts complexos. O 2.0 Pro supera seu antecessor, o Gemini 1.5 Pro, em benchmarks que avaliam programação, raciocínio, matemática e precisão factual.

Na plataforma Vertex AI do Google, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos por meio de ajuste fino ou “grounding”. Por exemplo, o Pro (junto com outros modelos Gemini) pode ser instruído a utilizar dados de provedores terceirizados como Moody’s, Thomson Reuters, ZoomInfo e MSCI, ou a obter informações de conjuntos de dados corporativos ou da Pesquisa Google em vez de sua base de conhecimento mais ampla. O Gemini Pro também pode ser conectado a APIs externas de terceiros para executar ações específicas, como automatizar fluxos de trabalho de back-office.

A plataforma AI Studio do Google fornece modelos para criar prompts de chat estruturados com o Pro. Os desenvolvedores podem controlar a gama criativa do modelo, fornecer exemplos para orientar o tom e o estilo e ajustar as configurações de segurança do Pro.

Gemini Flash: Eficiência Leve e Habilidades de Raciocínio do Gemini Flash Thinking

O Gemini 2.0 Flash é capaz de usar a pesquisa do Google e outras APIs externas. Mesmo sendo menor, ele supera alguns dos modelos 1.5 maiores em benchmarks que medem codificação e análise de imagem. Como um derivado do Gemini Pro, o Flash foi projetado para eficiência, visando tarefas de IA generativas estreitas e de alta frequência.

O Google destaca a adequação do Flash para aplicações como resumo, aplicações de chat, legendagem de imagens e vídeos e extração de dados de documentos e tabelas longas. Enquanto isso, o Gemini 2.0 Flash-Lite, uma iteração mais compacta do Flash, supera o Gemini 1.5 Flash em desempenho, mantendo o mesmo preço e velocidade, de acordo com o Google.

Em dezembro do ano anterior, o Google introduziu uma variante “pensante” do Gemini 2.0 Flash, dotada de capacidades de “raciocínio”. Este modelo de IA leva alguns segundos para retroceder num problema antes de fornecer uma resposta, potencialmente aumentando a sua fiabilidade.

Gemini Nano: Poder de IA no Dispositivo

O Gemini Nano é uma versão notavelmente compacta do Gemini, projetada para operar diretamente em dispositivos compatíveis, eliminando a necessidade de enviar tarefas para um servidor remoto. Atualmente, o Nano alimenta vários recursos no Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24, incluindo Resumir no Gravador e Resposta Inteligente no Gboard.

A aplicação Gravador, que permite aos utilizadores gravar e transcrever áudio, incorpora um recurso de resumo baseado no Gemini para conversas gravadas, entrevistas, apresentações e outros trechos de áudio. Esses resumos são gerados mesmo sem uma conexão de rede e, em prol da privacidade, nenhum dado sai do dispositivo do utilizador durante o processo.

O Nano também encontra seu lugar no Gboard, a substituição de teclado do Google, onde alimenta o Smart Reply. Este recurso sugere respostas em aplicações de mensagens como o WhatsApp, simplificando as conversas.

Uma iteração futura do Android está programada para aproveitar o Nano para alertar os utilizadores sobre possíveis golpes durante chamadas telefónicas. A nova aplicação de meteorologia nos telefones Pixel utiliza o Gemini Nano para gerar relatórios meteorológicos personalizados. Além disso, o TalkBack, o serviço de acessibilidade do Google, emprega o Nano para criar descrições auditivas de objetos para utilizadores com deficiência visual.

Gemini Ultra: Aguardando seu Retorno

O Gemini Ultra tem estado relativamente ausente dos holofotes nos últimos meses. O modelo não está atualmente disponível nas aplicações Gemini, nem está listado na página de preços da API Gemini do Google. No entanto, isso não impede a possibilidade de o Google reintroduzir o Ultra no futuro.

Estrutura de Preços para os Modelos Gemini

O Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite são acessíveis através da API Gemini do Google para desenvolvimento de aplicações e serviços. Eles operam com base no pagamento conforme o uso. O preço base, excluindo complementos, a partir de 22 de fevereiro de 2025, é o seguinte:

  • Gemini 1.5 Pro: US$ 1,25 por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens) ou US$ 2,50 por 1 milhão de tokens de entrada (para prompts com mais de 128 mil tokens); US$ 5 por 1 milhão de tokens de saída (para prompts de até 128 mil tokens) ou US$ 10 por 1 milhão de tokens de saída (para prompts com mais de 128 mil tokens)
  • Gemini 1.5 Flash: 7,5 cêntimos por 1 milhão de tokens de entrada (para prompts de até 128 mil tokens), 15 cêntimos por 1 milhão de tokens de entrada (para prompts com mais de 128 mil tokens), 30 cêntimos por 1 milhão de tokens de saída (para prompts de até 128 mil tokens), 60 cêntimos por 1 milhão de tokens de saída (para prompts com mais de 128 mil tokens)
  • Gemini 2.0 Flash: 10 cêntimos por 1 milhão de tokens de entrada, 40 cêntimos por 1 milhão de tokens de saída. Para áudio, 70 cêntimos por 1 milhão de tokens de entrada.
  • Gemini 2.0 Flash-Lite: 7,5 cêntimos por 1 milhão de tokens de entrada, 30 cêntimos por 1 milhão de tokens de saída.

Os tokens representam unidades subdivididas de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”. Um milhão de tokens equivale a aproximadamente 750.000 palavras. “Entrada” refere-se a tokens alimentados no modelo, enquanto “saída” denota tokens gerados pelo modelo.

O preço do 2.0 Pro ainda não foi anunciado e o Nano permanece em acesso antecipado.

A Potencial Chegada do Gemini ao iPhone

A perspetiva da integração do Gemini com iPhones é uma possibilidade distinta.

A Apple indicou que está envolvida em discussões para potencialmente utilizar o Gemini e outros modelos de terceiros para vários recursos dentro do seu conjunto Apple Intelligence. Após uma apresentação no WWDC 2024, o vice-presidente sênior da Apple, Craig Federighi, confirmou os planos de colaborar com modelos, incluindo o Gemini, mas absteve-se de divulgar mais detalhes.