A chegada do modo câmera do Gemini Live marca um passo significativo na evolução da inteligência artificial, trazendo uma amostra tangível do futuro diretamente para a ponta dos nossos dedos. Enquanto os primeiros utilizadores com dispositivos Pixel 9 e Samsung Galaxy S25 têm desfrutado desta funcionalidade inovadora há algum tempo, o recente anúncio da Google na sua conferência I/O expande o acesso a um público muito mais vasto, abrangendo utilizadores de Android e iOS. Este desenvolvimento é particularmente emocionante para os proprietários de iPhone, que agora podem experimentar uma das funcionalidades de IA mais atraentes atualmente disponíveis, especialmente considerando que o modo câmera foi inicialmente lançado para outros utilizadores de Android em abril.
Desvendando o Poder da Visão: Como o Modo Câmara do Gemini Funciona
No seu cerne, o modo câmara do Gemini Live concede à IA a capacidade de “ver”, permitindo-lhe reconhecer e identificar objetos colocados dentro do campo de visão da câmara. Isto não é meramente um truque superficial; é uma ferramenta poderosa que permite aos utilizadores interagir com o seu ambiente de uma forma mais intuitiva e informativa.
Além do simples reconhecimento de objetos, o Gemini também pode responder a perguntas sobre os itens identificados, fornecendo contexto e informações a pedido. Além disso, os utilizadores podem partilhar o seu ecrã com o Gemini, permitindo que a IA analise e identifique elementos exibidos no ecrã do seu telefone. Para iniciar uma sessão ao vivo com o modo câmara, os utilizadores simplesmente ativam a visualização da câmara ao vivo, permitindo-lhes participar numa conversa com o chatbot sobre qualquer coisa que a câmara capture.
Primeiras Impressões: Um Test Drive com o Gemini Live
Durante a minha fase inicial de testes com o Gemini Live num Pixel 9 Pro XL, fiquei completamente impressionado com as suas capacidades. Uma experiência particularmente memorável envolveu pedir ao Gemini para localizar as minhas tesouras perdidas.
A IA respondeu com notável precisão: “Acabei de ver as suas tesouras na mesa, mesmo ao lado da embalagem verde de pistácios. Consegue vê-las?”
Para minha surpresa, o Gemini estava correto. As tesouras estavam exatamente onde indicou, apesar do facto de eu ter apenas passado brevemente a câmara em frente a elas durante uma sessão ao vivo de 15 minutos onde eu estava essencialmente a dar ao chatbot de IA um tour pelo meu apartamento.
Intrigado com este sucesso inicial, explorei avidamente o modo câmara mais a fundo. Num outro teste mais extenso, ativei a funcionalidade e comecei a caminhar pelo meu apartamento, pedindo ao Gemini para identificar os objetos que via. Reconheceu com precisão vários itens, incluindo fruta, protetor labial e outros objetos do dia a dia. A redescoberta das minhas tesouras, no entanto, permaneceu a demonstração mais marcante das suas capacidades.
O facto de o Gemini ter identificado as tesouras sem qualquer solicitação prévia foi particularmente impressionante. A IA tinha-as reconhecido silenciosamente em algum momento durante a sessão e recordou com precisão a sua localização com notável precisão. Esta experiência pareceu verdadeiramente um vislumbre do futuro, levando-me a conduzir mais investigações sobre o seu potencial.
Inspirando-se: A Visão da Google para a IA de Vídeo ao Vivo
A minha experimentação com a funcionalidade de câmara do Gemini Live espelhou a demonstração apresentada pela Google no verão anterior, que ofereceu um primeiro olhar sobre estas capacidades de IA de vídeo ao vivo. A demonstração apresentava o Gemini a lembrar ao utilizador onde tinha deixado os seus óculos, um feito aparentemente bom demais para ser verdade. No entanto, como descobri, este nível de precisão era de facto alcançável.
O Gemini Live é capaz de reconhecer muito mais do que apenas itens domésticos. A Google afirma que pode ajudar os utilizadores a navegar em estações de comboios cheias de gente ou a identificar os recheios em pastelarias. Também pode fornecer informações mais profundas sobre obras de arte, como a sua origem e se é uma peça de edição limitada.
Esta funcionalidade vai além da de um Google Lens normal. Pode ter uma conversa com a IA, que é muito mais conversacional do que o Google Assistant.
A Google também lançou um vídeo no YouTube demonstrando a funcionalidade, e agora tem a sua própria página na Google Store.
Para começar, inicie o Gemini, ligue a câmara e comece a falar.
O Gemini Live baseia-se no Project Astra da Google, que foi inicialmente apresentado no ano passado e é talvez a maior funcionalidade “estamos no futuro” da empresa, um próximo passo experimental para as capacidades de IA generativa, além de simplesmente digitar ou mesmo falar prompts num chatbot como ChatGPT, Claude ou Gemini.
As empresas de IA estão continuamente a melhorar as capacidades das ferramentas de IA, desde a criação de vídeo ao poder de processamento básico. O Visual Intelligence da Apple, que o fabricante do iPhone lançou em versão beta no ano passado, é comparável ao Gemini Live.
O Gemini Live tem o potencial de revolucionar a forma como nos conectamos com o ambiente, combinando os nossos ambientes digital e físico enquanto simplesmente seguramos a câmara em frente a qualquer coisa.
Colocando o Gemini Live à Prova: Cenários do Mundo Real
A primeira vez que o usei, o Gemini reconheceu com precisão um colecionável de jogos muito específico de um coelho de pelúcia na vista da minha câmara. A segunda vez, mostrei-o a um amigo numa galeria de arte. Reconheceu imediatamente a tartaruga numa cruz (não me perguntem) e identificou e traduziu o kanji mesmo ao lado, dando-nos ambos arrepios e deixando-nos um pouco assustados. De uma forma positiva, acredito.
Comecei a considerar como poderia testar a função ao limite. Quando tentei gravar o ecrã em ação, falhou consistentemente. E se me desviasse do caminho habitual? Sou um grande fã do género de terror (filmes, séries de televisão e videojogos) e possuo uma infinidade de colecionáveis, bugigangas e outros itens. Quão bem se desempenharia com itens mais obscuros, como os meus colecionáveis com tema de terror?
Primeiro, devo afirmar que o Gemini pode ser inacreditavelmente incrível e incrivelmente irritante na mesma ronda de perguntas. Tinha cerca de 11 objetos que queria que o Gemini identificasse, e quanto mais longa fosse a sessão ao vivo, pior ficava, então tive de limitar as sessões a um ou dois objetos. Na minha opinião, o Gemini tentou usar informações contextuais de itens previamente reconhecidos para adivinhar novos, o que faz sentido até certo ponto, mas acabou por não beneficiar nem a mim nem a ele.
Às vezes, o Gemini era bastante preciso, fornecendo as respostas corretas facilmente e sem confusão, embora isso acontecesse com mais frequência com objetos mais recentes ou populares. Fiquei surpreendido, por exemplo, quando deduziu imediatamente que um dos meus objetos de teste não era apenas do Destiny 2, mas também uma edição limitada de um evento sazonal do ano anterior.
O Gemini frequentemente estaria completamente errado, exigindo que eu fornecesse mais pistas para chegar perto da resposta correta. Às vezes, parecia que o Gemini estava a utilizar o contexto das minhas sessões ao vivo anteriores para gerar respostas, identificando vários objetos como vindos de Silent Hill quando não eram. Tenho uma vitrine dedicada à série de jogos, então posso entender por que ele gostaria de mergulhar nessa área rapidamente.
Revelando Imperfeições: Bugs e Peculiaridades no Sistema
O Gemini pode ficar completamente bugado às vezes. Ocasionalmente, o Gemini identificou incorretamente um dos objetos como um personagem fictício do jogo Silent Hill: f não lançado, combinando claramente partes de diferentes títulos em algo que nunca existiu. Quando o Gemini dava uma resposta incorreta, e eu corrigia e dava uma dica mais próxima da resposta—ou simplesmente dava a resposta—apenas para tê-lo a repetir a resposta incorreta como se fosse um novo palpite, foi o outro bug consistente que encontrei. Quando isso acontecia, fechava a sessão e começava uma nova, o que nem sempre era útil.
Uma técnica que descobri foi que algumas discussões eram mais eficazes do que outras. Se eu percorresse a minha lista de conversas do Gemini, tocasse num antigo chat que tinha acertado um determinado item, e então voltasse a ficar ao vivo a partir desse chat, ele seria capaz de identificar os itens sem problemas. Embora isso nem sempre seja inesperado, foi intrigante notar que certos diálogos se desempenhavam melhor do que outros, mesmo quando usando a mesma linguagem.
A Google não respondeu às minhas perguntas para obter informações adicionais sobre como o Gemini Live funciona.
Eu queria que o Gemini respondesse com sucesso às minhas perguntas desafiantes, às vezes altamente específicas, então ofereci muitas dicas para ajudá-lo a fazê-lo. Os empurrões provaram ser úteis, mas nem sempre.
Uma Tecnologia Transformadora: O Potencial Impacto do Gemini Live
O Gemini Live representa uma mudança de paradigma na forma como interagimos com o nosso ambiente, combinando perfeitamente os reinos digital e físico através da lente das nossas câmaras. Embora a tecnologia ainda esteja nos seus estágios iniciais, as suas potenciais aplicações são vastas e transformadoras.
Imagine usar o Gemini Live para:
- Navegar em ambientes desconhecidos: Simplesmente aponte a sua câmara para sinais de rua ou pontos de referência, e o Gemini fornecerá direções e informações em tempo real.
- Aprender sobre artefactos históricos: Ao visitar um museu, use o Gemini para identificar e fornecer contexto para obras de arte e objetos históricos.
- Cozinhar receitas complexas: Peça ao Gemini para o guiar por cada passo de uma receita, identificando ingredientes e sugerindo técnicas alternativas.
- Diagnosticar problemas domésticos simples: Aponte a sua câmara para um aparelho com mau funcionamento, e o Gemini fornecerá dicas de solução de problemas e potenciais soluções.
Estes são apenas alguns exemplos das miríades de formas nas quais o Gemini Live pode melhorar as nossas vidas diárias. À medida que a tecnologia continua a evoluir e a melhorar, o seu potencial para revolucionar a forma como interagimos com o mundo ao nosso redor é verdadeiramente ilimitado.
A integração do Gemini Live em dispositivos iOS expande ainda mais o seu alcance e acessibilidade, trazendo o poder da visão alimentada por IA para um público mais amplo. À medida que a tecnologia de IA continua a avançar a um ritmo exponencial, funcionalidades como o Gemini Live oferecem um vislumbre de um futuro onde os nossos dispositivos não são apenas ferramentas para comunicação e entretenimento, mas também companheiros inteligentes que podem ajudar-nos a navegar, entender e interagir com o mundo ao nosso redor de formas novas e significativas.