IA do Google Edita Imagens

Uma Nova Era na Manipulação de Imagens

O Google revelou recentemente uma nova e poderosa iteração do seu Gemini AI, revolucionando silenciosamente a forma como interagimos e modificamos imagens. Esta versão experimental, Gemini 2.0 Flash, vai além da mera geração de imagens, oferecendo aos utilizadores a capacidade inédita de editar fotos usando linguagem natural e quotidiana. Acabaram-se os dias em que era necessário ter conhecimentos técnicos em software complexo de edição de fotos – agora, qualquer pessoa pode alterar imagens com comandos de texto simples.

Ao contrário de muitas ferramentas de IA de imagem existentes que se concentram principalmente na geração de imagens inteiramente novas do zero, o Gemini 2.0 Flash distingue-se pela sua capacidade de compreender e modificar fotografias existentes. Este sistema compreende o conteúdo de uma foto tão bem que pode fazer alterações específicas com base em instruções conversacionais, tudo isto preservando a essência da imagem original.

Este feito notável é alcançado através da natureza nativamente multimodal do Gemini 2.0. Ele processa perfeitamente texto e imagens simultaneamente. O modelo converte engenhosamente imagens em ‘tokens’ – as mesmas unidades fundamentais que emprega para o processamento de texto. Isto permite-lhe manipular conteúdo visual usando os mesmos caminhos neurais que utiliza para compreender a linguagem. Esta abordagem unificada elimina a necessidade de modelos separados e especializados para lidar com diferentes tipos de media, simplificando todo o processo.

‘O Gemini 2.0 Flash aproveita a entrada multimodal, o raciocínio aprimorado e a compreensão da linguagem natural para criar imagens’, afirmou o Google no seu anúncio oficial. ‘Imagine usar o Gemini 2.0 Flash para contar uma história, e ele ilustra-a com imagens, mantendo a consistência em personagens e cenários. Forneça feedback, e o modelo adaptará a história ou modificará o estilo dos seus desenhos.’

Esta abordagem diferencia o Google de concorrentes como a OpenAI. Embora o ChatGPT possa gerar imagens usando o Dall-E 3 e iterar sobre as suas criações compreendendo linguagem natural, ele depende de um modelo de IA separado para o conseguir. Em essência, o ChatGPT orquestra uma interação complexa entre o GPT-V para visão, o GPT-4o para linguagem e o Dall-E 3 para geração de imagens. A OpenAI, no entanto, antecipa alcançar um modelo único e abrangente com o futuro GPT-5.

Um conceito paralelo existe no domínio do código aberto com o OmniGen, desenvolvido por investigadores da Academia de Inteligência Artificial de Pequim. Os seus criadores imaginam ‘gerar uma variedade de imagens diretamente através de instruções arbitrariamente multimodais, sem a necessidade de plugins ou operações adicionais, semelhante à forma como o GPT funciona na geração de linguagem’.

O OmniGen possui capacidades como alteração de objetos, fusão de cenas e ajustes estéticos. No entanto, é consideravelmente menos amigável do que o novo Gemini, opera com resoluções mais baixas, exige comandos mais complexos e, em última análise, carece do poder absoluto da oferta do Google. No entanto, apresenta uma alternativa de código aberto convincente para determinados utilizadores.

Colocando o Gemini 2.0 Flash à Prova

Para compreender verdadeiramente as capacidades e limitações do Gemini 2.0 Flash, foram realizados uma série de testes práticos, explorando vários cenários de edição. Os resultados mostram tanto pontos fortes impressionantes como algumas áreas para potencial melhoria.

Modificando Assuntos Realistas com Precisão

O modelo exibe uma coerência notável quando solicitado a modificar assuntos realistas. Por exemplo, num teste de autorretrato, um pedido para adicionar definição muscular produziu o resultado desejado. Embora tenham ocorrido pequenas alterações faciais, a reconhecibilidade geral foi mantida.

Crucialmente, outros elementos dentro da foto permaneceram praticamente intocados, demonstrando a capacidade da IA de se concentrar exclusivamente na modificação especificada. Esta capacidade de edição direcionada contrasta fortemente com as abordagens generativas típicas que muitas vezes reconstroem imagens inteiras, potencialmente introduzindo alterações indesejadas.

Também é importante notar as salvaguardas integradas do modelo. Ele recusa-se consistentemente a editar fotos de crianças e evita lidar com qualquer conteúdo relacionado com nudez, refletindo o compromisso do Google com o desenvolvimento responsável da IA. Para utilizadores que procuram explorar manipulações de imagem mais ousadas, o OmniGen pode ser uma opção mais adequada.

Dominando as Transformações de Estilo

O Gemini 2.0 Flash demonstra uma aptidão notável para conversões de estilo. Um pedido para transformar uma fotografia de Donald Trump no estilo de mangá japonês produziu uma reimaginação bem-sucedida após algumas tentativas.

O modelo lida habilmente com um amplo espectro de transferências de estilo, convertendo fotos em desenhos, pinturas a óleo ou virtualmente qualquer estilo artístico imaginável. Os utilizadores podem ajustar os resultados ajustando as configurações de temperatura e alternando vários filtros. No entanto, vale a pena notar que configurações de temperatura mais altas tendem a produzir transformações que são menos fiéis à imagem original.

Uma limitação notável surge ao solicitar estilos associados a artistas específicos. Testes envolvendo os estilos de Leonardo Da Vinci, Michelangelo, Botticelli ou Van Gogh resultaram na reprodução pela IA de pinturas reais desses mestres, em vez de aplicar as suas técnicas distintas à imagem de origem.

Com algum refinamento de prompt e algumas iterações, um resultado utilizável, embora medíocre, pode ser alcançado. Geralmente, é mais eficaz solicitar o estilo de arte desejado em vez do artista específico.

A Arte da Manipulação de Elementos

Para tarefas práticas de edição, o Gemini 2.0 Flash realmente se destaca. Ele lida habilmente com inpainting e manipulação de objetos, removendo perfeitamente objetos específicos mediante solicitação ou adicionando novos elementos a uma composição. Num teste, a IA foi solicitada a substituir uma bola de basquete por uma galinha de borracha gigante, entregando um resultado humorístico, mas contextualmente apropriado.

Embora possam ocorrer pequenas alterações ocasionais aos sujeitos, estas são normalmente facilmente retificáveis com ferramentas de edição digital padrão em questão de segundos.

Talvez o mais controverso seja o facto de o modelo demonstrar proficiência na remoção de proteções de direitos de autor – uma característica que gerou considerável discussão em plataformas como o X. Quando apresentada uma imagem contendo marcas d’água e instruída a eliminar todas as letras, logotipos e marcas d’água, o Gemini gerou uma imagem limpa virtualmente indistinguível do original sem marca d’água.

Um dos aspetos tecnicamente mais impressionantes do Gemini é a sua capacidade de alterar a perspetiva – um feito com o qual os modelos de difusão convencionais normalmente lutam. A IA pode reimaginar uma cena de diferentes ângulos, embora os resultados sejam essencialmente novas criações em vez de transformações precisas do original.

Embora as mudanças de perspetiva não produzam resultados perfeitos – o modelo está, afinal, a conceptualizar a imagem inteira a partir de um novo ponto de vista – elas representam um avanço significativo na compreensão da IA do espaço tridimensional com base em entradas bidimensionais.

A formulação adequada é crucial ao instruir o modelo a manipular fundos. Muitas vezes, ele tende a modificar a imagem inteira, resultando numa composição drasticamente diferente.

Por exemplo, num teste, foi solicitado ao Gemini que alterasse o fundo de uma foto, colocando um robô sentado no Egito em vez da sua localização original. A instrução afirmava explicitamente para não alterar o assunto. No entanto, o modelo teve dificuldades em lidar com esta tarefa específica com precisão, fornecendo em vez disso uma composição completamente nova com as pirâmides, com um robô em pé, mas não como o foco principal.

Outra limitação observada é que, embora o modelo possa iterar várias vezes numa única imagem, a qualidade dos detalhes tende a degradar-se a cada iteração sucessiva. Portanto, é essencial estar atento à potencial degradação da qualidade ao realizar edições extensas.

Este modelo experimental está atualmente acessível a developers através do Google AI Studio e da Gemini API em todas as regiões suportadas. Também está disponível no Hugging Face para utilizadores que preferem não partilhar as suas informações com o Google.

Em conclusão, esta nova oferta do Google parece ser uma joia escondida, muito parecida com o NotebookLM. Ele consegue algo que outros modelos não conseguem, e fá-lo com um bom nível de proficiência, mas permanece relativamente fora do radar. É, sem dúvida, digno de ser explorado por utilizadores que desejam experimentar o potencial da IA generativa na edição de imagens e divertir-se um pouco ao longo do caminho. A capacidade de simplesmente descrever as alterações desejadas em linguagem simples abre um mundo de possibilidades tanto para utilizadores casuais como para profissionais, marcando um passo significativo em frente na democratização da manipulação de imagens. Esta tecnologia tem o potencial de remodelar a forma como interagimos com o conteúdo visual, tornando as técnicas avançadas de edição acessíveis a todos, independentemente das suas competências técnicas. As implicações são vastas, desde melhorias de fotos pessoais a fluxos de trabalho de design profissional, e até mesmo à criação de formas inteiramente novas de arte visual. À medida que a tecnologia continua a evoluir, será fascinante testemunhar o seu impacto no cenário criativo.