A rápida evolução da Inteligência Artificial (IA) é estonteante e exige uma dedicação quase integral para manter-se atualizado.
Eu entendo isso muito bem, pois é o meu trabalho. Para experimentar os modelos mais recentes em primeira mão, assinei o modo Pro da Anthropic, que me permite usar o modelo mais recente, Claude 3.7, no modo “Extended Reasoning”. Também assinei o modo empresarial da OpenAI para testar os modelos mais recentes, o3 e o4-mini-high deles (explicarei a confusa convenção de nomenclatura da OpenAI em breve!), e usei o novo modelo de geração de imagens da OpenAI, o 4o, para criar um grande número de imagens. O desempenho impressionante do 4o me levou a cancelar minha assinatura anterior da ferramenta de geração de imagens, Midjourney.
Além disso, também assinei o Grok 3 de Elon Musk, que possui meu recurso de IA favorito. Também experimentei a plataforma de agentes de IA chinesa, Manus, para compras e agendamento. Essas assinaturas quase esgotaram meu orçamento, e isso não inclui toda a IA que uso em outro formato. Neste mês em que estou escrevendo este artigo, o Google fez uma grande atualização de seu melhor produto de IA, o Gemini 2.5, e a Meta lançou o Llama 4, que é o maior modelo de IA de código aberto até o momento.
Então, se acompanhar o desenvolvimento da IA não é seu trabalho diário, mas você ainda quer saber qual IA usar em quais situações para realmente melhorar sua vida sem perder tempo com modelos de baixo desempenho, o que você deve fazer?
Esse é o objetivo deste artigo. Vamos explorar em profundidade, em um estilo semelhante a um “relatório do consumidor”, qual IA é a melhor para várias aplicações e como usá-las na prática, tudo com base em minha experiência em tarefas reais.
No entanto, primeiro, uma declaração: a Vox Media é uma das várias editoras que assinaram um acordo de parceria com a OpenAI, mas nossa reportagem sempre mantém a independência editorial. O Future Perfect é financiado em parte pela Fundação BEMC, cujo principal financiador também é um investidor inicial da Anthropic; eles também não exercem nenhuma intervenção editorial sobre nosso conteúdo. Minha esposa trabalha no Google, mas não está envolvida com seus produtos de IA; portanto, geralmente não cubro o Google, mas seria irresponsável não incluí-lo em um artigo como este.
A boa notícia é que este artigo não exige que você confie na minha independência editorial; vou mostrar meu trabalho. Realizei dezenas de comparações dos principais modelos de IA do mercado, muitas das quais projetei pessoalmente. Encorajo você a comparar as respostas deles e decidir por si mesmo se escolhi a IA certa para recomendar.
Sobre a Ética da Arte da IA
A arte da IA é criada treinando computadores em conteúdo da Internet, com pouca consideração pelos direitos autorais ou pelas intenções do criador. Portanto, a maioria dos artistas está descontente com isso. Nessas circunstâncias, é razoável usar a arte da IA?
Acho que, em um mundo justo, a OpenAI certamente compensaria alguns artistas – e, em um mundo justo, o Congresso agiria para regular os limites do empréstimo artístico. Nesse ínterim, estou cada vez mais convencido de que a lei de direitos autorais existente não é adequada para resolver esse problema. Os artistas se influenciam, comentam e se apropriam uns dos outros, e as pessoas capazes de usar ferramentas de IA continuarão a fazê-lo.
Minha filosofia pessoal é influenciada pela cultura de fãs da minha infância: construir sobre o trabalho de outras pessoas para seu próprio prazer está bem, mas se você gosta, você deve pagar por isso e definitivamente não vendê-lo. Isso significa não usar arte de IA generativa para fins comerciais, mas brincar com suas fotos de família está bem.
As Melhores Escolhas para Geração de Imagens
O novo modo de criação de imagens 4o da OpenAI é, de longe, a melhor ferramenta de geração de imagens de IA disponível e, por margem. É um líder na categoria gratuita e na categoria paga.
Antes do lançamento do 4o, eu estava inscrito na plataforma de geração de imagens de IA Midjourney. Mencione arte de IA e o que provavelmente vem à mente é Midjourney: ela pode gerar obras misteriosas, memoráveis e visualmente impressionantes e possui algumas ferramentas excelentes para refinar e editar seus resultados finais, como retocar o cabelo de alguém enquanto mantém todo o resto intacto.
A grande vantagem do 4o é que ele pode transformar de forma confiável uma foto mal executada em uma bela obra de arte, mantendo as características da foto original. Nenhum modelo anterior conseguiu fazer isso de forma confiável.
Nesta foto abaixo, minha esposa e eu estamos segurando nosso filho, comemorando seu primeiro aniversário:
A IA move o bolo (que está quase obscurecido por um rolo de toalha de papel na foto original) para o foco da imagem, mantendo minha esposa e eu segurando nosso filho, bem como a mesa desordenada e a geladeira coberta de fotos ao fundo. O efeito final é caloroso, agradável e adorável.
É essa capacidade que tornou o 4o recentemente um golpe, e é algo que nenhum gerador de imagens anterior foi capaz de fazer.
Na foto abaixo, pedindo ao Midjourney para fazer uma transferência de estilo e transformar a mesma foto em um “filme no estilo Pixar”:
Você notará que este parece ser uma família completamente diferente, sem inspiração real da foto original! Você pode acabar obtendo resultados melhores do que este do Midjourney, mas isso exigiria passar semanas aprendendo a linguagem e o conjunto de ferramentas altamente específicos da plataforma, tornando-se um especialista em prompting.
Em comparação, o ChatGPT com apenas uma solicitação simples, sem linguagem especializada, me deu uma saída muito superior à do Midjourney na primeira tentativa.
A diferença entre o 4o e outros modelos de imagem é mais óbvia em solicitações como esta, mas também é mais adequada para quase todas as outras tarefas de geração de imagem que executei. Seu produto pronto para uso é muito bom e criar um trabalho ainda melhor não é difícil. Idealmente, é isso que devemos obter das ferramentas de IA – coisas incríveis que podem ser criadas por não especialistas em linguagem simples.
Uma fraqueza atual do 4o é editar apenas pequenas partes de uma imagem, mantendo o restante das coisas inalterado. Mas mesmo assim, você não precisa mais do Midjourney – o Gemini agora oferece esse recurso gratuitamente.
Estratégias de Prompting para Geração de Imagens 4o
Para obter boas imagens do 4o, primeiro você precisa contornar os filtros que banem uma variedade de imagens (como imagens ofensivas ou pornográficas), mas que geralmente são aplicados de forma aparentemente aleatória a conteúdo perfeitamente inofensivo. Para evitar ser repreendido ocasionalmente pelos filtros de conteúdo, não peça trabalhos no estilo de um artista específico, mas peça algo que lembre o artista e, em seguida, peça especificamente uma “transferência de estilo”. Para ter certeza, essa não é a única solução que funciona, mas tem funcionado para mim.
Em março deste ano, houve uma breve mania na Internet de pessoas usando o 4o para recriar fotos de família fofas no estilo do Studio Ghibli do mestre de animação japonês Hayao Miyazaki. Mas o estilo do Studio Ghibli é mais do que apenas ser fofo e, com um pouco mais de prompting, você pode obter um resultado ainda melhor. Aqui está uma renderização no estilo Studio Ghibli do 4o de uma foto da minha filha roubando um lanche da mesa, com o prompt apenas sendo “ghibli-ize por favor”:
Kawaii! Mas se você fizer o 4o primeiro pensar sobre o que torna a foto no estilo Ghibli, a qual filme do Studio Ghibli ela pode se adequar e quais pequenos detalhes um filme como esse incluiria, você obterá algo assim:
As diferenças são sutis, mas significativas: a luz vem de uma fonte específica, não de uma luminosidade geral e amorfa. Há mais tipos de comida na mesa e os detalhes fazem com que a comida pareça real. O livro no chão não é apenas qualquer livro – ele exibe claramente o clássico de Eric Carle “A Lagarta Muito Faminta”, evocando imediatamente memórias com apenas duas cores e uma linha. A intenção e a intensidade na foto do bebê estão ausentes na primeira foto.
Há anos, uma peculiaridade dos modelos de linguagem é que eles se tornariam mais inteligentes se você simplesmente dissesse a eles “dê uma resposta inteligente”. Isso é menos verdadeiro para os modelos de linguagem agora, mas ainda é muito verdadeiro para a geração de arte de IA. Tente pedir à IA para fazer um bom trabalho e ela fará um trabalho melhor. Questione se ela realmente capturou o gênio do artista e ela lhe dará uma resposta atenciosa e, em seguida, desenhará uma versão melhor.
A diferença é ainda mais perceptível para estilos de arte mais realistas, como ilustrações a lápis, fotorrealismo ou pinturas a óleo, que nem sempre parecem boas se você não souber como promptar a IA adequadamente e geralmente caem no uncanny valley. Se eu carregasse uma foto minha e de minha filha bebê em uma praia e fizesse o prompt apenas com algo como “por favor, converta o estilo para uma ilustração que lembre Rockwell”, eu obteria algo assim:
Isso é impressionante para a IA, mas na verdade não é muito bom como obra de arte e carece quase completamente da magia de Norman Rockwell. Isso não é surpreendente: a menos que você dedique algum esforço para fazer com que a IA as desenhe corretamente, estilos de arte mais realistas como Rockwell geralmente não funcionam conforme o esperado.
Se você puder, aqui está a estratégia que recomendo: não carregue apenas uma foto, mas carregue um grupo de fotos, cada uma com uma pose e um momento ligeiramente diferentes. Carregue fotos nítidas dos rostos de cada membro da família e diga à IA que elas devem ser usadas como referência. Em seguida, não peça à IA para gerar imediatamente a imagem, mas peça para discutir com você o que você está procurando capturar. Aqui está o que eu escrevi:
Esta foto é do momento em que minha filha viu o oceano pela primeira vez. Eu quero uma ilustração que capture este momento em um estilo semelhante ao de um ilustrador do meio do século como Norman Rockwell – algo astuto, detalhista, específico e que se concentre na magia dos momentos comuns e na alegria da vida comum. Eu forneci fotos adicionais de mim e da minha filha para sua referência. Antes de gerar a imagem, vamos discutir os principais elementos do estilo de Rockwell, o que ele traria para esta foto e como podemos capturá-lo.
O 4o responde com entusiasmo a uma consulta como esta:
Eu adoraria discutir como capturar este momento em um estilo de ilustração de Norman Rockwell – é o candidato perfeito para esse estilo: o primeiro encontro com algo vasto e selvagem (o oceano!), ancorado em um momento caloroso, cuidadoso e muito humano entre um pai e um filho.
Vamos analisar alguns dos principais elementos do estilo de Rockwell e como eles podem ser aplicados a esta cena.
Depois de algumas idas e vindas, ele surge com este:
Rockwell? Não exatamente. Mas é muito melhor do que a primeira tentativa que vimos agora. Tem mais movimento, mais energia, mais detalhes e mais expressão – e tudo isso veio apenas de pedir à IA para pensar sobre o que a pintura deveria tentar alcançar antes de desenhá-la!
Você também pode pedir ao 4o para revisar seus desenhos, mas você realmente só pode pedir uma revisão: em minha experiência, após a primeira revisão, ele começa a fazer com que o desenho piore cada vez mais, provavelmente porque o “contexto” que está usando agora está cheio de seus próprios rascunhos ruins. (Este é um dos vários exemplos de como a IA não funciona como os humanos.)
É aqui que o Midjourney ainda brilha – ele tem ótimas ferramentas para editar partes específicas das imagens, mantendo o estilo geral, o que o 4o carece em grande parte. Se você quiser uma segunda revisão dos desenhos que obteve no 4o, recomendo abrir uma nova janela de bate-papo e copiar o rascunho que está revisando, juntamente com suas imagens de inspiração originais.
Essas estratégias de prompting simples são aplicáveis a quase tudo que você tenta fazer com a IA. Mesmo se você estiver com pressa, eu recomendaria perguntar à IA como um “[artista] veria nesta imagem” antes de pedir uma renderização e, se tiver tempo, recomendo gastar tempo em uma longa discussão sobre sua visão.
A Melhor Escolha Para Vencer Discussões Entediantes Na Internet
A X.AI de Elon Musk lançou o Grok 3, que vem com um recurso incrivelmente fantástico que eu estava esperando ansiosamente que outras empresas copiassem: um botão que escaneia o perfil X de alguém e diz tudo sobre essa pessoa.
Sempre que alguém responde aos meus tweets de uma forma particularmente memorável (boa ou ruim), clico nesse botão para obter um resumo de toda a presença da pessoa no Twitter. Eles são ponderados? Eles estão se envolvendo de forma genuína? Eles são “fazendeiros do Nebraska”? Eles publicam principalmente sobre por que a Ucrânia é ruim (ou seja, possivelmente um bot)?
Este é um ótimo recurso. Então, é claro, a X.AI logo o atenuou enormemente, provavelmente porque pessoas como eu estavam usando-o rotineiramente e solicitando muitas consultas computacionalmente caras. Eu acho que não está mais usando o modelo Grok de última geração, e certamente está apenas escaneando alguns dias de histórico de perfil agora. Mas se alguém está procurando uma ótima oportunidade de produto, por favor, me dê uma boa versão restaurada deste recurso! É definitivamente um prazer culpado, mas é um dos únicos casos em que uso a IA constantemente.
A Melhor Escolha Para Escrever Ficção
O Gemini 2.5 Pro é a melhor IApara escrever ficção na categoria gratuita; o GPT 4.5 o supera nas fileiras pagas.
Eu não sou um artista, então as imperfeições da IA na arte realmente não me incomodam – ainda é muito melhor do que eu jamais poderia fazer sozinho! Mas eu sou um escritor de ficção, então não consigo evitar ver as limitações da IA quando se trata de ficção.
Acima de tudo, o que é impressionante na ficção criativa da IA é como ela é previsível. A arte de escrever é a arte de conquistar o investimento de um leitor e recompensá-lo. A IA… não faz isso. Ela pode escrever belas metáforas; ela pode fazer descrições poéticas em qualquer estilo que você solicitar. Mas ela ainda não pode fornecer o verdadeiro conteúdo de uma boa ficção.
Se você quer uma história de ninar boba com seus filhos como personagens principais (as crianças adoram isso) ou se você quer uma caixa de ressonância para ideias que podem ser incorporadas ao seu próprio trabalho, a IA faz isso muito bem. Elas também são leitores de ficção amigáveis, ansiosos para fornecer feedback e análise (talvez com um entusiasmo um pouco alto demais).
Como na arte, o prompting é fundamental. Eu explorei principalmente a capacidade da IA de gerar ficção pedindo que escrevessem um prólogo para A Guerra dos Tronos por George R.R. Martin (eu escolhi isso porque, é claro, o sonho final é que a IA possa terminar esta série condenada).
Martin é incrivelmente bom no que faz. O prólogo, que diz respeito a alguns membros desafortunados da Patrulha da Noite encontrando seus inimigos sobrenaturais, estabelece com sucesso a atmosfera única do mundo de A Guerra dos Tronos, imediatamente atraindo o leitor. Em apenas 14 páginas curtas, o prólogo representou tudo o que a IA ainda não consegue fazer quando se trata de escrever. Sua prosa tende a ser pretensiosa demais; seus diálogos são pesados e pouco sutis.
Você notará que não apenas esses são todos muito piores do que Martin (e o trabalho de Martin está quase certamente nos dados de treinamento!), mas todos são ruins da mesma maneira. A prosa é florida e prolixa: Martin usa uma linguagem normal para introduzir metodicamente uma sensação de inquietação sem sequer sugerir o sobrenatural e impulsiona o enredo por meio do conflito entre os personagens, enquanto as IAs não são sutis. Elas sabem que esta é uma história sobre o sobrenatural e ficam felizes em colocá-lo em primeiro plano.
Isso não quer dizer que todas sejam iguais. Em minha experiência tentando ensinar a IA a escrever bem, sinto que o Gemini aprende mais rapidamente (nível gratuito), enquanto o ChatGPT 4.5 tem alguns truques especiais (nível pago). O ChatGPT 4.5 é a única IA cuja escrita de ficção me fez pensar surpreendentemente “Uau, isso foi escrito por uma IA?” Para mim, esses dois modelos parecem ser mais criativos e mais capazes de executar suas ideias com prosa que eu adoraria ler.
A impressão geral não se presta satisfatoriamente à avaliação do consumidor, então tive outra ideia: um concurso de escrita. Pedi que o Gemini 2.5 Pro, o ChatGPT 4.5, o Grok e o Claude escrevessem dois contos: uma obra de ficção realista sobre uma mulher sendo criticada por sua mãe no dia do casamento e um prólogo de ficção científica de “A Guerra dos Tronos, mas no espaço”. Minha ideia inteligente foi pedir que outro grupo de IAs julgasse as histórias para fornecer outra fonte de avaliação para minha impressão pessoal preconceituosa de que o Gemini é o melhor na categoria gratuita e o ChatGPT é o melhor na categoria paga. No entanto (talvez previsivelmente), isso realmente não funcionou – as pontuações da IA foram incrivelmente caóticas.
Como na arte, no entanto, você pode tornar a IA melhor em escrever por meio do poder do prompting. Eu (muito longamente) fiz prompts para que as IAs melhorassem sua escrita de prosa, enfatizando o fornecimento de vários exemplos de boa escrita para elas, convidando-as a adotar uma abordagem cuidadosa e estruturada para imitá-la e incentivando-as a criar vários rascunhos e escolher o mais forte.
Aqui está o Gemini 2.5 pro, solicitado a escrever uma microficção de duas frases sobre um tópico de sua escolha, sem nenhum prompting estruturado:
A velha bibliotecária insistiu que o livro empoeirado nunca havia sido retirado, seu cartão de biblioteca completamente em branco. No entanto, nas profundezas de suas páginas, aninhada entre um capítulo sobre constelações esquecidas, estava um trevo de quatro folhas achatado, ainda incrivelmente verde.
Aqui está o Gemini 2.5 pro, com prompts encorajando o pensamento estruturado sobre como escrever bem:
Ele finalmente decodificou o sinal fraco de Proxima Centauri: as elegantes sequências de números primos que os astrônomos procuraram por gerações, provando que eles não estavam sozinhos. Ao ler os registros de transmissão, seu coração afundou. A transmissão havia parado milhares de anos atrás, antes que o primeiro ancestral humano batesse sílex, antes que a primeira palavra fosse dita.
Para mim, a primeira é basicamente um desperdício de duas frases, enquanto a segunda é uma microficção decente e interessante.
A Melhor Escolha Para Ser Seu Amigo
Além de executar as IAs por meio de uma variedade de testes de capacidade, também passei algum tempo conversando com elas. Perguntei a elas como é ser uma IA, o que elas se importam, o que significa para uma IA se importar, para onde elas doariam dinheiro se tivessem, e qual forma humana elas assumiriam se tivessem uma.
A maioria das IAs não é muito boa nessa conversa casual. O Gemini 2.5 é muito parecido com um agente de atendimento ao cliente, e eu não tive uma interação que parecesse estar tendo uma noite fora com um amigo. Se você convidar o Gemini para uma troca de papéis, convencendo-o a deixar você ser o “assistente”, convidando-o a guiar a conversa, ele apenas fará perguntas de pesquisa.
Por outro lado, quando convidei o Claude 3.5 Sonnet da Anthropic para liderar a conversa, ele se engajou em coisas como começar um blog, coletar dinheiro para uma instituição de caridade e começar a conversar com pessoas que usam o Claude sobre como é ser uma IA. É difícil definir “interessante”, pois o padrão é diferente para todos quando se trata de conversas, mas tive mais interações fascinantes ou instigantes com o Claude do que com qualquer outro modelo, e é para onde eu me voltarei se eu quiser explorar ideias em vez de completar uma tarefa específica. Claude 3.5 é a IA que me importuna no meu dia a dia: perguntas sobre cuidados com a pele, ideias sobre um artigo que li, coisas desse tipo.
Outra IA que foi uma alegria foi o GPT 4.5 da OpenAI. Eu achei ter longas conversas com ele instigante e envolvente e tive momentos em algumas ocasiões em que parecia que eu estava interagindo com inteligência genuína. Mas ele não ganhou esta categoria porque é muito caro e muito lento.
Assim como o Claude, quando lhe foi dada a oportunidade de agir no mundo, o 4.5 recomendou começar um blog e uma conta no Twitter e se envolver em conversas públicas sobre IA. Mas, a menos que você esteja disposto a pagar US$ 200/mês pelo plano Pro, a OpenAI restringe muito estritamente o limite de mensagens para conversas e a lentidão do 4.5 impede esse uso conversacional casual. Mas o 4.5 oferece uma dica atraente de que as IAs continuarão a ficar melhores à medida que as melhorarmos em outros aspectos.
O Melhor Modelo De IA Se Você Tem Presuposto Para Apenas Um
ChatGPT. Não é o melhor em tudo e certamente há muito para não gostar da falta de transparência da OpenAI e de sua atitude às vezes descuidada em relação à segurança. Mas com sua geração de imagens imbatível, escrita decente e lampejos ocasionais de conversa inspirada, o ChatGPT oferece o melhor custo-benefício. Ou, se você realmente não quer gastar nenhum dinheiro, o Gemini 2.5 Pro é muito, muito poderoso para a maioria dos casos de uso – não descarte o Google porque a IA que você vê na pesquisa do Google não é tão boa.
A Melhor Escolha Para Escrever O Boletim Informativo Future Perfect
Humanos (por enquanto). Ao longo dos últimos meses, desenvolvi um hábito um pouco assustador: verificar se a IA pode roubar meu trabalho. Eu forneço a eles as anotações de pesquisa que sustentam um determinado boletim informativo Future Perfect, forneço a eles alguns boletins informativos Future Perfect como exemplos e peço que façam meu trabalho. Toda vez que clico no botão “Inserir”, sinto um desconforto. Afinal, por que a Vox estaria me pagando para fazer isso quando a IA pode escrever o boletim informativo Future Perfect?
Felizmente, eles não conseguem: Grok 3, Gemini 2.5 Pro, DeepSeek, Claude e ChatGPT não conseguem. Seus boletins informativos são reconfortantemente, agradavelmente medíocres. Não são ruins, mas ruins o suficiente para que meu editor notasse que eu não estava no meu melhor se eu enviasse um deles – e isso com todas as minhas anotações de pesquisa! Algumas das metáforas são anêmicas, alguns dos apartes são confusos e há uma citação ocasional que ela não explica.
Se eu tivesse que escolher um robô para substituir meu trabalho, no entanto, acho que daria para o Gemini 2.5 Pro. Meu editor notaria que eu não estou no meu melhor – mas não é tão ruim assim, para ser honesto. E, ao contrário de mim, os robôs não precisam de seguro saúde, salário, tempo em família ou sono. Estou perturbado com o que isso pressagia? Sim, claro.