A Escala e o Escopo do GPT-4.5
O GPT-4.5 representa o empreendimento mais ambicioso da OpenAI até o momento em termos de tamanho. Embora os detalhes precisos sobre sua arquitetura e dados de treinamento permaneçam escassos, sabe-se que o processo de treinamento foi tão intensivo em termos computacionais que necessitou de distribuição em vários data centers. Isso por si só sugere os recursos monumentais investidos em seu desenvolvimento.
A estrutura de preços do modelo ressalta ainda mais seu posicionamento como uma oferta premium. Os custos são significativamente mais altos do que os de seus predecessores, excedendo o GPT-4o em um fator de 15-30X, o o1 em 3-5X e o Claude 3.7 Sonnet em 10-25X. O acesso é atualmente restrito a assinantes do ChatGPT Pro (por um valor considerável de US$ 200 por mês) e clientes de API dispostos a pagar por token.
No entanto, os ganhos de desempenho, pelo menos em algumas áreas, não corresponderam ao preço. Os benchmarks iniciais revelaram apenas melhorias modestas em relação ao GPT-4o e até mostraram o GPT-4.5 ficando atrás de modelos como o1 e o3-mini em tarefas de raciocínio.
Entendendo o Propósito Pretendido do GPT-4.5
É crucial reconhecer que a OpenAI nunca comercializou explicitamente o GPT-4.5 como seu modelo principal e multifuncional. Na verdade, as primeiras versões de sua postagem no blog esclareceram que não pretendia ser um ‘modelo de fronteira’ ultrapassando os limites absolutos da capacidade. Além disso, ele não foi projetado principalmente como um modelo de raciocínio, tornando comparações diretas com modelos otimizados para esse propósito (como o3 e DeepSeek-R1) um tanto enganosas.
A OpenAI indicou que o GPT-4.5 será seu último modelo non-chain-of-thought. Isso significa que seu treinamento se concentrou fortemente na incorporação de grandes quantidades de conhecimento mundial e no alinhamento com as preferências do usuário, em vez de desenvolver habilidades complexas de raciocínio.
Onde o GPT-4.5 Pode Brilhar: Conhecimento e Nuances
A principal vantagem de modelos maiores geralmente reside em sua capacidade expandida de aquisição de conhecimento. O GPT-4.5, de acordo com esse princípio, demonstra uma tendência reduzida a alucinar em comparação com seus equivalentes menores. Isso o torna potencialmente valioso em cenários onde a estrita adesão a fatos e informações contextuais é fundamental.
Além disso, o GPT-4.5 exibe uma capacidade aprimorada de seguir as instruções e preferências do usuário. Isso foi demonstrado em várias demonstrações da OpenAI e corroborado por experiências de usuários compartilhadas online. O modelo parece compreender as nuances da intenção do usuário de forma mais eficaz, levando a resultados mais personalizados e relevantes.
O Debate sobre a Qualidade da Prosa: Subjetividade e Potencial
Uma discussão animada surgiu sobre a capacidade do GPT-4.5 de gerar prosa superior. Alguns executivos da OpenAI elogiaram a qualidade da produção do modelo, com o CEO Sam Altman até sugerindo que interagir com ele proporcionou um vislumbre de ‘AGI’ (Artificial General Intelligence) para alguns testadores exigentes.
No entanto, a reação mais ampla foi decididamente mista. O cofundador da OpenAI, Andrej Karpathy, antecipou melhorias em tarefas menos dependentes de raciocínio puro, enfatizando áreas como ‘EQ’ (inteligência emocional), criatividade, criação de analogias e humor – aspectos frequentemente limitados pelo conhecimento do mundo e compreensão geral.
Curiosamente, uma pesquisa subsequente conduzida por Karpathy revelou uma preferência geral do usuário pelas respostas do GPT-4o em relação às do GPT-4.5 em termos de qualidade de escrita. Isso destaca a subjetividade inerente à avaliação da prosa e sugere que a engenharia de prompt habilidosa pode obter qualidade comparável de modelos menores e mais eficientes.
O próprio Karpathy reconheceu a ambiguidade dos resultados, sugerindo várias explicações possíveis: os testadores de ‘alto gosto’ podem estar percebendo melhorias estruturais sutis que outros não perceberam, os exemplos testados podem não ter sido ideais ou as diferenças podem simplesmente ser sutis demais para discernir em um tamanho de amostra pequeno.
Os Limites da Escala e o Futuro dos LLMs
O lançamento do GPT-4.5, em alguns aspectos, ressalta as limitações potenciais de simplesmente aumentar a escala de modelos treinados em conjuntos de dados massivos. Ilya Sutskever, outro cofundador da OpenAI e ex-cientista-chefe, afirmou em NeurIPS 2024 que ‘o pré-treinamento como o conhecemos terminará inquestionavelmente… Atingimos o pico de dados e não haverá mais. Temos que lidar com os dados que temos. Só existe uma internet’.
Os retornos decrescentes observados com o GPT-4.5 servem como um testemunho dos desafios de escalar modelos de propósito geral treinados principalmente em dados da internet e ajustados para alinhamento por meio de aprendizado por reforço com feedback humano (RLHF).
A próxima fronteira para grandes modelos de linguagem parece ser a escala em tempo de teste (ou escala em tempo de inferência). Isso envolve treinar modelos para ‘pensar’ por uma duração mais longa, gerando tokens chain-of-thought (CoT). A escala em tempo de teste aprimora a capacidade de um modelo de lidar com problemas complexos de raciocínio e tem sido um fator chave no sucesso de modelos como o1 e R1.
Não é um Fracasso, mas uma Fundação
Embora o GPT-4.5 possa não ser a escolha ideal para todas as tarefas, é crucial reconhecer seu papel potencial como um elemento fundamental para avanços futuros. Uma base de conhecimento robusta é essencial para o desenvolvimento de modelos de raciocínio mais sofisticados.
Mesmo que o próprio GPT-4.5 não se torne o modelo preferido para a maioria das aplicações, ele pode servir como um bloco de construção crucial para modelos de raciocínio subsequentes. É até plausível que já esteja sendo utilizado em modelos como o o3.
Como Mark Chen, Diretor de Pesquisa da OpenAI, explicou: ‘Você precisa de conhecimento para construir o raciocínio em cima. Um modelo não pode entrar às cegas e apenas aprender o raciocínio do zero. Portanto, consideramos esses dois paradigmas bastante complementares e achamos que eles têm loops de feedback um no outro’.
O desenvolvimento do GPT-4.5, portanto, não representa um beco sem saída, mas um passo estratégico na evolução contínua dos grandes modelos de linguagem. É uma prova da natureza iterativa da pesquisa em IA, onde cada passo, mesmo que aparentemente decepcionante isoladamente, contribui para o progresso mais amplo em direção a sistemas de IA mais capazes e versáteis. O foco agora está mudando para alavancar essa forte base de conhecimento para construir modelos que podem não apenas relembrar informações, mas também raciocinar e resolver problemas com eficácia sem precedentes. A jornada em direção à IA verdadeiramente inteligente continua, e o GPT-4.5, apesar de sua recepção mista, desempenha um papel significativo nessa jornada.
O foco agora não é apenas em quanto um modelo sabe, mas em quão bem ele pode usar esse conhecimento. Este é o desafio central com o qual a comunidade de IA está lidando, e o GPT-4.5, embora não seja uma solução perfeita, fornece insights valiosos e uma base sólida para avanços futuros. O caminho a seguir envolve uma combinação de abordagens: refinar as técnicas existentes, explorar novas arquiteturas e desenvolver métodos mais sofisticados para treinamento e avaliação. O objetivo final permanece o mesmo: criar sistemas de IA que possam não apenas entender e gerar linguagem humana, mas também raciocinar, aprender e se adaptar de maneiras que antes eram consideradas domínio exclusivo da inteligência humana.