El panorama de los Modelos de Lenguaje Grandes (LLMs) ha sido testigo de una transformación significativa, con Google emergiendo como un jugador prominente mientras Meta y OpenAI enfrentan desafíos notables. Inicialmente, OpenAI dominó el campo con sus innovadores modelos GPT, estableciendo nuevos puntos de referencia para el rendimiento de LLM. Meta también aseguró una posición sustancial al ofrecer modelos de peso abierto que contaban con capacidades impresionantes y permitían el uso, la modificación y el despliegue sin restricciones de su código accesible públicamente.
Sin embargo, este dominio temprano dejó a otros gigantes tecnológicos, incluido Google, jugando a alcanzar. A pesar del documento de investigación fundamental de Google de 2017 sobre la arquitectura del transformador que sustenta los LLM, los esfuerzos iniciales de la compañía se vieron eclipsados por el lanzamiento ampliamente criticado de Bard en 2023.
Recientemente, las tornas han cambiado con la introducción de nuevos LLM potentes de Google, junto con los contratiempos experimentados por Meta y OpenAI. Este cambio ha alterado significativamente la dinámica del panorama de LLM.
Llama 4 de Meta: ¿Un Paso en Falso?
El lanzamiento inesperado de Llama 4 por parte de Meta el sábado 5 de abril levantó cejas en toda la industria.
La decisión de lanzar un modelo importante en un fin de semana se percibió como poco convencional, lo que llevó a una recepción moderada y oscureció el anuncio en medio del flujo de noticias de la semana siguiente.
Si bien Llama 4 posee ciertas fortalezas, incluidas sus capacidades multimodales (manejo de imágenes, audio y otras modalidades) y su disponibilidad en tres versiones (Llama 4 Behemoth, Maverick y Scout) con diferentes tamaños y fortalezas, su lanzamiento se encontró con críticas. La versión Llama 4 Scout, en particular, presentaba una ventana de contexto sustancial de hasta 10 millones de tokens, lo que permite al modelo procesar y generar grandes cantidades de texto en una sola sesión.
Sin embargo, la recepción del modelo se agrió cuando surgieron discrepancias con respecto al enfoque de clasificación de Meta en LMArena, una plataforma que clasifica los LLM según los votos de los usuarios. Se descubrió que el modelo Llama 4 específico utilizado para las clasificaciones difería del que se puso a disposición del público en general. LMArena declaró que Meta proporcionó ‘un modelo personalizado para optimizar la preferencia humana’.
Además, las afirmaciones de Meta con respecto a la ventana de contexto de 10 millones de tokens de Llama 4 Scout se encontraron con escepticismo. A pesar de la precisión técnica de esta cifra, los benchmarks revelaron que Llama 4 estaba por detrás de los modelos de la competencia en el rendimiento de contexto largo.
Añadiendo a las preocupaciones, Meta se abstuvo de lanzar un modelo de ‘razonamiento’ o ‘pensamiento’ de Llama 4 y retuvo variantes máspequeñas, aunque la compañía ha indicado que un modelo de razonamiento está por venir.
Ben Lorica, fundador de la firma de consultoría de IA Gradient Flow, señaló que Meta se desvió de la práctica estándar de un lanzamiento más sistemático, donde todos los componentes están completamente preparados. Esto sugiere que Meta pudo haber estado ansiosa por mostrar un nuevo modelo, incluso si carecía de elementos esenciales como un modelo de razonamiento y versiones más pequeñas.
GPT-4.5 de OpenAI: Una Retirada Prematura
OpenAI también ha enfrentado desafíos en los últimos meses.
GPT-4.5, presentado como una vista previa de investigación el 27 de febrero, fue promocionado como el ‘modelo más grande y mejor de la compañía para chatear hasta ahora’. Los benchmarks de OpenAI indicaron que GPT-4.5 generalmente superaba a su predecesor, GPT-4o.
Sin embargo, la estructura de precios del modelo suscitó críticas. OpenAI fijó el precio de acceso a la API en US$150 por millón de tokens de salida, un asombroso aumento de 15 veces en comparación con el precio de $10 por millón de tokens de GPT-4o. La API permite a los desarrolladores integrar los modelos de OpenAI en sus aplicaciones y servicios.
Alan D. Thompson, consultor y analista de IA en Life Architect, estimó que GPT-4.5 era probablemente el LLM tradicional más grande lanzado durante el primer trimestre de 2025, con aproximadamente 5,4 billones de parámetros. Argumentó que tal escala inmensa es difícil de justificar dadas las limitaciones de hardware actuales y plantea desafíos significativos para atender a una gran base de usuarios.
El 14 de abril, OpenAI anunció su decisión de suspender el acceso a GPT-4.5 a través de la API después de menos de tres meses. Si bien GPT-4.5 seguirá siendo accesible, se limitará a los usuarios de ChatGPT a través de la interfaz de ChatGPT.
Este anuncio coincidió con la introducción de GPT-4.1, un modelo más económico con un precio de $8 por millón de tokens. Los benchmarks de OpenAI indican que GPT-4.1 no es tan capaz como GPT-4.5 en general, aunque exhibe un rendimiento superior en ciertos benchmarks de codificación.
OpenAI también lanzó recientemente nuevos modelos de razonamiento, o3 y o4-mini, con el modelo o3 demostrando un rendimiento de benchmark particularmente fuerte. Sin embargo, el costo sigue siendo una preocupación, ya que el acceso a la API a o3 tiene un precio de $40 por millón de tokens de salida.
Ascenso de Google: Aprovechando la Oportunidad
La recepción mixta de Llama 4 y ChatGPT-4.5 creó una apertura para que los competidores capitalizaran, y han aprovechado la oportunidad.
Es poco probable que el lanzamiento problemático de Llama 4 por parte de Meta disuada a los desarrolladores de adoptar alternativas como DeepSeek-V3, Gemma de Google y Qwen2.5 de Alibaba. Estos LLM, introducidos a finales de 2024, se han convertido en los modelos de peso abierto preferidos en las tablas de clasificación de LMArena y HuggingFace. Rivalizan o superan a Llama 4 en benchmarks populares, ofrecen acceso a la API asequible y, en algunos casos, están disponibles para descargar y usar en hardware de grado de consumidor.
Sin embargo, es el LLM de vanguardia de Google, Gemini 2.5 Pro, el que realmente ha captado la atención.
Lanzado el 25 de marzo, Google Gemini 2.5 Pro es un ‘modelo de pensamiento’ similar a GPT-o1 y DeepSeek-R1, que emplea el auto-prompting para razonar a través de las tareas. Gemini 2.5 Pro es multimodal, presenta una ventana de contexto de un millón de tokens y admite una investigación en profundidad.
Gemini 2.5 ha logrado rápidamente victorias de benchmark, incluido el primer lugar en SimpleBench (aunque cedió esa posición a o3 de OpenAI el 16 de abril) y en el Índice de Inteligencia Artificial combinado de Artificial Analysis. Gemini 2.5 Pro actualmente ocupa la primera posición en LMArena. Al 14 de abril, los modelos de Google ocupaban 5 de los 10 primeros puestos en LMArena, incluyendo Gemini 2.5 Pro, tres variantes de Gemini 2.0 y Gemma 3-27B.
Más allá de su impresionante rendimiento, Google también es un líder en precios. Google Gemini 2.5 está actualmente disponible para uso gratuito a través de la aplicación Gemini de Google y el sitio web AI Studio de Google. Los precios de la API de Google también son competitivos, con Gemini 2.5 Pro con un precio de $10 por millón de tokens de salida y Gemini 2.0 Flash con un precio de solo 40 centavos por millón de tokens.
Lorica señala que para las tareas de razonamiento de alto volumen, a menudo opta por DeepSeek-R1 o Google Gemini, mientras que el uso de modelos de OpenAI requiere una consideración más cuidadosa de los precios.
Si bien Meta y OpenAI no están necesariamente al borde del colapso, OpenAI se beneficia de la popularidad de ChatGPT, que según los informes cuenta con mil millones de usuarios. Sin embargo, las sólidas clasificaciones y el rendimiento de benchmark de Gemini indican un cambio en el panorama de LLM, que actualmente favorece a Google.