Baidu, una fuerza dominante en el panorama tecnológico de China, ha lanzado dos actualizaciones significativas a su modelo base ERNIE (Enhanced Representation through Knowledge Integration). Estas nuevas iteraciones, ERNIE X1 y ERNIE 4.5, representan la respuesta estratégica de Baidu al panorama global de IA cada vez más competitivo, particularmente los avances realizados por empresas tanto chinas como estadounidenses. Estos modelos no son meras actualizaciones incrementales; están diseñados para competir cara a cara con algunos de los sistemas de IA más avanzados disponibles, con capacidades que, según Baidu, igualan o superan a las de sus rivales. Ambos modelos son accesibles para los usuarios a través del chatbot ERNIE Bot, y Baidu planea una integración gradual en su gama más amplia de productos, incluido su producto insignia, Baidu Search.
El momento de este lanzamiento es crucial. El sector de la IA generativa está experimentando un período de rápida innovación e intensa rivalidad, con un enfoque particular en la dinámica entre China y Estados Unidos. DeepSeek, una startup china de IA, captó la atención de la industria a principios de 2025 con R1, un modelo de razonamiento de código abierto que, según se informa, superó a los modelos de IA líderes a un costo significativamente menor. Este movimiento impulsó a DeepSeek por delante de sus competidores tanto en China como en EE. UU., incluido Baidu. Baidu, sin embargo, fue una de las primeras empresas chinas en presentar un competidor de ChatGPT, ERNIE Bot.
ERNIE X1 y ERNIE 4.5: Una Mirada Más Cercana a los Nuevos Modelos de Baidu
ERNIE X1 y ERNIE 4.5, aunque ambos desarrollados por Baidu, son modelos base distintos adaptados para diferentes aplicaciones:
ERNIE X1: Este modelo se posiciona como un motor de razonamiento de alta eficiencia, desafiando directamente a modelos como DeepSeek R1 y o3 mini de OpenAI. Está diseñado para tareas que requieren un procesamiento lógico complejo y la resolución de problemas en varios pasos.
ERNIE 4.5: Este modelo es una IA multimodal grande, capaz de procesar y comprender diversas formas de medios: texto, imágenes, audio y video. Compite con modelos como GPT-4o y Gemini de Google.
La aparición de R1 de DeepSeek provocó un cambio en las prioridades de los principales actores de la IA como Google, OpenAI, Anthropic y xAI. Estas empresas comenzaron a centrarse en la eficiencia y la asequibilidad, junto con la escala bruta del modelo. La introducción de ERNIE X1 por parte de Baidu, en particular, significa su entrada en esta carrera global de IA, ofreciendo un rendimiento comparable a R1 y otros modelos, potencialmente a un precio aún más competitivo.
Baidu enfatiza que 2025 es un año crucial para la evolución de los modelos de lenguaje grandes y las tecnologías relacionadas. El comunicado de prensa de la compañía destaca su compromiso continuo de invertir en inteligencia artificial, centros de datos e infraestructura en la nube, con el objetivo de mejorar aún más sus capacidades de IA y desarrollar modelos de próxima generación aún más potentes.
ERNIE X1: Profundizando en el Razonamiento Profundo
ERNIE X1 es un modelo de lenguaje diseñado específicamente para el “razonamiento profundo”. Esto lo distingue de los modelos de lenguaje tradicionales que sobresalen en la generación de respuestas rápidas basadas en patrones. Los modelos de razonamiento, por el contrario, están diseñados para analizar problemas complejos en una serie de pasos lógicos. Evalúan varias soluciones potenciales y refinan sus respuestas antes de presentar un resultado final. Esto los hace particularmente adecuados para tareas que involucran planificación de varios pasos, deducción lógica y resolución de problemas intrincados.
Baidu atribuye la destreza de razonamiento de ERNIE X1 a varias técnicas avanzadas, que incluyen:
- Progressive Reinforcement Learning: Esto sugiere un proceso de aprendizaje iterativo donde el modelo mejora continuamente su rendimiento a través de la retroalimentación.
- End-to-End Training: Esto implica un enfoque de entrenamiento holístico donde todo el modelo se optimiza simultáneamente, en lugar de en etapas separadas.
- Chains of Thought and Action: Esta técnica probablemente permite que el modelo siga una secuencia de pasos lógicos, imitando los procesos de pensamiento humanos.
- Unified Multi-faceted Reward System: Esto sugiere un sistema sofisticado para evaluar y recompensar el rendimiento del modelo en varios aspectos del razonamiento.
Si bien Baidu no ha revelado detalles técnicos exhaustivos, estos métodos apuntan a un enfoque en el aprendizaje iterativo, la comprensión contextual y el razonamiento estructurado, fortalezas que también son características de otros modelos de razonamiento exitosos.
En aplicaciones prácticas, Baidu afirma que ERNIE X1 exhibe “capacidades mejoradas en comprensión, planificación, reflexión y evolución”. La compañía destaca su competencia en áreas como:
- Literary Creation: Generación de formatos de texto creativos.
- Manuscript Writing: Asistencia con la redacción de documentos más largos.
- Dialogue: Participación en conversaciones naturales y coherentes.
- Logical Reasoning: Resolución de problemas que requieren deducción lógica.
- Complex Calculations: Realización de operaciones matemáticas intrincadas.
- ‘Chinese Knowledge’: Esta capacidad no especificada probablemente se refiera a una profunda comprensión del idioma, la cultura y el contexto chinos.
En consecuencia, se prevé que ERNIE X1 impulse una amplia gama de aplicaciones, que incluyen:
- Search Engines: Mejora de los resultados de búsqueda con una comprensión más matizada.
- Document Summarization and Q&A: Proporcionar resúmenes concisos y respuestas precisas a las preguntas.
- Image Understanding and Generation: Interpretación y creación de contenido visual.
- Code Interpretation: Análisis y comprensión del código de programación.
- Webpage Analysis: Extracción de información clave de páginas web.
- Mind Mapping: Creación de representaciones visuales de ideas y conceptos.
- Academic Research: Asistencia con tareas de investigación en diversas disciplinas.
- Business and Franchise Information Search: Proporcionar información relevante para consultas comerciales.
ERNIE X1: Comparación con la Competencia
Si bien Baidu no ha publicado puntuaciones de referencia específicas ni evaluaciones detalladas para ERNIE X1, afirma que el rendimiento del modelo está “a la par” con DeepSeek R1, mientras que se ofrece a “solo la mitad del precio”. En la actualidad, Baidu no ha proporcionado comparaciones con otros modelos de razonamiento en el mercado. Esta falta de datos comparativos detallados dificulta la evaluación completa de la posición competitiva de ERNIE X1, pero la afirmación de un rendimiento comparable a un costo menor es ciertamente notable.
ERNIE 4.5: Adoptando Capacidades Multimodales Nativas
ERNIE 4.5 es presentado por Baidu como un “modelo multimodal nativo”. Esto significa que está diseñado para integrar y comprender sin problemas diversas formas de medios (texto, imágenes, audio y video) dentro de un marco unificado. A diferencia de muchos sistemas de IA que procesan diferentes tipos de medios por separado, ERNIE 4.5 está diseñado para combinar estas modalidades e incluso convertir entre ellas (por ejemplo, texto a audio y viceversa).
Baidu destaca que ERNIE 4.5 “logra una optimización colaborativa a través del modelado conjunto de múltiples modalidades, demostrando capacidades de comprensión multimodal excepcionales”. Esto sugiere un enfoque sofisticado donde el modelo aprende a comprender y relacionar información entre diferentes tipos de medios.
Además de su destreza multimodal, ERNIE 4.5 cuenta con “habilidades lingüísticas refinadas”, mejorando sus capacidades de comprensión y generación, así como sus habilidades de razonamiento lógico, memoria y codificación. Baidu también enfatiza la “fuerte inteligencia” y la “conciencia contextual” del modelo, particularmente su capacidad para reconocer contenido matizado como memes de Internet y caricaturas satíricas. Esto indica un enfoque en la comprensión no solo del significado literal del contenido, sino también de su contexto cultural y social.
Además, Baidu afirma que ERNIE 4.5 es menos susceptible a las “alucinaciones”, un problema común en la IA donde los modelos generan información falsa o engañosa que puede parecer plausible a primera vista. Esta es una mejora crucial, ya que las alucinaciones pueden socavar la confiabilidad y la credibilidad de los sistemas de IA.
Baidu atribuye estos avances a varias tecnologías clave, que incluyen:
- Spatiotemporal Representation Compression: Esto probablemente se refiera a técnicas para representar y procesar eficientemente información que cambia con el tiempo y el espacio, como el contenido de video.
- Knowledge-Centric Training Data Construction: Esto sugiere un enfoque en la construcción de conjuntos de datos de entrenamiento que sean ricos en conocimiento factual.
- Self-Feedback Enhanced Post-Training: Esto implica un mecanismo donde el modelo puede aprender de sus propias salidas y mejorar su rendimiento con el tiempo.
- Heterogeneous Multimodal Mixture-of-Experts (MoE): Este enfoque utiliza modelos “expertos” más pequeños y especializados que se activan solo cuando es necesario. Esto optimiza el rendimiento y reduce los costos computacionales. Los modelos MoE suelen ser más pequeños y rentables que los modelos tradicionales basados en transformadores, pero pueden lograr un rendimiento comparable o incluso superior, lo que los convierte en una opción atractiva para el desarrollo de IA.
De cara al futuro, los informes indican que Baidu planea lanzar ERNIE 5 a finales de 2025, prometiendo “grandes mejoras” en sus capacidades multimodales. Esto sugiere un compromiso continuo para superar los límites de la IA multimodal.
ERNIE 4.5: Un Análisis Comparativo
Baidu ha comparado directamente las capacidades multimodales de ERNIE 4.5 con GPT-4o de OpenAI. La compañía afirma que ERNIE 4.5 superó a GPT-4o en casi todos los puntos de referencia, con la excepción de MMU (Massive Multi-discipline Understanding). MMU evalúa modelos en una amplia gama de tareas de nivel universitario que requieren un conocimiento profundo de la materia y un razonamiento deliberado. Esto sugiere que, si bien ERNIE 4.5 sobresale en muchas áreas, GPT-4o aún puede tener una ventaja en tareas que requieren conocimientos académicos especializados.
Baidu también presenta resultados de referencia que indican que ERNIE 4.5 supera a GPT-4o y GPT-4.5 de OpenAI, así como a V3 de DeepSeek, en varias otras áreas, que incluyen:
- C-Eval: Este punto de referencia evalúa el conocimiento avanzado y las habilidades de razonamiento en diversas disciplinas, desde las humanidades hasta la ciencia y la ingeniería. El sólido desempeño de ERNIE 4.5 aquí sugiere una amplia comprensión de diversos temas.
- CMMLU: Este punto de referencia evalúa el conocimiento y las habilidades de razonamiento dentro del contexto específico del idioma y la cultura chinos. El éxito de ERNIE 4.5 aquí destaca su competencia en este dominio.
- GSM8K: Este punto de referencia evalúa el razonamiento de varios pasos utilizando problemas matemáticos de la escuela primaria. El rendimiento de ERNIE 4.5 indica fuertes capacidades en razonamiento matemático.
- DROP: Este punto de referencia mide las habilidades de comprensión de lectura de un LLM. Los resultados de ERNIE 4.5 sugieren un alto nivel de comprensión de texto.
Es importante reconocer, sin embargo, que muchos de los puntos de referencia donde ERNIE 4.5 demostró un rendimiento superior se centraron específicamente en el idioma y la cultura chinos. Esto puede explicar en parte por qué GPT-4o y GPT-4.5, modelos desarrollados por una empresa estadounidense, no funcionaron tan bien. Sin embargo, ERNIE 4.5 también superó a DeepSeek-V3, un modelo desarrollado por una empresa china, en muchos de estos puntos de referencia, lo que indica una ventaja competitiva genuina en el contexto chino.
Por el contrario, ERNIE 4.5, según se informa, no funcionó tan bien en otros puntos de referencia, que incluyen:
- MMLU-Pro: Este punto de referencia evalúa la comprensión del lenguaje en un conjunto de tareas más amplio y desafiante. GPT-4.5 superó a ERNIE 4.5 aquí, lo que sugiere una posible ventaja en la comprensión general del lenguaje.
- GPQA: Este punto de referencia comprende un conjunto de datos de preguntas de opción múltiple escritas por expertos en biología, física y química. GPT-4.5 nuevamente superó a ERNIE 4.5, lo que indica una mayor comprensión del conocimiento científico especializado.
- Math-500: Este punto de referencia prueba la capacidad de resolver problemas matemáticos desafiantes de nivel de escuela secundaria. Tanto DeepSeek-V3 como GPT-4.5 superaron a ERNIE 4.5, lo que sugiere la necesidad de una mayor mejora en el razonamiento matemático avanzado.
- LiveCodeBench: Este punto de referencia mide las capacidades de codificación. GPT-4.5 superó a ERNIE 4.5, lo que indica una posible ventaja en la generación y comprensión del código.
A pesar del rendimiento superior de GPT-4.5 en algunos puntos de referencia, Baidu enfatiza que ERNIE 4.5 tiene un precio de solo el 1% del modelo de OpenAI. Esta importante diferencia de costos podría hacer de ERNIE 4.5 una opción muy atractiva para empresas y desarrolladores que buscan una solución de IA multimodal rentable.
Acceso a ERNIE X1 y ERNIE 4.5
ERNIE 4.5 es actualmente accesible a través de su API y en la plataforma MaaS (Model-as-a-Service) de Baidu AI Cloud, Qianfan. Los precios de entrada comienzan en RMB 0.004 por mil tokens, y los precios de salida comienzan en RMB 0.016 por mil tokens. Baidu afirma que ERNIE X1 estará disponible en la plataforma “pronto”, con precios de entrada a partir de RMB 0.002 por mil tokens y precios de salida a partir de RMB 0.008 por mil tokens.
Los usuarios también pueden interactuar con ambos modelos a través del chatbot de Baidu, ERNIE Bot, que proporciona una interfaz conveniente y fácil de usar para explorarsus capacidades.
La estructura de precios específica y los detalles de disponibilidad resaltan el compromiso de Baidu de hacer que estos modelos avanzados de IA sean accesibles para una amplia gama de usuarios, desde desarrolladores individuales hasta grandes empresas. El precio competitivo, particularmente para ERNIE X1, posiciona a Baidu como un fuerte contendiente en el mercado global de IA, ofreciendo una alternativa convincente a los modelos de los gigantes tecnológicos estadounidenses.