Meta presenta Llama 4: Nueva generación de modelos de IA

Meta Platforms, el gigante tecnológico detrás de Facebook, Instagram y WhatsApp, ha avanzado significativamente su posición en el ámbito de la inteligencia artificial con la introducción de su serie Llama 4. Este lanzamiento marca la próxima iteración de la influyente familia Llama de modelos abiertos de la compañía, señalando un compromiso continuo para competir a la vanguardia del desarrollo de la IA y potencialmente remodelar la dinámica competitiva dentro de la industria. El lanzamiento introduce un trío de modelos distintos, cada uno diseñado con capacidades y arquitecturas computacionales específicas, con el objetivo de satisfacer una diversa gama de aplicaciones, desde funcionalidades generales de chat hasta tareas complejas de procesamiento de datos.

Presentando la Familia Llama 4: Scout, Maverick y Behemoth

El despliegue inicial de la generación Llama 4 abarca tres modelos específicamente nombrados: Llama 4 Scout, Llama 4 Maverick y el aún en desarrollo Llama 4 Behemoth. Meta ha indicado que la base de estos modelos reside en extensos conjuntos de datos de entrenamiento que comprenden vastas cantidades de texto, imágenes y contenido de video no etiquetados. Este enfoque de entrenamiento multimodal tiene como objetivo imbuir a los modelos con una ‘comprensión visual amplia’ y sofisticada, extendiendo sus capacidades más allá de las interacciones puramente basadas en texto.

La trayectoria de desarrollo de Llama 4 parece haber sido influenciada por las presiones competitivas dentro del sector de la IA en rápida evolución. Los informes sugieren que la aparición y la notable eficiencia de los modelos abiertos de laboratorios internacionales de IA, citando particularmente el laboratorio chino DeepSeek, impulsaron a Meta a acelerar sus propios esfuerzos de desarrollo. Se entiende que Meta dedicó recursos significativos, estableciendo potencialmente equipos especializados o ‘salas de guerra’, para analizar y comprender las metodologías empleadas por competidores como DeepSeek, centrándose específicamente en técnicas que redujeron con éxito los costos computacionales asociados con la ejecución y el despliegue de modelos avanzados de IA. Esta corriente subterránea competitiva destaca la intensa carrera entre los principales actores tecnológicos e instituciones de investigación para lograr avances tanto en el rendimiento de la IA como en la eficiencia operativa.

La accesibilidad varía en la nueva línea Llama 4. Scout y Maverick se están poniendo a disposición abierta de la comunidad de desarrolladores y del público a través de canales establecidos, incluido el propio portal Llama.com de Meta y plataformas asociadas como el centro de desarrollo de IA ampliamente utilizado, Hugging Face. Esta disponibilidad abierta subraya la estrategia de Meta de fomentar un ecosistema más amplio en torno a sus modelos Llama. Sin embargo, Behemoth, posicionado como el modelo más potente de la serie actual, permanece en desarrollo y aún no se ha lanzado para uso general. Al mismo tiempo, Meta está integrando estas nuevas capacidades en sus productos orientados al usuario. La compañía anunció que su asistente de IA propietario, Meta AI, que opera en su conjunto de aplicaciones como WhatsApp, Messenger e Instagram, ha sido actualizado para aprovechar el poder de Llama 4. Esta integración se está implementando en cuarenta países, aunque las funciones multimodales avanzadas (que combinan texto, imagen y potencialmente otros tipos de datos) están inicialmente restringidas a usuarios de habla inglesa dentro de Estados Unidos.

A pesar del énfasis en la apertura para algunos modelos, el despliegue y uso de Llama 4 se rigen por términos de licencia específicos que pueden presentar obstáculos para ciertos desarrolladores y organizaciones. Una restricción notable prohíbe explícitamente a los usuarios y empresas con sede o lugar principal de negocios dentro de la Unión Europea utilizar o distribuir los modelos Llama 4. Es probable que esta limitación geográfica sea una consecuencia directa de los estrictos requisitos de gobernanza exigidos por la exhaustiva Ley de IA de la UE y las regulaciones de privacidad de datos existentes como el GDPR. Navegar por estos complejos marcos regulatorios parece ser una consideración significativa que da forma a la estrategia de despliegue de Meta en la región.

Además, haciendo eco de la estructura de licencias de iteraciones anteriores de Llama, Meta impone una condición a las empresas a gran escala. Las compañías que cuentan con una base de usuarios superior a 700 millones de usuarios activos mensuales deben solicitar formalmente una licencia especial directamente a Meta. Crucialmente, la decisión de otorgar o denegar esta licencia recae enteramente en la ‘discreción exclusiva’ de Meta. Esta cláusula efectivamente le da a Meta control sobre cómo sus modelos más avanzados son aprovechados por empresas tecnológicas grandes potencialmente competitivas, manteniendo un grado de supervisión estratégica a pesar de la naturaleza ‘abierta’ de partes del ecosistema Llama. Estos matices de licencia subrayan la compleja interacción entre la promoción de la innovación abierta y la retención del control estratégico en el dominio de alto riesgo de la IA.

En sus comunicaciones oficiales que acompañaron el lanzamiento, Meta enmarcó el lanzamiento de Llama 4 como un momento crucial. ‘Estos modelos Llama 4 marcan el comienzo de una nueva era para el ecosistema Llama’, afirmó la compañía en una publicación de blog, añadiendo además: ‘Esto es solo el comienzo para la colección Llama 4’. Esta declaración prospectiva sugiere una hoja de ruta para el desarrollo continuo y la expansión dentro de la generación Llama 4, posicionando este lanzamiento no como un destino final, sino como un hito significativo en un viaje continuo de avance de la IA.

Innovaciones Arquitectónicas: El Enfoque Mixture of Experts (MoE)

Una característica técnica clave que distingue a la serie Llama 4 es su adopción de una arquitectura Mixture of Experts (MoE). Meta destaca que esta es la primera cohorte dentro de la familia Llama en utilizar este paradigma de diseño específico. El enfoque MoE representa un cambio significativo en cómo se estructuran y entrenan los grandes modelos de lenguaje, ofreciendo ventajas notables en términos de eficiencia computacional, tanto durante la fase de entrenamiento intensiva en recursos como durante la fase operativa al responder a las consultas de los usuarios.

En esencia, una arquitectura MoE funciona descomponiendo tareas complejas de procesamiento de datos en subtareas más pequeñas y manejables. Estas subtareas luego se enrutan o delegan inteligentemente a una colección de componentes de redes neuronales más pequeños y especializados, denominados ‘expertos’. Cada experto generalmente se entrena para sobresalir en tipos específicos de datos o tareas. Un mecanismo de compuerta (gating mechanism) dentro de la arquitectura determina qué experto o combinación de expertos es el más adecuado para manejar una parte particular de los datos de entrada o consulta. Esto contrasta con las arquitecturas de modelos densos tradicionales donde todo el modelo procesa cada parte de la entrada.

Las ganancias de eficiencia provienen del hecho de que solo un subconjunto de los parámetros totales del modelo (los parámetros ‘activos’ pertenecientes a los expertos seleccionados) se activan para una tarea determinada. Esta activación selectiva reduce significativamente la carga computacional en comparación con la activación de la totalidad de un modelo masivo y denso.

Meta proporcionó detalles específicos que ilustran esta arquitectura en acción:

  • Maverick: Este modelo posee un sustancial recuento total de parámetros de 400 mil millones. Sin embargo, gracias al diseño MoE que incorpora 128 ‘expertos’ distintos, solo 17 mil millones de parámetros se activan en un momento dado durante el procesamiento. Los parámetros a menudo se consideran un indicador aproximado de la capacidad de un modelo para el aprendizaje y la complejidad de la resolución de problemas.
  • Scout: Estructurado de manera similar, Scout presenta 109 mil millones de parámetros totales distribuidos en 16 ‘expertos’, lo que resulta en los mismos 17 mil millones de parámetros activos que Maverick.

Esta elección arquitectónica permite a Meta construir modelos con una vasta capacidad general (altos recuentos totales de parámetros) mientras mantiene demandas computacionales manejables para la inferencia (procesamiento de consultas), haciéndolos potencialmente más prácticos para desplegar y operar a escala.

Benchmarks de Rendimiento y Especializaciones de Modelos

Meta ha posicionado sus nuevos modelos de manera competitiva, publicando resultados de benchmarks internos que comparan Llama 4 con modelos prominentes de rivales como OpenAI, Google y Anthropic.

Maverick, designado por Meta como óptimo para aplicaciones de ‘asistente general y chat’, incluidas tareas como escritura creativa y generación de código, supuestamente demuestra un rendimiento superior en comparación con modelos como GPT-4o de OpenAI y Gemini 2.0 de Google en benchmarks específicos. Estos benchmarks cubren áreas como la competencia en codificación, el razonamiento lógico, las capacidades multilingües, el manejo de largas secuencias de texto (contexto largo) y la comprensión de imágenes. Sin embargo, los propios datos de Meta indican que Maverick no supera consistentemente las capacidades de los modelos más recientes y potentes disponibles actualmente, como Gemini 2.5 Pro de Google, Claude 3.7 Sonnet de Anthropic o el anticipado GPT-4.5 de OpenAI. Esto sugiere que Maverick apunta a una posición fuerte en el nivel de alto rendimiento, pero puede que no reclame el primer puesto absoluto en todas las métricas frente a los modelos insignia más nuevos de los competidores.

Scout, por otro lado, está diseñado para diferentes fortalezas. Sus capacidades se destacan en tareas que involucran el resumen de documentos extensos y el razonamiento sobre bases de código grandes y complejas. Una característica particularmente única y definitoria de Scout es su ventana de contexto excepcionalmente grande (context window), capaz de manejar hasta 10 millones de tokens. Los tokens son las unidades básicas de texto o código que procesan los modelos de lenguaje (por ejemplo, una palabra podría descomponerse en varios tokens como ‘com-pren-sión’). Una ventana de contexto de 10 millones de tokens se traduce, en términos prácticos, en la capacidad de ingerir y procesar una enorme cantidad de información simultáneamente, potencialmente equivalente a millones de palabras o bibliotecas enteras de código. Esto permite a Scout mantener la coherencia y la comprensión en documentos extremadamente largos o proyectos de programación complejos, una hazaña desafiante para modelos con ventanas de contexto más pequeñas. También puede procesar imágenes junto con esta vasta entrada textual.

Los requisitos de hardware para ejecutar estos modelos reflejan su escala y arquitectura. Según las estimaciones de Meta:

  • Scout es relativamente eficiente, capaz de ejecutarse en una única GPU Nvidia H100 de gama alta.
  • Maverick, con su mayor recuento total de parámetros a pesar de la eficiencia MoE, exige recursos más sustanciales, requiriendo un sistema Nvidia H100 DGX (que típicamente contiene múltiples GPUs H100) o potencia computacional equivalente.

Se espera que el próximo modelo Behemoth requiera una infraestructura de hardware aún más formidable. Meta reveló que Behemoth está diseñado con 288 mil millones de parámetros activos (de casi dos billones de parámetros totales, distribuidos en 16 expertos). Los benchmarks internos preliminares posicionan a Behemoth como superior a modelos como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Pro (aunque notablemente, no al más avanzado Gemini 2.5 Pro) en varias evaluaciones centradas en habilidades STEM (Ciencia, Tecnología, Ingeniería y Matemáticas), particularmente en áreas como la resolución de problemas matemáticos complejos.

Vale la pena señalar, sin embargo, que ninguno de los modelos Llama 4 anunciados actualmente está diseñado explícitamente como modelos de ‘razonamiento’ al estilo de los conceptos de desarrollo o1 y o3-mini de OpenAI. Estos modelos de razonamiento especializados típicamente incorporan mecanismos para la verificación interna de hechos y el refinamiento iterativo de sus respuestas, lo que lleva a respuestas potencialmente más confiables y precisas, especialmente para consultas factuales. La contrapartida suele ser una mayor latencia, lo que significa que tardan más en generar respuestas en comparación con los modelos de lenguaje grandes más tradicionales como los de la familia Llama 4, que priorizan una generación más rápida.

Ajustando los Límites Conversacionales: Temas Controvertidos

Un aspecto intrigante del lanzamiento de Llama 4 involucra el ajuste deliberado por parte de Meta del comportamiento de respuesta de los modelos, particularmente en lo que respecta a temas sensibles o controvertidos. La compañía declaró explícitamente que ha ajustado los modelos Llama 4 para que sean menos propensos a negarse a responder preguntas ‘controvertidas’ en comparación con sus predecesores de la familia Llama 3.

Según Meta, Llama 4 ahora está más inclinado a abordar temas políticos y sociales ‘debatidos’ donde las versiones anteriores podrían haber objetado o proporcionado una negativa genérica. Además, la compañía afirma que Llama 4 exhibe un enfoque ‘dramáticamente más equilibrado’ con respecto a los tipos de indicaciones con las que se negará a interactuar por completo. El objetivo declarado es proporcionar respuestas útiles y factuales sin imponer juicios.

Un portavoz de Meta elaboró sobre este cambio, declarando a TechCrunch: ‘[P]uedes contar con [Llama 4] para proporcionar respuestas útiles y factuales sin juicio… [E]stamos continuando haciendo a Llama más receptivo para que responda más preguntas, pueda responder a una variedad de puntos de vista diferentes […] y no favorezca algunas opiniones sobre otras’.

Este ajuste ocurre en un contexto de debate público y político continuo en torno a los sesgos percibidos en los sistemas de inteligencia artificial. Ciertas facciones políticas y comentaristas, incluidas figuras prominentes asociadas con la administración Trump como Elon Musk y el capitalista de riesgo David Sacks, han expresado acusaciones de que los chatbots de IA populares exhiben un sesgo político, a menudo descrito como ‘woke’, supuestamente censurando puntos de vista conservadores o presentando información sesgada hacia una perspectiva liberal. Sacks, por ejemplo, ha criticado específicamente a ChatGPT de OpenAI en el pasado, afirmando que fue ‘programado para ser woke’ y poco confiable en asuntos políticos.

Sin embargo, el desafío de lograr una verdadera neutralidad y eliminar el sesgo en la IA es ampliamente reconocido dentro de la comunidad técnica como un problema increíblemente complejo y persistente (‘intratable’). Los modelos de IA aprenden patrones y asociaciones de los vastos conjuntos de datos en los que se entrenan, y estos conjuntos de datos reflejan inevitablemente los sesgos presentes en el texto y las imágenes generados por humanos que contienen. Los esfuerzos para crear IA perfectamente imparcial o políticamente neutral, incluso por parte de empresas que apuntan explícitamente a ello, han demostrado ser difíciles. La propia empresa de IA de Elon Musk, xAI, según se informa, ha enfrentado desafíos en el desarrollo de un chatbot que evite respaldar ciertas posturas políticas sobre otras.

A pesar de las dificultades técnicas inherentes, la tendencia entre los principales desarrolladores de IA, incluidos Meta y OpenAI, parece moverse hacia el ajuste de los modelos para que eviten menos los temas controvertidos. Esto implica calibrar cuidadosamente los filtros de seguridad y las directrices de respuesta para permitir la interacción con una gama más amplia de preguntas que las permitidas anteriormente, mientras se intenta mitigar la generación de contenido dañino o abiertamente sesgado. Este ajuste fino refleja el delicado acto de equilibrio que las empresas de IA deben realizar entre promover el discurso abierto, garantizar la seguridad del usuario y navegar por las complejas expectativas sociopolíticas que rodean a sus potentes tecnologías. El lanzamiento de Llama 4, con sus ajustes explícitamente declarados en el manejo de consultas controvertidas, representa el último paso de Meta en la navegación de este intrincado panorama.