Llama de Meta: ¿De vanguardia a pilar empresarial?

La trayectoria del modelo de lenguaje grande (LLM) Llama de Meta ha sido objeto de intenso escrutinio y debate dentro de la comunidad de inteligencia artificial. Aproximadamente un año separó el lanzamiento de Llama 3 y Llama 4, una eternidad en el panorama de la IA que evoluciona rápidamente. Si bien inicialmente fue aclamado como una alternativa de código abierto innovadora a los modelos propietarios como las ofertas de OpenAI, los desarrollos recientes sugieren un cambio en la percepción, y algunos cuestionan la relevancia continua de Llama en la vanguardia de la innovación en IA.

Decepciones en LlamaCon y expectativas cambiantes

En LlamaCon, la conferencia inaugural de Meta dedicada a sus LLM de código abierto, una sensación de expectativas no cumplidas impregnó la atmósfera. Varios desarrolladores asistentes confesaron que habían anticipado la presentación de un modelo de razonamiento sofisticado, o al menos un modelo tradicional capaz de superar a competidores como V3 de DeepSeek y Qwen, este último un conjunto de modelos desarrollados por la división de computación en la nube de Alibaba.

La ausencia de tales anuncios alimentó las preocupaciones de que Llama estaba perdiendo terreno en la carrera por la supremacía de la IA. Apenas un mes antes de la conferencia, Meta había lanzado la cuarta generación de su familia Llama, incluidos los modelos de peso abierto Llama 4 Scout y Llama 4 Maverick. Scout fue diseñado para un rendimiento eficiente en una sola GPU, mientras que Maverick fue diseñado como un modelo más grande para rivalizar con otros modelos fundamentales.

Además de Scout y Maverick, Meta proporcionó un adelanto de Llama 4 Behemoth, un "modelo maestro" significativamente más grande que aún está en fase de entrenamiento. El propósito de Behemoth es facilitar la destilación, una técnica para crear modelos más pequeños y especializados a partir de uno más grande y general.

Sin embargo, surgieron informes que indicaban retrasos en el lanzamiento de Behemoth y desafíos para lograr un rendimiento competitivo con la suite Llama 4. A pesar de las afirmaciones de Meta sobre capacidades de última generación, la percepción entre algunos desarrolladores era que Llama ya no lideraba el grupo.

El auge de los competidores: Qwen y DeepSeek

La decepción en torno a LlamaCon y los modelos Llama 4 refleja un sentimiento más amplio de que los LLM de código abierto de Meta están perdiendo impulso tanto en términos de rendimiento técnico como de entusiasmo de los desarrolladores. Si bien Meta enfatiza su compromiso con los principios de código abierto, la creación de ecosistemas y la innovación, competidores como DeepSeek, Qwen y OpenAI están avanzando rápidamente en áreas críticas como el razonamiento, el uso de herramientas y la implementación en el mundo real.

Un desarrollador, Vineeth Sai Varikuntla, expresó su decepción, afirmando que esperaba que Llama superara a Qwen y DeepSeek en casos de uso general y razonamiento, pero descubrió que Qwen estaba significativamente por delante.

Este sentimiento subraya los desafíos que enfrenta Meta para mantener la posición de Llama como un LLM de código abierto líder. Si bien los lanzamientos iniciales de Llama generaron una atención y elogios significativos, el surgimiento de alternativas cada vez más capaces ha intensificado el panorama competitivo.

Un comienzo prometedor: el impacto de Llama 2

Para apreciar plenamente la narrativa actual en torno a Llama, es esencial recordar sus orígenes y la emoción inicial que generó. En 2023, el CEO de Nvidia, Jensen Huang, elogió el lanzamiento de Llama 2 como "probablemente el evento más grande en IA" de ese año. En julio de 2024, el lanzamiento de Llama 3 se consideró un gran avance, que representa el primer LLM abierto capaz de desafiar el dominio de OpenAI.

La llegada de Llama 3 provocó un aumento inmediato en la demanda de potencia informática, lo que condujo a un aumento de los precios de alquiler de GPU, según Dylan Patel, analista jefe de SemiAnalysis. Las búsquedas de Google de "Meta" y "Llama" también alcanzaron su punto máximo durante este período, lo que indica un interés generalizado en el nuevo modelo.

Llama 3 fue celebrado como un LLM de fabricación estadounidense, abierto y de primer nivel. Si bien no superó consistentemente los puntos de referencia de la industria, ejerció una influencia y relevancia considerables dentro de la comunidad de IA. Sin embargo, esta dinámica ha cambiado gradualmente.

Cambios arquitectónicos y críticas

Los modelos Llama 4 introdujeron una arquitectura de "mezcla de expertos", un diseño popularizado por DeepSeek. Esta arquitectura permite al modelo activar solo la experiencia más relevante para una tarea específica, mejorando así la eficiencia.

Sin embargo, el lanzamiento de Llama 4 fue recibido con críticas cuando los desarrolladores descubrieron que la versión utilizada para la evaluación comparativa pública difería de la versión disponible para descarga e implementación. Esta discrepancia condujo a acusaciones de "jugar con la clasificación", que Meta negó, afirmando que la variante en cuestión era experimental y que evaluar múltiples versiones de un modelo es una práctica estándar.

A pesar de las explicaciones de Meta, la controversia contribuyó a la percepción de que Llama estaba luchando por mantener su ventaja competitiva. A medida que los modelos competidores continuaron avanzando, Meta parecía carecer de una dirección clara.

Medición de la adopción por parte de los desarrolladores: una tarea compleja

Determinar qué familia LLM es más popular entre los desarrolladores es una tarea desafiante. Sin embargo, los datos disponibles sugieren que los últimos modelos de Llama no se encuentran entre los líderes.

Qwen, en particular, se clasifica constantemente entre los primeros en varias clasificaciones en Internet. Según Artificial Analysis, un sitio que clasifica los modelos según el rendimiento, Llama 4 Maverick y Scout se posicionan justo por encima del modelo GPT-4 de OpenAI (lanzado a finales del año anterior) y por debajo de Grok de xAI y Claude de Anthropic en términos de inteligencia.

OpenRouter, una plataforma que proporciona a los desarrolladores acceso a varios modelos y publica clasificaciones basadas en el uso de la API, muestra a Llama 3.3 entre los 20 modelos principales a principios de mayo, pero no a Llama 4.

Estos puntos de datos, aunque no definitivos, sugieren que las últimas iteraciones de Llama no han resonado tan fuertemente entre los desarrolladores como sus predecesoras.

Más allá de los puntos de referencia: uso de herramientas y razonamiento

Si bien las evaluaciones estándar de Llama 4 pueden haber sido decepcionantes, los expertos argumentan que el entusiasmo silenciado proviene de factores que van más allá de las métricas de rendimiento sin procesar.

AJ Kourabi, analista de SemiAnalysis, enfatiza la importancia del "tool calling" y la capacidad del modelo para extenderse más allá de la simple funcionalidad de chatbot. El tool calling se refiere a la capacidad de un modelo para acceder e instruir a otras aplicaciones en Internet o en el dispositivo de un usuario, una característica crucial para la IA agentic, que promete automatizar tareas como reservar viajes y administrar gastos.

Meta ha declarado que los modelos Llama admiten tool calling a través de su API. Sin embargo, Theo Browne, desarrollador y YouTuber, argumenta que el tool calling se ha convertido en una necesidad para la relevancia de vanguardia a medida que las herramientas agentic ganan prominencia.

Anthropic se ha convertido en un líder temprano en el uso de herramientas, y los modelos propietarios como OpenAI se están poniendo al día rápidamente. La capacidad de llamar de manera confiable a la herramienta adecuada para generar la respuesta correcta es muy valiosa, y OpenAI ha cambiado su enfoque para priorizar esta capacidad.

Kourabi argumenta que la ausencia de un modelo de razonamiento sólido es un indicador significativo de que Meta se ha quedado atrás. El razonamiento se considera un elemento fundamental en la ecuación de la IA agentic, lo que permite a los modelos analizar tareas y determinar el curso de acción apropiado.

El nicho de Llama: aplicaciones prácticas y adopción empresarial

A pesar de las preocupaciones sobre su posición a la vanguardia de la investigación de IA, Llama sigue siendo una herramienta valiosa para muchos desarrolladores y organizaciones.

Nate Jones, jefe de producto de RockerBox, aconseja a los desarrolladores que incluyan Llama en sus currículums, ya que la familiaridad con el modelo probablemente será buscada en el futuro.

Paul Baier, CEO y analista principal de GAI Insights, cree que Llama seguirá siendo un componente clave de las estrategias de IA para muchas empresas, especialmente aquellas fuera de la industria tecnológica.

Las empresas reconocen la importancia de los modelos de código abierto, siendo Llama un ejemplo destacado, para manejar tareas menos complejas y controlar los costos. Muchas organizaciones prefieren una combinación de modelos cerrados y abiertos para satisfacer sus diversas necesidades.

Baris Gultekin, director de inteligencia artificial de Snowflake, señala que los clientes a menudo evalúan los modelos en función de sus casos de uso específicos en lugar de depender únicamente de los puntos de referencia. Dado su bajo costo, Llama a menudo resulta suficiente para muchas aplicaciones.

En Snowflake, Llama se utiliza para tareas como resumir transcripciones de llamadas de ventas y extraer información estructurada de las reseñas de los clientes. En Dremio, Llama genera código SQL y escribe correos electrónicos de marketing.

Tomer Shiran, cofundador y director de productos de Dremio, sugiere que el modelo específico puede no ser crítico para el 80% de las aplicaciones, ya que la mayoría de los modelos ahora son "suficientemente buenos" para satisfacer las necesidades básicas.

Un panorama diversificado: el papel solidificado de Llama

Si bien Llama puede estar alejándose de la competencia directa con los modelos propietarios en ciertas áreas, el panorama general de la IA se está volviendo más diversificado, y el papel de Llama se está solidificando dentro de nichos específicos.

Shiran enfatiza que los puntos de referencia no son el principal impulsor de la elección del modelo, ya que los usuarios priorizan probar los modelos en sus propios casos de uso. El rendimiento de un modelo en los datos de un cliente es primordial, y este rendimiento puede variar con el tiempo.

Gultekin agrega que la selección del modelo es a menudo una decisión específica del caso de uso en lugar de un evento único.

Llama puede estar perdiendo desarrolladores que buscan constantemente los últimos avances, pero conserva el apoyo de muchos desarrolladores centrados en la construcción de herramientas prácticas impulsadas por IA.

Esta dinámica se alinea con la estrategia de código abierto más amplia de Meta, ejemplificada por el lanzamiento de React en 2013 y la creación de PyTorch en 2016. Al fomentar ecosistemas exitosos, Meta se beneficia de las contribuciones de la comunidad de código abierto.

Como observa Nate Jones, Zuckerberg obtiene importantes vientos de cola de las iniciativas de código abierto de Meta.