Desafiando a los Gigantes: Un Contendiente Compacto
El equipo Qwen de Alibaba ha entrado en la contienda con su última creación, QwQ, un modelo que pretende desafiar el rendimiento de modelos más grandes manteniendo un tamaño sorprendentemente compacto.
QwQ, a pesar de contar con solo 32 mil millones de parámetros en comparación con los 671 mil millones que, según se afirma, tiene DeepSeek R1, se posiciona como un modelo de “razonamiento”. Alibaba afirma que este modelo relativamente pequeño puede superar a R1 en pruebas de referencia específicas, particularmente en áreas como matemáticas, codificación y llamadas a funciones (function-calling). Esta ambiciosa afirmación justifica un análisis más detallado del funcionamiento interno y el rendimiento en el mundo real de QwQ.
Aprendizaje por Refuerzo: La Clave de la Destreza de QwQ
De forma similar a DeepSeek R1, el equipo de Qwen empleó el aprendizaje por refuerzo (RL) para refinar las capacidades de razonamiento en cadena de pensamiento (chain-of-thought) de QwQ. Este método mejora la capacidad del modelo para analizar y descomponer problemas complejos paso a paso. El enfoque tradicional en RL implica recompensar al modelo por las respuestas correctas, reforzando así las respuestas precisas.
Sin embargo, el equipo de Qwen adoptó un enfoque más matizado con QwQ. Integraron un verificador de precisión y un servidor de ejecución de código. Esta adición crucial asegura que las recompensas solo se otorguen por soluciones matemáticamente sólidas y código funcional. Al implementar este riguroso proceso de verificación, el equipo pretende cultivar un modelo que exhiba un mayor grado de precisión y fiabilidad.
Afirmaciones de Rendimiento: Una Verificación de la Realidad
Los esfuerzos del equipo de Qwen, según afirman, han producido un modelo que supera significativamente su categoría de peso. Afirman que QwQ alcanza niveles de rendimiento comparables, y en algunos casos incluso superiores, a los de modelos mucho más grandes.
Sin embargo, el mundo de las pruebas de referencia de IA puede ser complejo. Es crucial ir más allá de las cifras reportadas y examinar cómo estas afirmaciones se traducen en escenarios prácticos y del mundo real.
Pruebas Prácticas: Poniendo a QwQ a Prueba
Para evaluar las capacidades de QwQ, se diseñó una serie de pruebas que abarcaban una variedad de dominios. Estas incluían conocimientos generales, razonamiento espacial, resolución de problemas, matemáticas y otros desafíos que se sabe que plantean dificultades incluso a los modelos de lenguaje grandes (LLM) más avanzados.
Debido a los considerables requisitos de memoria del modelo completo, las pruebas se ejecutaron en dos configuraciones. Primero, el modelo completo se evaluó utilizando la demostración de QwQ en Hugging Face. Esto permitió una evaluación de su potencial completo. Segundo, se probó una versión cuantificada de 4 bits en una GPU de 24 GB (específicamente, una Nvidia 3090 o una AMD Radeon RX 7900XTX). Esta configuración tenía como objetivo medir el impacto de la cuantificación en la precisión del modelo, haciéndolo más accesible para usuarios con hardware menos potente.
Conocimiento General: Manteniéndose Firme
En respuesta a la mayoría de las preguntas de conocimiento general, QwQ demostró un rendimiento comparable al R1 de 671 mil millones de parámetros de DeepSeek y otros modelos de razonamiento como el o3-mini de OpenAI. El modelo normalmente tardaba unos segundos en formular sus pensamientos antes de proporcionar una respuesta a la consulta. Este comportamiento es característico de los modelos de razonamiento, que priorizan la deliberación cuidadosa sobre las respuestas inmediatas.
Sobresaliendo en Complejidad: Lógica, Codificación y Matemáticas
Donde QwQ realmente comienza a distinguirse es en el abordaje de desafíos más intrincados que involucran lógica, codificación o matemáticas. Profundicemos en estas áreas, destacando sus fortalezas y abordando algunas áreas donde se queda corto.
Razonamiento Espacial: Navegando por el Laberinto
Se utilizó una prueba de razonamiento espacial relativamente nueva, desarrollada por Homebrew Research como parte de su proyecto AlphaMaze, para evaluar QwQ.
Tanto la instancia de QwQ alojada localmente como el modelo de tamaño completo resolvieron consistentemente estos rompecabezas con éxito. Sin embargo, cada ejecución requirió unos minutos para completarse. Esto indica que, si bien QwQ puede manejar el razonamiento espacial de manera efectiva, no es necesariamente el más rápido en hacerlo.
En contraste, el R1 de DeepSeek y su destilado de 32B exhibieron comportamientos diferentes. Ambos modelos resolvieron con éxito el primer laberinto. Sin embargo, R1 tuvo problemas con el segundo, mientras que el destilado de 32B logró una tasa de éxito del 90% en el segundo laberinto. Esta variabilidad no es del todo inesperada, dado que R1 y el destilado utilizan modelos base distintos.
Si bien QwQ demostró un rendimiento superior en comparación con DeepSeek en esta prueba específica, se observó un comportamiento inusual con el modelo de 4 bits. Inicialmente, requirió casi el doble de tokens de “pensamiento” para completar la prueba. Esto sugirió inicialmente posibles pérdidas debido a la cuantificación. Sin embargo, una investigación más profunda reveló que el modelo cuantificado, en su estado inicial, exhibía un rendimiento subóptimo. Ajustar los hiperparámetros y volver a ejecutar las pruebas resolvió este problema, demostrando la importancia de una configuración adecuada.
Codificación de un Solo Intento (One-Shot Coding): Una Fortaleza Potencial
QwQ ha atraído considerable atención por su potencial en la generación de código de “un solo intento” (one-shot): la capacidad de producir código utilizable en el primer intento. Esta área en particular parece ser una fortaleza significativa para el modelo.
Se le encargó al modelo la recreación de varios juegos relativamente simples en Python utilizando la biblioteca pygame. Los juegos elegidos fueron Pong, Breakout, Asteroids y Flappy Bird.
QwQ manejó Pong y Breakout con relativa facilidad. Después de unos minutos de procesamiento, el modelo generó versiones funcionales de ambos juegos.
Sin embargo, cuando se le encargó la recreación de Asteroids, QwQ encontró dificultades. Aunque el código generado se ejecutó, los gráficos y la mecánica del juego con frecuencia estaban distorsionados y llenos de errores. En contraste, R1, en su primer intento, recreó fielmente el clásico juego de disparos de arcade.
Es importante considerar los datos de entrenamiento de estos modelos. Han estado expuestos a una gran cantidad de código fuente disponible abiertamente, probablemente incluyendo reproducciones de juegos clásicos. Esto plantea la pregunta de si los modelos simplemente están recordando información aprendida en lugar de derivar independientemente la mecánica del juego desde cero. Esto subraya la naturaleza fundamental de estas redes neuronales masivas, donde la inteligencia aparente a menudo proviene de un extenso reconocimiento de patrones.
Incluso con estas limitaciones, el rendimiento de QwQ en la recreación de juegos de arcade clásicos es impresionante, especialmente considerando su número de parámetros. Puede que no coincida con R1 en todas las pruebas, pero demuestra un nivel notable de capacidad. La frase “no hay sustituto para el desplazamiento”, a menudo utilizada en el mundo del automóvil, podría ser relevante aquí. Esto podría explicar por qué Alibaba está desarrollando una versión “Max” de QwQ, aunque es poco probable que se pueda ejecutar en hardware de consumo a corto plazo.
En comparación con el destilado Qwen 2.5 32B de DeepSeek R1 de tamaño similar, la decisión de Alibaba de integrar un servidor de ejecución de código en su canalización de aprendizaje por refuerzo puede haberle conferido una ventaja en los desafíos relacionados con la programación.
Matemáticas: Capacidad con una Advertencia
Históricamente, los LLM han tenido problemas con las matemáticas, una consecuencia de su entrenamiento centrado en el lenguaje. Si bien los modelos más nuevos han mostrado mejoras, QwQ todavía enfrenta desafíos, aunque no necesariamente por las razones que uno podría esperar.
QwQ resolvió con éxito todos los problemas matemáticos planteados previamente a R1. Esto indica que QwQ puede manejar aritmética básica e incluso algo de álgebra. Sin embargo, el problema radica en su eficiencia. Emplear un LLM para cálculos matemáticos parece contraintuitivo cuando las calculadoras y la computación directa siguen estando disponibles y son significativamente más rápidas.
Por ejemplo, resolver una ecuación simple como 7*43
requirió que QwQ generara más de 1,000 tokens, tardando aproximadamente 23 segundos en una RTX 3090 Ti. Esta es una tarea que podría completarse en una calculadora de bolsillo en una fracción del tiempo.
La ineficiencia se vuelve aún más pronunciada con cálculos más grandes. Resolver 3394*35979
, un problema de multiplicación más allá de las capacidades de la mayoría de los modelos que no son de razonamiento, le tomó a la instancia local de QwQ tres minutos y más de 5,000 tokens para calcular.
Antes de la corrección de los hiperparámetros, la misma ecuación requería la asombrosa cantidad de nueve minutos y casi 12,000 tokens.
La clave aquí es que, si bien un modelo podría ser capaz de forzar su camino hacia la respuesta correcta, no significa necesariamente que sea la herramienta óptima para el trabajo. Un enfoque más práctico sería proporcionar a QwQ acceso a una calculadora de Python. Esto aprovecha las fortalezas del modelo mientras descarga las tareas computacionalmente intensivas a una herramienta más adecuada.
Cuando se le encargó resolver la misma ecuación 3394*35979
utilizando herramientas, el tiempo de respuesta de QwQ se desplomó a ocho segundos, ya que la calculadora se encargó del trabajo pesado.
La Prevalencia de “Espera”: Una Mirada al Proceso de Pensamiento
Examinar los “pensamientos” de QwQ revela una frecuente aparición de la palabra “espera”, particularmente durante tareas complejas o problemas de palabras. Esto refleja el proceso interno del modelo de verificar su trabajo contra resultados alternativos.
Si bien este comportamiento es común en los modelos de razonamiento, puede ser particularmente frustrante cuando QwQ genera una respuesta incorrecta, incluso después de demostrar una comprensión de la respuesta correcta durante su proceso de “pensamiento”.
Este problema se encontró con frecuencia durante las pruebas. Uno de los ejemplos más ilustrativos fue la adaptación de AutoGen AI del clásico problema del lobo, la cabra y la col. Este rompecabezas presenta un desafío de optimización de transporte con un giro:
La solución está incrustada dentro del prompt: con tres compartimentos seguros, el granjero puede transportar todos los artículos en un solo viaje. Sin embargo, debido al parecido del rompecabezas con la versión clásica, los modelos a menudo pasan por alto los compartimentos.
En las pruebas, QwQ falló consistentemente en resolver este rompecabezas correctamente. Examinar su proceso de pensamiento reveló que no pasó por alto los tres compartimentos. De hecho, los reconoció, pero los descartó por ser demasiado simples:
“Espera, si el granjero puede llevar los tres en un solo viaje, entonces puede simplemente hacer eso y terminar. Pero eso haría que el problema fuera trivial, lo cual es poco probable. Entonces, ¿quizás los compartimentos están separados pero el bote solo puede transportar dos artículos más el granjero?”
Independientemente de si la prueba se ejecutó en el modelo completo en la nube o localmente, QwQ tuvo problemas para resolver esto de manera consistente. Esto destaca una posible limitación en sus capacidades de razonamiento, donde puede sobrepensar o malinterpretar las restricciones del problema.
Sensibilidad a los Hiperparámetros: Un Equilibrio Delicado
En comparación con otros modelos, QwQ exhibió una mayor sensibilidad a su configuración. Inicialmente, Alibaba recomendó parámetros de muestreo específicos:
- Temperatura: 0.6
- TopP: 0.95
- TopK: entre 20 y 40
Posteriormente, estas recomendaciones se actualizaron para incluir:
- MinP: 0
- Penalización de Presencia: entre 0 y 2
Debido a un aparente error en el manejo de los parámetros de muestreo por parte de Llama.cpp (Llama.cpp se utiliza para ejecutar inferencia en modelos), también fue necesario deshabilitar la penalización de repetición estableciéndola en 1.
Como se mencionó anteriormente, abordar estos problemas de configuración resultó en una mejora significativa, reduciendo a más de la mitad el número de tokens de “pensamiento” necesarios para llegar a una respuesta. Sin embargo, este error parece ser específico de las versiones cuantificadas GGUF del modelo cuando se ejecutan en el motor de inferencia Llama.cpp, que es utilizado por aplicaciones populares como Ollama y LM Studio.
Para los usuarios que planean utilizar Llama.cpp, se recomienda encarecidamente consultar la guía de Unsloth para corregir el orden de muestreo.
Comenzando con QwQ: Una Guía Práctica
Para aquellos interesados en experimentar con QwQ, configurarlo en Ollama es relativamente sencillo. Sin embargo, es importante tener en cuenta que requiere una GPU con una cantidad sustancial de vRAM. El modelo se ejecutó con éxito en una 3090 Ti de 24 GB con una ventana de contexto lo suficientemente grande para un uso práctico.
Si bien es técnicamente factible ejecutar el modelo en una CPU y memoria del sistema, es probable que esto resulte en tiempos de respuesta extremadamente lentos a menos que se utilice una estación de trabajo o un servidor de alta gama.
Requisitos Previos:
- Una máquina capaz de ejecutar LLM de tamaño mediano con cuantificación de 4 bits. Se recomienda una GPU compatible con al menos 24 GB de vRAM. Se puede encontrar una lista de tarjetas compatibles aquí.
- Para Macs con Apple Silicon, se recomienda un mínimo de 32 GB de memoria.
Esta guía asume una familiaridad básica con unainterfaz de línea de comandos del mundo Linux y Ollama.
Instalando Ollama
Ollama es un popular ejecutor de modelos que simplifica el proceso de descarga y servicio de LLM en hardware de consumo. Para usuarios de Windows o macOS, descárguelo e instálelo como cualquier otra aplicación desde ollama.com.
Para usuarios de Linux, Ollama proporciona una conveniente línea de comando para la instalación: