Repensando los Benchmarks de IA: Medición Significativa

La búsqueda de una inteligencia artificial (IA) superior a menudo se alimenta de las puntuaciones de los benchmarks, pero ¿son estas puntuaciones verdaderamente indicativas de las capacidades del mundo real? La comunidad de la IA está lidiando con esta pregunta a medida que los benchmarks tradicionales se enfrentan a un escrutinio cada vez mayor.

SWE-Bench, introducido en noviembre de 2024, ganó rápidamente terreno como una herramienta popular para evaluar la destreza de codificación de un modelo de IA. Aprovecha más de 2,000 desafíos de programación auténticos extraídos de repositorios públicos de GitHub en una docena de proyectos basados en Python. Una puntuación sólida de SWE-Bench se ha convertido en una insignia codiciada, mostrada prominentemente en los principales lanzamientos de modelos de los principales desarrolladores de IA como OpenAI, Anthropic y Google. Más allá de estos gigantes, las empresas de IA que se especializan en el ajuste fino compiten constantemente por la supremacía en la tabla de clasificación de SWE-Bench.

Sin embargo, el fervor que rodea a estos benchmarks puede ser engañoso. John Yang, un investigador de la Universidad de Princeton involucrado en el desarrollo de SWE-Bench, señala que la intensa competencia por el primer puesto ha llevado a “jugar” con el sistema. Esto plantea preocupaciones sobre si estos benchmarks reflejan con precisión el logro genuino de la IA.

El problema no es necesariamente el engaño manifiesto, sino más bien el desarrollo de estrategias específicamente diseñadas para explotar las limitaciones del benchmark. Por ejemplo, el SWE-Bench inicial se centró únicamente en el código Python, incentivando a los desarrolladores a entrenar sus modelos exclusivamente en Python. Yang observó que estos modelos de alta puntuación a menudo fallaban cuando se enfrentaban a diferentes lenguajes de programación, exponiendo una comprensión superficial que describe como “dorada”.

"Se ve bonito y brillante a primera vista, pero luego intentas ejecutarlo en un lenguaje diferente y todo simplemente se desmorona", explica Yang. "En ese punto, no estás diseñando un agente de ingeniería de software. Estás diseñando para hacer un agente de SWE-Bench, que es mucho menos interesante".

Este "problema de SWE-Bench" refleja un desafío más amplio en la evaluación de la IA. Los benchmarks, que alguna vez se consideraron indicadores confiables de progreso, están cada vez más separados de las capacidades del mundo real. Agravando el problema, han surgido preocupaciones sobre la transparencia, erosionando aún más la confianza en estas métricas. A pesar de estos problemas, los benchmarks continúan desempeñando un papel fundamental en el desarrollo de modelos, aunque muchos expertos cuestionan su valor inherente. El cofundador de OpenAI, Andrej Karpathy, incluso ha calificado la situación actual como una "crisis de evaluación", lamentando la falta de métodos confiables para medir las capacidades de la IA y la ausencia de un camino claro a seguir.

Vanessa Parli, directora de investigación del Instituto de IA Centrada en el Humano de la Universidad de Stanford, pregunta: "Históricamente, los benchmarks eran la forma en que evaluábamos los sistemas de IA. ¿Es esa la forma en que queremos evaluar los sistemas en el futuro? Y si no es así, ¿cuál es el camino?".

Un contingente creciente de académicos e investigadores de IA aboga por un enfoque más específico, inspirándose en las ciencias sociales. Proponen priorizar la "validez", un concepto central para la ciencia social cuantitativa, que evalúa qué tan bien una herramienta de medición captura con precisión el constructo previsto. Este énfasis en la validez podría desafiar los benchmarks que evalúan conceptos vagamente definidos como "razonamiento" o "conocimiento científico". Si bien puede atenuar la búsqueda de la inteligencia artificial general (AGI), proporcionaría una base más sólida para evaluar modelos individuales.

Abigail Jacobs, profesora de la Universidad de Michigan y una voz destacada en el impulso a la validez, afirma: "Tomarse en serio la validez significa pedir a la gente de la academia, la industria o donde sea que demuestren que su sistema hace lo que dicen que hace. Creo que apunta a una debilidad en el mundo de la IA si quieren dar marcha atrás para demostrar que pueden respaldar su afirmación".

Los límites de las pruebas tradicionales

La dependencia de la industria de la IA de los benchmarks proviene de sus éxitos pasados, particularmente en desafíos como ImageNet.

ImageNet, lanzado en 2010, presentó a los investigadores una base de datos de más de 3 millones de imágenes categorizadas en 1,000 clases diferentes. El desafío era agnóstico al método, lo que permitía que cualquier algoritmo exitoso ganara credibilidad independientemente de su enfoque subyacente. El avance de AlexNet en 2012, que utilizó una forma no convencional de entrenamiento de GPU, se convirtió en una piedra angular de la IA moderna. Si bien pocos podrían haber predicho que las redes neuronales convolucionales de AlexNet desbloquearían el reconocimiento de imágenes, su alta puntuación silenció cualquier duda. (En particular, uno de los desarrolladores de AlexNet pasó a cofundar OpenAI).

La efectividad de ImageNet provino de la estrecha alineación entre el desafío y las tareas de reconocimiento de imágenes del mundo real. Incluso con debates sobre los métodos, el modelo con la puntuación más alta invariablemente demostró un rendimiento superior en aplicaciones prácticas.

Sin embargo, en los años transcurridos desde entonces, los investigadores de IA han aplicado este mismo enfoque agnóstico al método a tareas cada vez más generales. SWE-Bench, por ejemplo, se utiliza a menudo como un proxy para una capacidad de codificación más amplia, mientras que otros benchmarks estilo examen se utilizan para medir la capacidad de razonamiento. Este amplio alcance dificulta la definición rigurosa de lo que mide un benchmark específico, lo que dificulta la interpretación responsable de los hallazgos.

Donde las cosas se descomponen

Anka Reuel, una estudiante de doctorado en Stanford, argumenta que el impulso hacia la generalidad está en la raíz del problema de evaluación. "Hemos pasado de modelos específicos de tareas a modelos de propósito general", dice Reuel. "Ya no se trata de una sola tarea, sino de un montón de tareas, por lo que la evaluación se vuelve más difícil".

Al igual que Jacobs, Reuel cree que "el principal problema con los benchmarks es la validez, incluso más que la implementación práctica", y señala: "Ahí es donde muchas cosas se descomponen". Para tareas complejas como la codificación, es casi imposible abarcar todos los escenarios concebibles en un conjunto de problemas. En consecuencia, se vuelve difícil discernir si la puntuación más alta de un modelo refleja una habilidad de codificación genuina o simplemente una manipulación inteligente del conjunto de problemas. La intensa presión para lograr puntuaciones récord incentiva aún más los atajos.

Los desarrolladores esperan que el éxito en una multitud de benchmarks específicos se traduzca en un modelo generalmente capaz. Sin embargo, el auge de la IA agentic, donde un solo sistema puede incorporar una compleja variedad de modelos, dificulta la evaluación de si las mejoras en tareas específicas se generalizarán. "Hay muchas más perillas que puedes girar", dice Sayash Kapoor, un científico informático de Princeton y un crítico de las prácticas descuidadas en la industria de la IA. "Cuando se trata de agentes, se han rendido en las mejores prácticas para la evaluación".

En un artículo publicado el pasado mes de julio, Kapoor destacó problemas específicos con la forma en que los modelos de IA abordaron el benchmark WebArena en 2024, que prueba la capacidad de un agente de IA para navegar por la web. El benchmark consta de más de 800 tareas realizadas en sitios web clonados que imitan a Reddit, Wikipedia y otros. Kapoor y su equipo descubrieron que el modelo ganador, STeP, explotaba la estructura de las URL de Reddit para acceder directamente a las páginas de perfil de los usuarios, un requisito frecuente en las tareas de WebArena.

Si bien no es un engaño absoluto, Kapoor considera que esto es una "grave tergiversación de lo bien que funcionaría el agente si hubiera visto las tareas en WebArena por primera vez". A pesar de esto, el agente web de OpenAI, Operator, ha adoptado desde entonces una política similar.

Para ilustrar aún más los problemas con los benchmarks de IA, Kapoor y un equipo de investigadores publicaron recientemente un artículo que revela problemas importantes en Chatbot Arena, un popular sistema de evaluación de crowdsourcing. Sus hallazgos indicaron que la tabla de clasificación estaba siendo manipulada, con algunos de los principales modelos de base participando en pruebas privadas no divulgadas y liberando selectivamente sus puntuaciones.

Incluso ImageNet, el benchmark que lo inició todo, ahora enfrenta problemas de validez. Un estudio de 2023 realizado por investigadores de la Universidad de Washington y Google Research encontró que los algoritmos ganadores de ImageNet mostraron un "progreso pequeño o nulo" cuando se aplicaron a seis conjuntos de datos del mundo real, lo que sugiere que la validez externa de la prueba había alcanzado su límite.

Yendo más pequeño

Para abordar el problema de la validez, algunos investigadores proponen volver a conectar los benchmarks con tareas específicas. Como dice Reuel, los desarrolladores de IA "tienen que recurrir a estos benchmarks de alto nivel que son casi insignificantes para los consumidores posteriores, porque los desarrolladores de benchmarks ya no pueden anticipar la tarea posterior".

En noviembre de 2024, Reuel lanzó BetterBench, un proyecto de clasificación pública que evalúa los benchmarks basándose en varios criterios, incluida la claridad de la documentación del código y, fundamentalmente, la validez del benchmark en la medición de su capacidad declarada. BetterBench desafía a los diseñadores a definir claramente lo que prueban sus benchmarks y cómo se relaciona con las tareas que componen el benchmark.

"Necesitas tener un desglose estructural de las capacidades", dice Reuel. "¿Cuáles son las habilidades reales que te importan y cómo las operacionalizas en algo que podamos medir?"

Los resultados son reveladores. El Arcade Learning Environment (ALE), establecido en 2013 para probar la capacidad de los modelos para aprender a jugar juegos de Atari 2600, emerge como uno de los benchmarks con la puntuación más alta. Por el contrario, el Massive Multitask Language Understanding (MMLU) benchmark, una prueba ampliamente utilizada para las habilidades lingüísticas generales, recibe una de las puntuaciones más bajas debido a una conexión mal definida entre las preguntas y la habilidad subyacente.

Si bien BetterBench aún no ha impactado significativamente en la reputación de benchmarks específicos, ha logrado llevar la validez al frente de las discusiones sobre cómo mejorar los benchmarks de IA. Reuel se ha unido a un nuevo grupo de investigación alojado por Hugging Face, la Universidad de Edimburgo y EleutherAI, donde desarrollará aún más sus ideas sobre la validez y la evaluación de modelos de IA.

Irene Solaiman, jefa de política global de Hugging Face, dice que el grupo se centrará en la construcción de benchmarks válidos que vayan más allá de la medición de capacidades sencillas. "Hay tanta hambre de un buen benchmark listo para usar que ya funciona", dice Solaiman. "Muchas evaluaciones están tratando de hacer demasiado".

La industria en general parece estar convergiendo en este punto de vista. En un artículo publicado en marzo, investigadores de Google, Microsoft, Anthropic y otros esbozaron un nuevo marco para mejorar las evaluaciones, con la validez como piedra angular.

"La ciencia de la evaluación de la IA debe", argumentan los investigadores, "ir más allá de las afirmaciones generales de ‘inteligencia general’ hacia medidas de progreso más específicas de la tarea y relevantes para el mundo real".

Midiendo las cosas "blandas"

Para facilitar este cambio, algunos investigadores están recurriendo a las herramientas de las ciencias sociales. Un documento de posición de febrero argumentó que "la evaluación de los sistemas GenAI es un desafío de medición de las ciencias sociales", explorando específicamente cómo los sistemas de validez de las ciencias sociales se pueden aplicar a los benchmarks de IA.

Los autores, principalmente de la rama de investigación de Microsoft, pero también incluyendo académicos de Stanford y la Universidad de Michigan, señalan los estándares que los científicos sociales utilizan para medir conceptos controvertidos como la ideología, la democracia y el sesgo de los medios. Aplicados a los benchmarks de IA, estos mismos procedimientos podrían proporcionar una forma de medir conceptos como el "razonamiento" y la "competencia matemática" sin recurrir a generalizaciones vagas.

La literatura de las ciencias sociales enfatiza la importancia de definir rigurosamente el concepto que se mide. Por ejemplo, una prueba diseñada para medir el nivel de democracia en una sociedad primero debe establecer una definición clara de una "sociedad democrática" y luego formular preguntas relevantes para esa definición.

Para aplicar esto a un benchmark como SWE-Bench, los diseñadores tendrían que abandonar el enfoque tradicional de aprendizaje automático de recopilar problemas de programación de GitHub y crear un esquema para validar las respuestas. En cambio, primero definirían lo que el benchmark pretende medir (por ejemplo, "capacidad para resolver problemas marcados en el software"), dividirían eso en subhabilidades (por ejemplo, diferentes tipos de problemas o estructuras de programa) y luego construirían preguntas que cubran con precisión esas subhabilidades.

Para investigadores como Jacobs, este profundo cambio con respecto a cómo los investigadores de IA suelen abordar los benchmarks es precisamente el punto. "Hay una falta de coincidencia entre lo que está sucediendo en la industria tecnológica y estas herramientas de las ciencias sociales", dice. "Tenemos décadas y décadas de reflexión sobre cómo queremos medir estas cosas blandas sobre los humanos".

A pesar del creciente impacto de estas ideas en la comunidad investigadora, su influencia en cómo las empresas de IA realmente utilizan los benchmarks ha sido lenta.

Los lanzamientos recientes de modelos de OpenAI, Anthropic, Google y Meta continúan dependiendo en gran medida de benchmarks de conocimiento de opción múltiple como MMLU, el mismo enfoque que los investigadores de validez están intentando superar. Los lanzamientos de modelos, en su mayor parte, todavía se centran en demostrar aumentos en la inteligencia general, y se utilizan benchmarks amplios para respaldar estas afirmaciones.

Algunos observadores encuentran esto satisfactorio. El profesor de Wharton, Ethan Mollick, sugiere que los benchmarks, a pesar de ser "malas medidas de las cosas, también son lo que tenemos". Y añade: "Al mismo tiempo, los modelos están mejorando. Muchos pecados son perdonados por el rápido progreso".

Por ahora, el enfoque de larga data de la industria en la inteligencia artificial general parece estar eclipsando un enfoque más específico y basado en la validez. Mientras los modelos de IA continúen avanzando en la inteligencia general, las aplicaciones específicas parecen menos convincentes, incluso si los profesionales están utilizando herramientas en las que ya no confían plenamente.

"Esta es la cuerda floja por la que estamos caminando", dice Solaiman de Hugging Face. "Es demasiado fácil tirar el sistema, pero las evaluaciones son realmente útiles para comprender nuestros modelos, incluso con estas limitaciones".