El Génesis de GPT-4.5: Una Odisea de Dos Años
La iniciativa GPT-4.5, concebida dos años antes de su lanzamiento, representó el proyecto más meticulosamente planeado de OpenAI hasta la fecha. Exigió el esfuerzo concertado de cientos de personas, con Altman señalando que el proyecto involucró efectivamente a ‘casi todos’ en OpenAI. Esta participación generalizada subraya la importancia estratégica de GPT-4.5 dentro de la misión más amplia de la organización.
Durante la fase de desarrollo, el equipo de OpenAI encontró lo que denominaron ‘problemas catastróficos’. El despliegue de un clúster de 100,000 GPUs expuso vulnerabilidades latentes en la infraestructura que se manifestaron como fallas poco frecuentes pero profundas. Para lograr un equilibrio entre la conveniencia y el rendimiento óptimo, los ingenieros del sistema adoptaron un enfoque iterativo, esencialmente ‘construyendo y reparando’ simultáneamente. Un error particularmente esquivo plagó el clúster con errores recurrentes, permaneciendo sin ser detectado hasta que el proceso de entrenamiento había alcanzado aproximadamente el 40% de su finalización.
Paradójicamente, estas pruebas contribuyeron al fortalecimiento de la base técnica de OpenAI. La experiencia adquirida ahora permite que un equipo reducido de solo 5-10 personas replique un modelo de la magnitud de GPT-4. El salto de rendimiento de GPT-4 a GPT-4.5, estimado en alrededor de diez veces, se caracterizó por una ‘inteligencia mejorada de manera integral pero difícil de cuantificar’, sorprendiendo incluso a aquellos dentro de OpenAI. Este salto cualitativo sugiere avances más allá de la mera escala, apuntando a mejoras fundamentales en la capacidad del modelo para razonar y comprender.
De cara al futuro, OpenAI reconoce que lograr el siguiente orden de magnitud en el rendimiento dependerá no solo de la potencia computacional, sino más bien de la eficiencia de los datos. El enfoque se está desplazando hacia el desarrollo de algoritmos que puedan extraer más conocimiento de los conjuntos de datos existentes, maximizando así la utilidad de los recursos informáticos disponibles.
Además, la arquitectura está evolucionando de un solo clúster a un diseño de múltiples clústeres, previendo futuros escenarios de entrenamiento que involucran el aprendizaje colaborativo en hasta 10 millones de GPUs. Esta transición necesita mejoras significativas en la tolerancia a fallas para garantizar la estabilidad y confiabilidad de tales sistemas distribuidos a gran escala.
La conversación también profundizó en la relación entre la ‘cola larga’ de los datos y las leyes de escala, las ventajas de la estrecha colaboración entre los equipos de aprendizaje automático y sistemas (co-diseño), la esencia del aprendizaje no supervisado y una cultura de resolución de problemas meticulosa.
Jugadores Clave Detrás de GPT-4.5
Además de Altman, los otros tres miembros del equipo de OpenAI que participaron en esta conversación fueron:
- Alex Paino: Responsable de los algoritmos de aprendizaje automático de pre-entrenamiento de GPT-4.5.
- Amin Tootoonchian: Arquitecto jefe de sistemas de OpenAI.
- Daniel Selsam: Investiga la eficiencia de los datos y los algoritmos.
Orígenes y Evolución de GPT-4.5
Sam Altman: ¿Qué se necesita realmente para construir un modelo tan grande como GPT-4.5?
Alex Paino: Iniciamos este proyecto hace unos dos años. En ese momento, OpenAI estaba a punto de lanzar un nuevo clúster de computación grande, y nuestro equipo vio esta oportunidad e hizo una serie de tareas para determinar las funciones que el modelo necesitaba incluir, y realizó una gran cantidad de pruebas de operaciones de reducción de riesgos.
Desarrollamos un plan largo para esto, que involucra toda la pila de tecnología, desde el sistema hasta el aprendizaje automático. Reducir los riesgos y prepararse para el entrenamiento es un proceso de ejecución largo, y el entrenamiento en sí también es un proyecto muy grande.
Amin Tootoonchian: Creo que este proceso requiere una estrecha cooperación entre el equipo de aprendizaje automático y el equipo de sistemas desde el principio, hasta que sepamos claramente qué modelo queremos entrenar y luego comencemos a entrenar.
Hemos hecho predicciones en aprendizaje automático y sistemas, tratando de minimizar la brecha entre las expectativas y la realidad. Sin embargo, debido a que nuestro ritmo de trabajo es muy rápido y tenemos que usar los últimos recursos informáticos, el entrenamiento del modelo se ha convertido en algo que es difícil de planificar perfectamente de antemano.
Casi siempre comenzamos a entrenar con muchos problemas sin resolver e intentamos superar los desafíos y avanzar durante el proceso. La solución principal es aumentar más recursos informáticos.
La etapa final es la ejecución, que requiere que muchas personas inviertan mucha energía y motivación durante mucho tiempo para completar el proceso de entrenamiento.
Sam Altman: ¿Cuánto crees que es la brecha entre nuestras expectativas y la realidad?
Amin Tootoonchian: En términos del sistema, al principio, generalmente estamos lejos del estado esperado. Siempre enfrentamos una elección: si posponer el lanzamiento y esperar a que se resuelva el problema, o comenzar temprano y resolver el problema en el proceso. Esto siempre requiere compensaciones para evitar retrasos irrazonables en el proceso.
Pero casi siempre hay problemas inesperados, y lo que tenemos que hacer es manejar estos nodos tanto como sea posible, lidiar con los factores desconocidos y formular un plan para el entrenamiento del modelo.
Alex Paino: En este proyecto, nuestro objetivo es hacer GPT-4.5, lo que significa que sus capacidades deberían ser 10 veces más inteligentes que GPT-4. Este es el objetivo inicial que nos fijamos hace unos 2 años.
Muchas cosas sucedieron en este proceso. ¿Estábamos pensando en si podríamos hacerlo mejor o peor de lo esperado? Este es un proceso muy complicado, pero al final, en términos de los cálculos efectivos que introdujimos, obtuvimos un modelo que creemos que es 10 veces más inteligente que GPT-4.
Amin Tootoonchian: En términos de ejecución, el tiempo dedicado al proyecto GPT-4.5 está lejos de lo que esperábamos inicialmente.
La Revolución del Equipo Delgado: Entrenando GPT-4 con Recursos Mínimos
Sam Altman: Cuando el clúster se expandió de 10,000 tarjetas a 100,000 tarjetas, ¿por qué encontraron tantos problemas?
Amin Tootoonchian: Creo que si los desarrolladores del sistema son lo suficientemente sensibles, la mayoría de los problemas se pueden observar en la etapa a pequeña escala.
También hay algunos problemas que no son exclusivos de la etapa de entrenamiento a gran escala, pero originalmente ocurrían con frecuencia, pero se convertirán en problemas catastróficos después de que se aumente la escala, especialmente cuando el equipo no anticipó que estos problemas se deteriorarían hasta tal punto de antemano.
Sam Altman: ¿Qué cosas han causado consecuencias desastrosas?
Amin Tootoonchian: Creo que los problemas de infraestructura son bien conocidos. La tasa de fallas, el tipo de falla y la cantidad total de fallas son muy altas. El clúster de 100,000 tarjetas es un grupo de muestra a gran escala, por lo que también descubrimos problemas que el proveedor de energía informática no observó.
La red es una parte de ella, y los aceleradores individuales también pueden tener problemas. Pero esta es también la belleza de este sistema: casi todos los componentes deben funcionar como se espera para producir los resultados esperados. Nuestro trabajo es minimizar este problema tanto como sea posible.
Sam Altman: De hecho, es difícil trabajar en el límite de la escala del clúster, pero también noté que hacer cosas que ya no están a la vanguardia de la tecnología se ha vuelto mucho más fácil. Entrenar GPT-4.5 requiere cientos de personas, y casi todos en OpenAI están involucrados.
Pero hoy, si les permitiera elegir un equipo más pequeño de OpenAI y volver a entrenar GPT-4 desde cero con todo el conocimiento que conocemos y todo el trabajo del sistema, ¿cuántas personas tomaría?
Alex Paino: Creo que puede tomar alrededor de 5 a 10 personas para hacer un modelo de nivel GPT-4 ahora. La pila de tecnología ha mejorado enormemente en el proceso de completar GPT-4.5.
De hecho, hemos hecho cosas similares en el proceso de entrenar GPT-4.5: entrenamos GPT-4o, que es un modelo de nivel GPT-4, y lo volvimos a entrenar utilizando mucho del mismo contenido del proyecto de investigación GPT-4.5. Se usaron menos personas para ese entrenamiento.
Eficiencia de Datos: La Clave para Desbloquear la Próxima Generación de Modelos
Sam Altman: Desde tu perspectiva, Dan? ¿Por qué es difícil entrenar modelos grandes?
Daniel Selsam: Creo que es difícil hacer algo nuevo. Creo que incluso solo descubrir que alguien más ha hecho algo lo hace mucho más fácil, porque la parte más difícil es tener la creencia de que puedes hacer algo en primer lugar. Creo que solo saber que algo es factible es un súper código de trucos, lo que hace las cosas mucho más fáciles.
Alex Paino: Estamos expandiendo la operación de pre-entrenamiento GPT a 10 veces lo que era antes, y siempre encontraremos algunas cosas nuevas interesantes que no necesariamente puedes predecir.
Sam Altman: ¿Qué se necesita para lograr el próximo crecimiento de 10x o 100x en la escala de pre-entrenamiento?
Daniel Selsam: Eficiencia de datos. La arquitectura Transformer (que es GPT) es muy eficiente en el uso de datos. Puede absorber y comprimir información bien y lograr la generalización. Su característica más importante es que puede absorber información de manera eficiente con recursos informáticos.
Sin embargo, la profundidad de la comprensión que obtiene de los datos es limitada. Cuando la potencia informática crece rápidamente mientras que los datos crecen relativamente lentamente, los datos se convierten en un cuello de botella en este modelo estándar. Esto requiere innovación algorítmica, desarrollando métodos que puedan usar más potencia informática para aprender más conocimiento de la misma cantidad de datos.
Sam Altman: ¿Qué más crees que necesitamos para mantener la expansión además de esto?
Amin Tootoonchian: Mi respuesta es sobre el sistema. Creo que la gran cantidad de trabajo requerido para GPT-4.5 es esencialmente el resultado inevitable de las especificaciones del modelo. No podemos entrenar GPT-4.5 con exactamente la misma arquitectura técnica que GPT-4.
En términos de gestión de estado, debido a que los recursos informáticos requeridos han excedido la capacidad de carga de un solo clúster, tenemos que cambiar a una arquitectura de entrenamiento multi-clúster. Para lograr este objetivo, debemos integrar múltiples flujos de trabajo diferentes en un corto período de tiempo.
Aunque esto nos ayudó a lograr un avance gradual, para lograr el próximo orden de magnitud de mejora del rendimiento, todavía necesitamos resolver varios problemas técnicos conocidos pero temporalmente archivados: estos problemas no se pueden evitar. Es este tipo de compensación técnica lo que prolonga constantemente el ciclo de desarrollo de un sistema perfecto. Siempre estamos haciendo compensaciones estratégicas en el proceso de búsqueda del plan de implementación óptimo.
Debe quedar claro que el sistema en sí no es el objetivo final. Su valor de salida real es la consideración central. Para la próxima mejora del rendimiento de 10x, creo que el avance en la tolerancia a fallas es crucial. Necesitamos construir un mecanismo tolerante a fallas que colabore profundamente con la carga de trabajo para reducir significativamente la ansiedad de operación y mantenimiento. La complejidad de operación y mantenimiento del sistema súper grande actual es esencialmente diferente a la de los sistemas anteriores.
Sam Altman: ¿Sabe qué porcentaje de fallas fueron causadas por ciertos componentes durante el entrenamiento de GPT-4.5?
Amin Tootoonchian: No tengo cifras específicas para compartir, pero en general, el despliegue inicial de una nueva generación de hardware a menudo enfrenta muchos desafíos técnicos que no se han comprendido completamente. Elegimos avanzar el proyecto antes de que el problema se aclarara por completo, lo que condujo a una alta tasa de fallas inicial.
Pero la experiencia muestra que a medida que se identifica y resuelve la causa raíz, la tasa de fallas se reducirá significativamente. Este fenómeno refleja esencialmente nuestra profundización de la comprensión de la infraestructura: algunas personas lo llaman limpiar la infraestructura o comprender los problemas básicos de la infraestructura.
Las primeras etapas de la ejecución son casi siempre bastante dolorosas. Si bien estamos avanzando en el proyecto, también estamos descubriendo y resolviendo continuamente nuevos modos de falla, pero eventualmente la tasa de fallas disminuirá gradualmente y el tiempo de funcionamiento normal aumentará.
Esto es esencialmente una cuestión de compensaciones de prioridad: en las primeras etapas del ciclo de vida de la infraestructura, su riesgo de falla a menudo es difícil de estimar con precisión; y si buscamos excesivamente el estado ideal final (el original es ‘City Estate’, el diseño ideal de la ciudad-estado), puede llevar a que el sistema El rendimiento de disponibilidad inicial es extremadamente pobre.
Más Allá de la Computación: Innovación Algorítmica y el Potencial Inexplorado de los Datos
Sam Altman: Aunque el modelo de inferencia es un componente clave de nuestra futura pila de tecnología, centrémonos temporalmente en los límites de desarrollo de los modelos tradicionales de pre-entrenamiento. Suponiendo que tenemos potencia informática de GPU ilimitada, ancho de banda de red ilimitado y fuente de alimentación ilimitada, pero todavía estamos limitados por los cuellos de botella técnicos existentes, incluidos los problemas de confiabilidad del sistema, la falta de métodos de entrenamiento tolerantes a fallas y las limitaciones de los conjuntos de datos existentes.
De acuerdo con nuestra regla de evolución de lograr un aumento de escala de 100 veces para cada número de versión principal de GPT, según los límites técnicos actuales, ¿a qué nivel puede llegar el desarrollo de los modelos de pre-entrenamiento? Específicamente, para los modelos de la serie GPT, según nuestro sistema de conocimiento existente, ¿qué tipo de modelo se puede entrenar teóricamente? ¿Podemos hacer GPT-5.5?
Alex Paino: Desde la perspectiva del aprendizaje automático y el desarrollo de algoritmos, todavía no hemos alcanzado un límite teórico claro. De hecho, solo hemos comenzado a explorar algoritmos con mayor eficiencia de datos y cómo hacer un uso más completo de los recursos de datos existentes. Esta situación es muy interesante: incluso los modelos como GPT-4 se desarrollan en gran medida en condiciones de recursos informáticos limitados, lo que ha determinado la dirección de la mayoría de las investigaciones anteriores.
Pero la situación es completamente diferente ahora. Desde GPT-4.5, en algunas dimensiones clave, los datos en lugar de la computación se están convirtiendo en la principal restricción. Este cambio hace que la investigación relacionada sea menos emocionante.
Sam Altman: Pero este es de hecho un progreso asombroso, y el mundo puede no darse cuenta completamente de que los recursos informáticos ya no son el principal cuello de botella en el mejor modelo que podemos construir. Este cambio es muy significativo, después de todo, hemos vivido en un entorno computacionalmente limitado durante demasiado tiempo.
Revelando las Sorpresas: Predictibilidad vs. Inteligencia Imprevista
Sam Altman: ¿Cuál es la experiencia de aprendizaje automático más interesante que aprendimos durante el entrenamiento de GPT-4.5? Solo di lo que quieres compartir.
Amin Tootoonchian: En general, las cosas más estimulantes son aquellas que se desvían de nuestras predicciones, especialmente cuando intentamos comprender por qué el rendimiento real se desvía de la curva esperada.
Alex Paino: Uno de los descubrimientos más sorprendentes para nosotros es que diferentes componentes de aprendizaje automático tienen un rendimiento de escalabilidad muy diferente. Algunas partes se pueden expandir muy bien, mientras que otras no. Esto es lo que realmente nos dimos cuenta durante el proceso de entrenamiento real. Esta experiencia nos dio mucha inspiración.
Daniel Selsam: Creo que las dos características principales del paradigma GPT son: primero, la pérdida de prueba (una métrica que mide qué tan bien se desempeña el modelo en los datos de prueba no vistos) se puede predecir con precisión; segundo, el rendimiento del modelo muestra una mejora predecible con el aumento de la escala. Lo que es aún más sorprendente es que la reducción en la pérdida de prueba se transformará en un nivel mejorado de inteligencia en todos los sentidos en varias formas difíciles de cuantificar pero asombrosas y misteriosas.
Sam Altman: ¿Estás absolutamente optimista acerca de esto? ¿Estás totalmente de acuerdo con este punto de vista?
Daniel Selsam: En realidad, lo que quiero decir es que encontramos un fenómeno particularmente interesante en la prueba GPT-4.5: después de volver a probar, las muchas capacidades sofisticadas que mostró el modelo superaron por completo las expectativas de todos.
Estamos seguros de que se volverá más inteligente de varias maneras que son difíciles de definir de antemano, y estas mejoras sutiles se pueden observar a partir de la satisfacción del usuario después del despliegue real: reservas de sentido común más sólidas, capacidad de comprensión contextual más precisa y una comprensión semántica más sutil: esta es la magia que traen esas pérdidas de prueba adicionales. En mi opinión, la Ley de Escala se ha verificado perfectamente en esta dimensión.
El Poder de la Colaboración: Equipos de Aprendizaje Automático y Sistemas Trabajando en Armonía
Sam Altman: ¿Cuál fue el momento más positivo durante todo el proceso de entrenamiento? ¿Cuál es tu recuerdo favorito? Obviamente hay mucho dolor, pero espero que ese dolor haya sido aliviado.
Alex Paino: Sí tengo ese momento. Hicimos mucho trabajo de aprendizaje automático durante el entrenamiento, y creo que algunos de los cambios que hicimos durante el proceso tuvieron un impacto bastante bueno, tal vez incluso mejor de lo esperado, lo cual fue un momento muy emocionante para nosotros.
Amin Tootoonchian: Para mí, al mismo tiempo que el entrenamiento, también estamos construyendo infraestructura. Creemos firmemente que podemos cruzar este precipicio de rendimiento, y tenemos un plan, y todos lo están ejecutando, pero lleva mucho tiempo. Este es un trabajo duro y definitivamente más difícil de lo que pensaba. Mi predicción fue incorrecta y subestimé el tiempo que tomaría resolver estos problemas.
El momento en que el equipo finalmente superó esos problemas clave y el rendimiento mejoró significativamente todavía está fresco en mi memoria. Puedes sentir claramente el cambio de energía en todo el equipo: todos están repentinamente llenos de energía y corren hacia el objetivo final con una nueva motivación.
Lo más sorprendente es que el tiempo de finalización estimado que se muestra en nuestro rastreador de estado continuó acortándose desde los dos años iniciales, y finalmente se fijó en un nodo de tiempo claro. Este progreso visible es inconmensurable para el impulso de la moral del equipo. Creo que esta es la belleza de esto.
Me gustaría enfatizar que el trabajo de aprendizaje automático nunca se ha detenido. Incluso después de que se inicia el entrenamiento, este proceso de co-diseño de aprendizaje automático todavía está en curso. El equipo de aprendizaje automático no solo hizo un seguimiento activo de los problemas que se habían marcado como ‘procesamiento posterior’, sino que también continuó entregando mejoras que optimizaron verdaderamente el tiempo de entrenamiento.
Esto encarna perfectamente el espíritu de nuestro equipo: aquí no hay una frontera de trabajo de ‘barrer la nieve frente a su propia puerta’, sino una colaboración verdaderamente perfecta. Esta cohesión es nuestra mayor ventaja.
Planificación Meticulosa y Búsqueda Implacable de Anomalías en el Pre-entrenamiento de GPT-4.5
Daniel Selsam: El mundo exterior ha hablado mucho sobre los desafíos y la precisión predictiva de este entrenamiento en sí mismo. Pero de hecho, todo esto se basa en una planificación extremadamente meticulosa, ¿puedes hablar más sobre esto en detalle?
Alex Paino: Este es definitivamente el plan más meticuloso que hemos hecho hasta ahora. Como dije, comenzamos a prepararnos para este proyecto un año antes del lanzamiento oficial del entrenamiento. Durante este período, realizamos varias pruebas de ejecución de control de riesgos a gran escala.
Prestamos especial atención a la introducción gradual de todas las mejoras: comenzando desde una configuración básica de alta confianza, que puede entenderse como una arquitectura madura similar a GPT-4, hemos dominado completamente esta configuración a nivel de aprendizaje automático, y luego colocamos nuevas características como bloques de construcción.
La clave es verificar estrictamente la escalabilidad de cada mejora en diferentes escalas: no solo para ver las mejoras de rendimiento, sino también para garantizar que estas mejoras puedan seguir siendo efectivas a medida que aumenta el tamaño del modelo. Muchas mejoras funcionan bien en pruebas a pequeña escala, pero fallarán en aplicaciones a gran escala.
Por lo tanto, hemos mantenido un alto grado de vigilancia durante todo el proceso y continuamos iterando y mejorando nuestra metodología de la ley de escala. A través de esta práctica de control de riesgos, hemos acumulado mucha experiencia valiosa, que continuará guiando el desarrollo de futuros modelos de la serie GPT.
Amin Tootoonchian: Recuerdo un momento particularmente interesante que extraño mucho. Ya sabes, casi inevitablemente encontramos varios errores cada vez que comenzamos una tarea de entrenamiento, lo cual es común. Pero la clave es garantizar que el progreso no se vea obstaculizado, y siempre debemos confirmar si el progreso actual está realmente en el camino correcto y si estos errores tendrán un impacto fatal en la salud del entrenamiento.
Aunque inicialmente estábamos muy seguros de que había fallas importantes, a través de todo el sistema de monitoreo que construimos, pudimos distinguir con precisión la causa raíz del problema: ¿Es una falla de hardware? ¿Qué tipo de falla de hardware? ¿Es corrupción de datos? ¿O es un error en el modelo de aprendizaje automático en sí mismo? ¿O es una condición de carrera en el código?
En ese momento, teníamos múltiples áreas de discusión de problemas abiertas al mismo tiempo, con una amplia variedad de síntomas. Después de una serie de correcciones de errores, caímos en un punto muerto: múltiples problemas sin resolver se acumularon frente a nosotros, y todos se estaban devanando los sesos: ¿fueron causados por diferentes errores? ¿O es un error que está causando problemas?
Más tarde, celebramos una votación y pedimos a los miembros del equipo que votaran por la causa raíz más probable. Como resultado, la opción menos optimista dio en el clavo: resultó que había un problema con la función torch.sum ascendente de PyTorch, una simple operación de suma.
Este error es muy interesante. Sabes que utilizamos principalmente el kernel de Tritón, y solo en algunos escenarios marginales insignificantes volveremos a las operaciones de la antorcha. El error de la función torch.sum activado por nuestra ruta de código específica ocasionalmente causará acceso ilegal a la memoria debido a las características de distribución de datos; cometió un error al calcular el desplazamiento de la memoria.
Lo más dramático es que cuando un ingeniero finalmente localizó el problema y envió una corrección, todos los errores con diferentes síntomas desaparecieron. Todos cambiaron con entusiasmo el canal de Slack de la ‘teoría de múltiples errores’ a la ‘teoría de un solo error’, y la escena fue muy feliz.
¿Cuánto tiempo ha estado acechando este error? Ha existido desde las primeras etapas del entrenamiento y no se encontró hasta que la barra de progreso había pasado aproximadamente el 40%. El proceso de descubrimiento también estuvo lleno de drama: en ese momento, un kernel complejo llamaba continuamente a una secuencia, y la segunda llamada activó el acceso ilegal a la memoria.
Aunque esta frecuencia de falla es extremadamente baja (solo ocurre una vez cada pocos cientos o incluso miles de pasos de entrenamiento), es fácil ignorarla como una falla ocasional, pero nuestro principio de equipo es: nunca dejar pasar ninguna anormalidad. La mejor parte de esta historia radica en esta persistencia de no rendirse a la ligera.
La Búsqueda de Sistemas Ideales: Un Horizonte Distante
Sam Altman: Después de que comience el pre-entrenamiento de GPT-4.5, ¿qué más tienes que hacer?
Alex Paino: Todos necesitamos observar la curva de pérdida con frecuencia. Además, necesitamos optimizar continuamente el sistema y mejorar el co-diseño que no se completó antes de que comenzara el entrenamiento. Monitoreamos de cerca varios indicadores estadísticos durante el proceso de entrenamiento para garantizar que no haya tendencias anormales inesperadas. Al mismo tiempo, exploramos posibles planes de mejora desde una perspectiva de aprendizaje automático. Aunque el trabajo a nivel de datos se reducirá temporalmente después de que comience el pre-entrenamiento, todavía hay una gran cantidad de tareas para procesar.
Amin Tootoonchian: Creo que el aprendizaje automático depende en gran medida de la corrección del juicio. Después de que comience el pre-entrenamiento, frente a una gran cantidad de señales de ruido, somos como adivinos interpretando hojas de té, y necesitamos juzgar si el sistema está sano. Esta es nuestra responsabilidad.
Sam Altman: A nivel del sistema, ¿qué nos impide llevar a cabo el entrenamiento del modelo? ¿Son chips, procesadores, memoria, red o energía?
Amin Tootoonchian: La belleza del sistema es que cuando se hace co-diseño, la carga de trabajo puede adaptarse a la infraestructura que construyes. No hay un dicho general aquí de que la red es el cuello de botella, o el ancho de banda de la memoria es el cuello de botella, y así sucesivamente. Incluso para los modelos de la misma especificación, podemos elegir transferir los requisitos de recursos, y podemos elegir crear un sistema más equilibrado, pero tener más ancho de banda de memoria siempre es beneficioso. Es difícil responder a esta pregunta sin limitar las condiciones.
Al diseñar GPT-4.5, es posible que necesitemos que el sistema tenga algún tipo de atributo, que debe generarse bajo la guía humana. Por lo tanto, el co-diseño es muy importante para formar la arquitectura del modelo y los elementos arquitectónicos, y hasta cierto punto conecta los aspectos del sistema y el aprendizaje automático. Si el sistema tiene un atributo que no queremos tener mucho, mi situación ideal es que todo debe estar desacoplado para dar a cada uno el máximo espacio.
A veces las cosas están conectadas, y necesitamos cumplir con los requisitos de la infraestructura, o las cosas deben ser así. La mayor parte del tiempo, necesitamos un sistema equilibrado y una comunicación equilibrada. Y el mejor medio de ajuste que tenemos son todos estos co-diseños.
Sam Altman: ¿Qué tan lejos estamos de este objetivo ideal del sistema?
Amin Tootoonchian: Todavía está muy lejos de ese objetivo. El proceso de construir un sistema siempre es así: primero hay una visión idealizada de cómo deberían funcionar las cosas, y luego reconciliar esas diferencias con los recursos existentes.
Creo que no lo estamos haciendo por teoría para la teoría, sino solo para discutir en qué queremos que se convierta, para realizarlo y para acercarnos lo más posible a ese ideal. Esta puede ser la parte más emocionante del campo del sistema. La gente solía decir que este es un diseño de sistema elegante, y en última instancia, la historia nos dirá si esta elección es correcta o incorrecta.
Sam Altman: Si pudieras obtener una respuesta a un problema de aprendizaje automático antes del próximo gran entrenamiento, ¿qué te gustaría saber más?
Alex Paino: Me gustaría saber qué algoritmos deberíamos usar bajo datos limitados y campos específicos. Aunque esta es una pregunta amplia, de hecho es la más crítica.
Sam Altman: ¿Realizarás pre-entrenamiento síncrono con 10 millones de GPU o más en el futuro?
Alex Paino: Creo que habrá, pero puede que no sea un modelo de pre-entrenamiento tradicional. Su forma puede ser muy diferente de la tecnología existente, pero aún conservará el núcleo del aprendizaje no supervisado.
Amin Tootoonchian: Prefiero el modo semi-síncrono. Debido a las leyes físicas, la sincronización completa no es realista.
Daniel Selsam: Creo que es más probable que sea descentralizado. Definitivamente habrá 10 millones de GPU trabajando juntas en un sistema de IA para aprender y realizar tareas, pero como las diversas partes del cerebro, es posible que no necesariamente se comuniquen entre sí.
El Poder Sinérgico de las Mejoras Algorítmicas y la Eficiencia de los Datos
Sam Altman: ¿Qué tan grande es la brecha entre los algoritmos más avanzados y la eficiencia de los datos humanos? ¿Podemos esperar ponernos al día en el futuro?
Daniel Selsam: Es difícil comparar directamente los dos. La brecha en el aprendizaje de idiomas es definitivamente enorme. La clave es cómo definir la cantidad de información recibida por los nervios visuales humanos. Creo que los algoritmos son generalmente mucho menos eficientes en datos que los humanos.
Durante décadas, el aprendizaje profundo se ha centrado en la eficiencia de la potencia informática. Además del crecimiento de los datos y la potencia informática, lo que es realmente sorprendente es el efecto sinérgico producido por las mejoras algorítmicas. Cada vez que el rendimiento del algoritmo mejora en un 10% o 20%, tendrá un efecto significativo cuando se superponga a la eficiencia de los datos. Hasta ahora, no ha habido ninguna movilización en torno a la eficiencia de los datos, porque este enfoque no vale la pena cuando los datos no están circulando y la potencia informática es limitada.
Ahora, estamos entrando en una nueva etapa de la investigación de la IA, y comenzaremos a acumular victorias en la eficiencia de los datos. Creo que es un poco tonto predecir ahora que encontraremos obstáculos insuperables. La forma en que funciona el cerebro humano es ciertamente diferente de nuestras mejoras algorítmicas, y deberíamos ser cautelosos en este sentido. Pero creo que deberíamos seguir siendo optimistas sobre el futuro desarrollo de los algoritmos.
Sam Altman: ¿Cuál es la correlación entre el pre-entrenamiento a mayor escala y las habilidades de aprendizaje y razonamiento más sólidas del modelo?
Alex Paino: Lo que hemos observado es que un mejor pre-entrenamiento y un aprendizaje no supervisado a menudo mejoran la inteligencia general del modelo y son de gran ayuda en la generalización. Esto es complementario a la capacidad de razonamiento, mientras que el razonamiento puede ser más lento en la mejora de la inteligencia. Creo que son complementarios.
Sam Altman: El pre-entrenamiento parece ser general en muchas cosas, mientras que entrenar un modelo solo puede hacer que lo haga bien en un tipo de cosa, ¿es correcto?
Alex Paino: Esto es muy interesante, pero no te sorprenderá esta situación cuando veas los datos que los entrenan. El rango del conjunto de datos de pre-entrenamiento es muy grande, y lo que buscamos es amplitud y diversidad. Cuando se trata del aprendizaje por refuerzo del modelo y hacer que obtenga claramente buenas señales de recompensa y un buen entorno de entrenamiento, creo que es difícil equilibrar la amplitud del conjunto de datos.
Daniel Selsam: Estoy de acuerdo, pero creo que hay otro factor. El pre-entrenamiento es esencialmente la compresión de datos, descubriendo así las conexiones entre diferentes cosas. Se trata de analogías y más abstractas. El razonamiento es una habilidad que requiere un pensamiento cuidadoso sobre un problema específico y también puede obtener soluciones a muchos tipos de problemas. Sin embargo, en el proceso de pre-entrenamiento, se pueden aprender conocimientos más abstractos al comprimir datos en diferentes campos.
La Esencia de la Inteligencia: Compresión y el Efecto de Cola Larga
Sam Altman: ¿Por qué es efectivo el aprendizaje no supervisado?
Daniel Selsam: La clave es la compresión. La forma ideal de inteligencia es la inducción de Solomonoff. En general, el aprendizaje automático considerará todas las posibilidades, pero tiende a comenzar a probar con programas más simples.
La esencia del pre-entrenamiento actual es un proceso de compresión, que logra una expresión aproximada al encontrar el programa más simple para explicar todos los datos producidos por los humanos hasta ahora.
Sam Altman: ¿Cómo ayuda la predicción del próximo token a lograr la compresión?
Daniel Selsam: Hay una paradoja en la estadística: ¿por qué las redes profundas pueden lograr la generalización a pesar de que parecen incapaces de comprimir? Normalmente, cuando tienes muchos datos y algunos modelos pequeños, estos modelos deben pasar por la compresión para aprender algo.
En el pre-entrenamiento, la escala de datos y modelos es muy grande. Algunas personas piensan que este entrenamiento es solo memoria y aprendizaje de interpolación. De hecho, ignoran otra perspectiva de comprensión de la compresión: la compresión pre-secuencial. Es como un compresor. Incluso si el peso de los datos es muy grande, el binario no necesita almacenar esta información. El resultado de la predicción del próximo token puede recuperar rápidamente información útil y mejorar la eficiencia de la compresión.
Sam Altman: El proceso de entrenar GPT-4.5 costó mucha mano de obra, tiempo y dinero, lo que en realidad puede considerarse como un experimento para verificar la Ley de Escala, y los resultados prueban que es efectivo y continuará durante mucho tiempo. ¿Por qué se puede llamar a la Ley de Escala una ley del universo?
Daniel Selsam: Cuanto mayor es el grado de compresión, más fuerte es la inteligencia. Esto tiene profundas connotaciones filosóficas. ¿Por qué se tarda más en entrenar modelos más grandes y la tasa de compresión es mayor? Esto involucra muchas teorías, entre las cuales me gustan las Representaciones Escasas.
Los conceptos clave en la realidad siguen una distribución de ley de potencia. Por ejemplo, el concepto importante número 100 puede aparecer solo una vez en cada 100 documentos, y hay un efecto de cola larga obvio. Esta característica de distribución conduce a la necesidad de datos y potencia informática a gran escala para capturar de manera efectiva todos los conceptos clave, y también determina que la Ley de Escala continuará existiendo de manera efectiva durante mucho tiempo.