El desarrollo de GPT-4.5, un proyecto iniciado dos años antes, representa el esfuerzo más ambicioso de OpenAI hasta la fecha. Esta enorme empresa involucró los esfuerzos colaborativos de cientos de personas, y Sam Altman, CEO de OpenAI, señaló que el proyecto exigió una participación organizativa casi total.
Superando ‘Problemas Catastróficos’ en el Entrenamiento a Gran Escala
El camino para crear GPT-4.5 no estuvo exento de obstáculos. El equipo encontró numerosos ‘problemas catastróficos’ durante la fase de investigación y desarrollo. La utilización de un clúster de 100.000 GPU expuso fallas de infraestructura previamente invisibles, de baja probabilidad, pero profundas. Para equilibrar la conveniencia con un rendimiento óptimo, el equipo del sistema de OpenAI se vio obligado a adoptar un enfoque de ‘arreglar sobre la marcha’. Un error particularmente esquivo plagó el clúster con errores frecuentes, permaneciendo indetectado hasta que aproximadamente el 40% del proceso de entrenamiento había transcurrido.
A pesar de estos desafíos, el proyecto GPT-4.5 catalizó el desarrollo de una pila de tecnología más robusta. Hoy en día, un equipo reducido de solo 5-10 personas puede replicar un modelo grande similar a GPT-4. Las ganancias de rendimiento de GPT-4 a GPT-4.5 fueron aproximadamente diez veces mayores, produciendo ‘una inteligencia que es difícil de cuantificar pero mejorada en todos los aspectos’, un resultado que sorprendió incluso al propio personal de OpenAI.
Cambiando el Enfoque: Del Poder Computacional a la Eficiencia de Datos
OpenAI se ha dado cuenta de que lograr el próximo salto de diez o cien veces en el rendimiento no depende del poder computacional bruto, sino de la eficiencia de los datos; específicamente, la capacidad de extraer más conocimiento de la misma cantidad de datos mientras se aprovechan mayores recursos computacionales.
La arquitectura también está evolucionando de un solo clúster a un paradigma de múltiples clústeres. Las futuras iteraciones de entrenamiento pueden involucrar el aprendizaje colaborativo en hasta 10 millones de GPU, lo que requiere una mayor tolerancia a fallas.
Diálogo de Sam Altman con el Equipo de GPT-4.5
La siguiente es una compilación editada de una discusión entre Sam Altman y el equipo de OpenAI GPT-4.5:
Sam Altman: ¿Qué se necesita para construir un modelo tan grande como GPT-4.5?
Alex Paino: Comenzamos este proyecto hace unos dos años. En ese momento, OpenAI estaba a punto de lanzar un nuevo clúster de computación grande, y nuestro equipo vio esto como una oportunidad para llevar a cabo una serie de operaciones para determinar las funciones que el modelo necesitaba incluir, y realizó una gran cantidad de pruebas de operaciones de reducción de riesgos.
Hemos desarrollado un plan a largo plazo para esto, que involucra a toda la pila de tecnología desde el sistema hasta el aprendizaje automático. Reducir los riesgos y prepararse para el entrenamiento es un proceso de ejecución largo, y el entrenamiento en sí es un proyecto muy grande.
Amin Tootoonchian: Creo que este proceso requiere una estrecha cooperación entre el equipo de aprendizaje automático y el equipo del sistema desde el principio, hasta que aclaremos qué modelo queremos entrenar, y luego comenzar a entrenar.
Hemos hecho predicciones tanto en aspectos de aprendizaje automático como de sistema, tratando de reducir la brecha entre la expectativa y la realidad tanto como sea posible. Pero debido a que nuestro ritmo de trabajo es rápido y tenemos que usar los últimos recursos informáticos, el entrenamiento del modelo se ha convertido en algo que es difícil de planificar perfectamente de antemano.
Casi siempre comenzamos a entrenar con muchos problemas sin resolver e intentamos superar los desafíos y avanzar durante la operación. La principal solución es agregar más recursos informáticos.
La etapa final es la ejecución, que requiere que muchas personas inviertan mucha energía y motivación durante mucho tiempo para completar el proceso de entrenamiento.
Sam Altman: ¿Cuánto crees que es la brecha entre nuestras expectativas y la realidad?
Amin Tootoonchian: En términos del sistema, generalmente estamos lejos del estado esperado al principio. Siempre nos enfrentamos a una elección: si posponer el inicio y esperar a que se resuelva el problema, o comenzar temprano y resolver el problema en el proceso. Esto siempre requiere una compensación para evitar retrasos irrazonables en el proceso.
Pero casi siempre hay algunos problemas inesperados, y lo que tenemos que hacer es lidiar con estos nodos tanto como sea posible, lidiar con los factores desconocidos y formular un plan para el entrenamiento del modelo.
Alex Paino: En este proyecto, nuestro objetivo es hacer GPT-4.5, lo que significa que sus capacidades deberían ser 10 veces más inteligentes que GPT-4. Este es el objetivo inicial que establecimos hace unos 2 años.
Sucedieron muchas cosas durante este proceso. Estábamos pensando en si podríamos hacerlo mejor o sería peor de lo esperado. Este es un proceso muy complicado, pero al final, en términos de los cálculos efectivos que invertimos, obtuvimos un modelo que creemos que ha alcanzado 10 veces más inteligente que GPT-4.
Amin Tootoonchian: En términos de ejecución, el tiempo dedicado al proyecto GPT-4.5 está lejos de lo que esperábamos inicialmente.
Sam Altman: ¿Por qué encontraron tantos problemas cuando el clúster se expandió de 10,000 tarjetas a 100,000 tarjetas?
Amin Tootoonchian: Creo que si los desarrolladores del sistema son lo suficientemente sensibles, la mayoría de los problemas se pueden observar en la etapa a pequeña escala.
Algunos problemas no son exclusivos de la etapa de entrenamiento a gran escala, pero a menudo han ocurrido antes, pero se convertirán en problemas catastróficos después de que se aumente la escala, especialmente cuando el equipo no ha anticipado que estos problemas empeorarán hasta tal punto.
Sam Altman: ¿Qué cosas han causado consecuencias catastróficas?
Amin Tootoonchian: Creo que los problemas de infraestructura son bien conocidos, ya sea la tasa de fallas, el tipo de falla o la cantidad total de fallas es muy alta. El clúster de 100,000 tarjetas es un grupo de muestra a gran escala, por lo que también descubrimos problemas que el proveedor de potencia de cómputo no observó.
La red es uno de ellos, e incluso los aceleradores individuales pueden tener problemas. Pero esta es también la belleza de este sistema: casi todos los componentes deben funcionar como se esperaba para producir los resultados esperados. Nuestro trabajo es minimizar este problema tanto como sea posible.
Sam Altman: De hecho, es difícil trabajar en el límite del tamaño del clúster, pero también he notado que se ha vuelto mucho más fácil hacer cosas que ya no están a la vanguardia de la tecnología. El entrenamiento de GPT-4.5 requiere cientos de personas, y OpenAI tiene a casi todos a bordo.
Pero hoy, si tuvieras que seleccionar el equipo más pequeño de OpenAI y volver a entrenar GPT-4 desde cero con todo el conocimiento y el trabajo del sistema que conocemos, ¿cuántas personas se necesitarían?
Alex Paino: Creo que puede tomar alrededor de 5 a 10 personas para hacer un modelo de nivel GPT-4 ahora. La pila de tecnología ha mejorado mucho en el proceso de completar GPT-4.5.
De hecho, hemos hecho cosas similares en el proceso de entrenamiento de GPT-4.5: entrenamos GPT-4o, que es un modelo de nivel GPT-4, y lo volvimos a entrenar usando mucho del mismo contenido del proyecto de investigación GPT-4.5. Se usaron menos personas para ese entrenamiento.
Sam Altman: Desde tu perspectiva, Dan, ¿por qué es difícil entrenar modelos grandes?
Daniel Selsam: Creo que es difícil hacer algo nuevo. Creo que incluso solo descubrir que alguien más ha hecho algo lo hace mucho más fácil, porque la parte más difícil es tener la fe para hacer algo en primer lugar. Creo que solo saber que algo es factible es un súper código de trucos que hace las cosas mucho más fáciles.
Alex Paino: Estamos expandiendo la ejecución de pre-entrenamiento de GPT a 10 veces su tamaño anterior, y siempre encontramos algunas cosas nuevas interesantes que no necesariamente puedes predecir.
Sam Altman: ¿Qué se necesita para lograr el próximo crecimiento de 10x o 100x en la escala de pre-entrenamiento?
Daniel Selsam: Eficiencia de datos. La arquitectura Transformer (es decir, GPT) es muy eficiente en la utilización de datos. Puede absorber y comprimir bien la información y lograr la generalización. Su mayor característica es que puede absorber eficientemente la información con recursos informáticos.
Sin embargo, la profundidad del conocimiento que obtiene de los datos es limitada. Cuando la potencia de cómputo crece rápidamente y los datos crecen relativamente lentamente, los datos se convierten en un cuello de botella para este modelo estándar. Esto requiere una innovación algorítmica para desarrollar métodos que puedan usar más potencia de cómputo para aprender más conocimiento de la misma cantidad de datos.
Sam Altman: ¿Qué más crees que necesitamos para mantener la expansión?
Amin Tootoonchian: Mi respuesta es sobre el sistema. Creo que la enorme cantidad de trabajo requerido para GPT-4.5 es esencialmente el resultado inevitable de las especificaciones del modelo. No podemos entrenar GPT-4.5 con la misma arquitectura técnica que GPT-4.
En términos de gestión estatal, debido a que los recursos informáticos requeridos han excedido la capacidad de un solo clúster, tenemos que recurrir a una arquitectura de entrenamiento multi-clúster. Para lograr este objetivo, debemos integrar múltiples flujos de trabajo diferentes en un corto período de tiempo.
Aunque esto ciertamente nos ha ayudado a lograr avances en la etapa, para lograr la próxima mejora de rendimiento de magnitud, todavía necesitamos resolver varios problemas técnicos conocidos pero archivados temporalmente: estos problemas no se pueden evitar. Es este tipo de compensación técnica lo que extiende constantemente el ciclo de I+D del sistema perfecto, y siempre estamos haciendo compensaciones estratégicas en el proceso de buscar el plan de implementación óptimo.
Debe quedar claro que el sistema en sí no es el objetivo final, y su valor de salida real es la consideración central. Para la próxima mejora de rendimiento de 10x, creo que el avance en la tolerancia a fallas es crucial. Necesitamos construir un mecanismo tolerante a fallas que sea profundamente sinérgico con la carga de trabajo para reducir significativamente la ansiedad de operación y mantenimiento. La complejidad de operación y mantenimiento de los sistemas ultra-grandes actuales es esencialmente diferente de los sistemas anteriores.
Sam Altman: ¿Sabes qué porcentaje de fallas fueron causadas por ciertos componentes durante el entrenamiento de GPT-4.5?
Amin Tootoonchian: No tengo números específicos para compartir, pero en general, en las primeras etapas de la implementación de una nueva generación de hardware, la operación del sistema a menudo enfrenta muchos desafíos técnicos que no se entienden completamente. Elegimos avanzar el proyecto antes de que el problema estuviera completamente definido, lo que llevó a una alta tasa de fallas inicial.
Pero la experiencia ha demostrado que a medida que se identifica y resuelve la causa raíz, la tasa de fallas disminuirá significativamente. Este fenómeno esencialmente refleja nuestra profundización de la comprensión de la infraestructura: algunas personas lo llaman limpiar la infraestructura o comprender los problemas básicos de la infraestructura.
Las primeras etapas de la ejecución son casi siempre bastante dolorosas. Mientras avanzamos el proyecto, también estamos descubriendo y resolviendo continuamente nuevos modos de falla, pero la tasa de fallas disminuirá gradualmente y el tiempo de operación normal se volverá más largo.
Esto es esencialmente una cuestión de compensaciones de prioridad: en las primeras etapas del ciclo de vida de la infraestructura, su riesgo de falla a menudo es difícil de estimar con precisión; y si perseguimos excesivamente el estado ideal final (el original es ‘City Estate’, el diseño ideal de la ciudad-estado), puede conducir al sistema El rendimiento de disponibilidad en las primeras etapas es extremadamente pobre.
Sam Altman: Aunque el modelo de razonamiento es un componente clave de nuestra futura pila de tecnología, enfoquémonos temporalmente en el límite de desarrollo del modelo de pre-entrenamiento tradicional. Supongamos que tenemos potencia de cómputo de GPU ilimitada, ancho de banda de red ilimitado y fuente de alimentación ilimitada, pero aún estamos limitados por los cuellos de botella técnicos existentes, incluidos los problemas de confiabilidad del sistema, la falta de métodos de entrenamiento tolerantes a fallas y las limitaciones de los conjuntos de datos existentes.
De acuerdo con nuestra ley de evolución para lograr un aumento de escala de 100 veces en cada número de versión principal de GPT, basado en los límites técnicos actuales, ¿a qué nivel puede llegar el desarrollo del modelo de pre-entrenamiento? Específicamente para los modelos de la serie GPT, con nuestro sistema de conocimiento existente, ¿qué tipo de modelo podemos entrenar teóricamente? ¿Se puede hacer GPT-5.5?
Alex Paino: Desde la perspectiva del aprendizaje automático y el desarrollo de algoritmos, aún no hemos alcanzado un límite superior teórico claro. De hecho, apenas estamos comenzando a explorar algoritmos con mayor eficiencia de datos y cómo hacer un uso más completo de los recursos de datos existentes. Esta situación es muy interesante: incluso modelos como GPT-4 se desarrollan en gran medida bajo las limitaciones de los recursos informáticos limitados, lo que también determina la dirección de la mayoría de las investigaciones anteriores.
Pero la situación es completamente diferente ahora. Desde GPT-4.5, en algunas dimensiones clave, los datos en lugar de la computación se están convirtiendo en la principal restricción. Este cambio hace que la investigación relacionada sea menos emocionante.
Sam Altman: Pero este es ciertamente un progreso asombroso, y el mundo puede no darse cuenta completamente de que los recursos informáticos ya no son el principal cuello de botella en el mejor modelo que podemos construir. Este cambio es profundo, después de todo, hemos vivido en un entorno con restricciones informáticas durante demasiado tiempo.
Sam Altman: ¿Cuál es la experiencia de aprendizaje automático más interesante que hemos aprendido en el proceso de entrenamiento de GPT-4.5? Solo habla sobre lo que quieres compartir.
Amin Tootoonchian: En general, lo que más hace reflexionar son aquellas situaciones que se desvían de nuestras predicciones, especialmente cuando tratamos de entender por qué el rendimiento real se desvía de la curva esperada.
Alex Paino: Uno de los hallazgos más sorprendentes para nosotros es que el rendimiento de escalabilidad de los diferentes componentes de aprendizaje automático varía mucho. Algunas partes se pueden escalar bien, mientras que otras no. Esto es lo que realmente nos dimos cuenta en el proceso de entrenamiento real. Esta experiencia nos dio mucha inspiración.
Daniel Selsam: Creo que las dos características centrales del paradigma GPT son: primero, la pérdida de prueba (una métrica para medir qué tan bien se desempeña el modelo en los datos de prueba no vistos) se puede predecir con precisión; segundo, el rendimiento del modelo muestra una mejora predecible con la expansión de la escala. Más mágicamente, la reducción de la pérdida de prueba se transformará en un nivel mejorado de inteligencia en todos los sentidos de varias maneras que son difíciles de cuantificar pero sorprendentes.
Sam Altman: ¿Eres absolutamente optimista sobre esto? ¿Estás totalmente de acuerdo con este punto de vista?
Daniel Selsam: En realidad, lo que quiero decir es que encontramos fenómenos particularmente interesantes en la prueba GPT-4.5: después de volver a probar, el modelo mostró muchas habilidades sutiles que superaron por completo las expectativas de todos.
Estamos seguros de que se volverá más inteligente de varias maneras que no se pueden definir por adelantado, y después de la implementación real, podemos observar estos sutiles niveles de mejora a partir de la satisfacción del usuario: reservas de sentido común más fuertes, capacidades de comprensión contextual más precisas y una comprensión semántica más delicada. esta es exactamente la magia que traen esas pérdidas de prueba adicionales. En mi opinión, Scaling Law se ha verificado perfectamente en esta dimensión.
Sam Altman: ¿Cuál fue el momento más positivo durante todo el proceso de entrenamiento? ¿Cuál es tu recuerdo favorito? Obviamente hay mucho dolor, pero espero que esos dolores se hayan aliviado.
Alex Paino: Sí tengo ese momento. Hicimos mucho trabajo de aprendizaje automático durante el entrenamiento. Creo que algunos de los cambios que hicimos durante la operación tuvieron un impacto bastante bueno, posiblemente mejor de lo esperado, lo cual fue un momento muy emocionante para nosotros.
Amin Tootoonchian: Para mí, al mismo tiempo que entrenamos, también estamos construyendo infraestructura. Creemos firmemente que podemos cruzar este acantilado de rendimiento, y tenemos un plan, y todos lo están ejecutando, pero lleva mucho tiempo. Esto es un trabajo duro y definitivamente más difícil de lo que pensaba. Mi predicción fue incorrecta y subestimé el tiempo que llevaría resolver estos problemas.
El momento en que el equipo finalmente superó esos problemas clave y el rendimiento mejoró significativamente todavía está fresco en mi memoria. Puedes sentir claramente la transformación de energía de todo el equipo: todos están repentinamente llenos de energía y corriendo hacia el objetivo final con una nueva motivación.
Lo más mágico es que el tiempo estimado de finalización que se muestra en nuestro rastreador de estado continuó acortándose desde los dos años iniciales y finalmente se fijó en un nodo de tiempo claro. Este progreso visible tiene un impulso inconmensurable para la moral del equipo. Creo que esta es la belleza de esto.
Me gustaría enfatizar que el trabajo de aprendizaje automático nunca se ha detenido. Incluso después de que comienza el entrenamiento, este proceso de codiseño de aprendizaje automático continúa. El equipo de aprendizaje automático no solo realiza un seguimiento activo de aquellos problemas que se marcaron como ‘procesamiento posterior’, sino que también continúa brindando mejoras que realmente optimizan el tiempo de entrenamiento.
Esto refleja perfectamente nuestro espíritu de equipo: no hay un límite de trabajo de ‘cada persona barre la nieve frente a su propia puerta’ aquí, sino una colaboración verdaderamente perfecta, y esta cohesión es nuestra mayor fortaleza.
Sam Altman: El mundo exterior ha hablado mucho sobre los desafíos y la precisión de la predicción de este entrenamiento en sí mismo. Pero, de hecho, todo esto se basa en una planificación extremadamente exhaustiva, ¿pueden hablar más sobre esto en detalle?
Alex Paino: Este es definitivamente nuestro plan más exhaustivo hasta ahora. Como dije, comenzamos a prepararnos para este proyecto un año antes del inicio oficial del entrenamiento. Durante este período, realizamos múltiples pruebas de control de riesgos a gran escala.
Prestamos especial atención a la introducción gradual de todas las mejoras: comenzando con una configuración básica de alta confianza, que puede entenderse como una arquitectura madura similar a GPT-4, hemos dominado completamente esta configuración a nivel de aprendizaje automático, y luego agregamos nuevas características capa por capa como bloques de construcción.
La clave es verificar estrictamente la escalabilidad de cada mejora en diferentes escalas: no solo para ver las mejoras de rendimiento, sino también para garantizar que estas mejoras sigan siendo efectivas a medida que se expande la escala del modelo. Muchas mejoras funcionan bien en pruebas a pequeña escala, pero fallarán en aplicaciones a gran escala.
Por lo tanto, hemos mantenido un alto grado de vigilancia durante todo el proceso y continuamos iterando y mejorando nuestra metodología de ley de expansión. A través de esta práctica de control de riesgos, hemos acumulado mucha experiencia valiosa que continuará guiando el desarrollo de futuros modelos de la serie GPT.
Amin Tootoonchian: Recuerdo un momento particularmente interesante que extraño mucho. Ya sabes, casi siempre nos encontramos con varios errores cada vez que comenzamos una tarea de entrenamiento. Esto ya es un lugar común. Pero la clave es garantizar que el progreso no se bloquee y confirmar siempre que el progreso actual esté realmente en el camino correcto y si estos errores tendrán un impacto fatal en la salud del entrenamiento.
Aunque inicialmente estábamos muy seguros de que había defectos importantes, a través de todo el sistema de monitoreo que construimos, hemos podido distinguir con precisión la causa raíz del problema: ¿Es una falla de hardware? ¿Qué tipo de falla de hardware? ¿Está dañado el dato? ¿O es un error en el propio modelo de aprendizaje automático? ¿O es una condición de carrera en el código?
En ese momento, teníamos múltiples áreas de discusión de problemas abiertas al mismo tiempo, con varios síntomas. Después de una serie de correcciones de errores, nos quedamos atascados: había múltiples problemas sin resolver frente a nosotros, y todos se estaban devanando los sesos, ¿fueron causados por diferentes errores? ¿O es un error en el trabajo?
Más tarde, realizamos una votación para permitir que los miembros del equipo votaran por la causa raíz más probable. La opción menos prometedora dio con la verdad: resultó que había un problema con la función torch.sum aguas arriba de PyTorch, una simple operación de suma.
Este error es particularmente interesante. Ya sabes, utilizamos principalmente el kernel de Triton, y solo recurriremos a las operaciones de torch en algunos escenarios de borde sin importancia. Y el error de la función torch.sum desencadenado por nuestra ruta de código específica causará accidentalmente un acceso ilegal a la memoria debido a las características de distribución de datos: cometió un error al calcular el desplazamiento de la memoria.
Lo más dramático es que cuando un ingeniero finalmente ubicó el problema y envió una corrección, todos los informes de errores con diferentes síntomas desaparecieron. Todos cambiaron con entusiasmo el canal de Slack de la ‘teoría de múltiples errores’ a la ‘teoría de un solo error’, y la escena fue muy feliz.
¿Cuánto tiempo ha estado acechando este error? Ha existido desde las primeras etapas del entrenamiento y no se identificó hasta que la barra de progreso pasó aproximadamente el 40%. El proceso de descubrimiento también estuvo lleno de drama: en ese momento, un kernel complejo llamó secuencialmente a las secuencias, y la segunda llamada desencadenó un acceso ilegal a la memoria.
Aunque esta frecuencia de bloqueo es extremadamente baja (solo ocurre una vez cada varios cientos o incluso miles de pasos de entrenamiento), es fácil ignorarla como una falla ocasional, pero la guía de nuestro equipo es: nunca dejar pasar ninguna anomalía. La mejor parte de esta historia radica en esta perseverancia de no rendirse fácilmente.
Sam Altman: ¿Qué más necesitas hacer después de que se inicie el pre-entrenamiento GPT-4.5?
Alex Paino: Todos necesitamos observar la curva de pérdida con frecuencia. Además, necesitamos continuar optimizando el sistema y mejorar el codiseño que no se completó antes de que comenzara el entrenamiento. Monitoreamos de cerca varias estadísticas durante el proceso de entrenamiento para asegurarnos de que no haya tendencias inesperadas. Al mismo tiempo, exploramos posibles planes de mejora desde una perspectiva de aprendizaje automático. Aunque el trabajo a nivel de datos se reducirá temporalmente después de que se inicie el pre-entrenamiento, todavía hay muchas tareas para procesar.
Amin Tootoonchian: Creo que el aprendizaje automático depende en gran medida del juicio de corrección. Después de que se inicia el pre-entrenamiento, frente a una gran cantidad de señales de ruido, somos como adivinos que interpretan los posos del té, y necesitamos juzgar si el sistema está saludable. Esta es nuestra responsabilidad.
Sam Altman: A nivel del sistema, ¿qué nos impedirá llevar a cabo el entrenamiento del modelo? ¿Es chip, procesador, memoria, red o fuente de alimentación?
Amin Tootoonchian: La belleza del sistema es que, al hacer un diseño colaborativo, la carga de trabajo puede adaptarse a la infraestructura que construyas. No hay un dicho universal de que la red sea el cuello de botella, o que el ancho de banda de la memoria sea el cuello de botella, etc. Incluso para modelos de la misma especificación, podemos elegir transferir los requisitos de recursos. Podemos optar por crear un sistema más equilibrado, pero tener más ancho de banda de memoria siempre es beneficioso. Es difícil responder a esta pregunta sin limitar las condiciones.
Al diseñar GPT-4.5, es posible que necesitemos tener un cierto atributo en el sistema, que debe generarse a través de la guía humana. Por lo tanto, el diseño colaborativo es muy importante para formar la arquitectura del modelo y los elementos arquitectónicos, y hasta cierto punto conecta los aspectos del sistema y del aprendizaje automático. Si el sistema tiene un atributo que no queremos tener mucho. Mi situación ideal es que todo debería estar desacoplado para dar a cada uno el mayor espacio.
A veces las cosas están conectadas, y necesitamos cumplir con los requisitos de la infraestructura, o las cosas deberían ser así. La mayoría de las veces, necesitamos un sistema equilibrado, una comunicación equilibrada. Y los mejores medios de regulación que tenemos son todos estos diseños colaborativos.
Sam Altman: ¿A qué distancia estamos de ese objetivo ideal del sistema?
Amin Tootoonchian: Estamos lejos de ese objetivo. El proceso de construcción de un sistema siempre es así: primero hay una visión idealizada de cómo deberían funcionar las cosas, y luego esas diferencias se reconcilian con los recursos existentes.
No creo que lo estemos haciendo por la teoría por el bien de la teoría, sino solo para discutir en qué queremos que se convierta, para realizarlo y para acercarnos lo más posible a ese ideal. Esta puede ser la parte más emocionante del campo del sistema. La gente solía decir que este es un diseño de sistema elegante, y finalmente la historia nos dirá si esta elección es correcta o incorrecta.
Sam Altman: Si pudieras obtener una respuesta a una pregunta de aprendizaje automático antes del próximo entrenamiento grande, ¿qué te gustaría saber más?
Alex Paino: Quiero saber qué algoritmos deberíamos usar bajo datos limitados y campos específicos. Aunque esta es una pregunta amplia, es de hecho la más crítica.
Sam Altman: ¿Realizarán pre-entrenamiento sincrónico con 10 millones de GPU o más en el futuro?
Alex Paino: Creo que habrá, pero puede que no sea el modelo de pre-entrenamiento tradicional. Su forma puede ser muy diferente de las tecnologías existentes, pero aún conservará el núcleo del aprendizaje no supervisado.
Amin Tootoonchian: Prefiero un modelo semi-sincrónico. Debido a las leyes físicas, la sincronización completa no es muy realista.
Daniel Selsam: Creo que es más probable que esté descentralizado. Definitivamente habrá 10 millones de GPU trabajando juntas en un sistema de IA que aprende y realiza tareas, pero al igual que las diversas partes del cerebro, es posible que no necesariamente se comuniquen entre sí.
Sam Altman: ¿Cuánta diferencia hay entre los algoritmos más avanzados actuales y la eficiencia de los datos humanos? ¿Es posible alcanzarlo en el futuro?
Daniel Selsam: Los dos son difíciles de comparar directamente. La brecha en el aprendizaje de idiomas es definitivamente enorme. La clave está en cómo definir la cantidad de información recibida por los nervios ópticos humanos. Creo que la eficiencia general de los datos de los algoritmos es mucho menor que la de los humanos.
Durante décadas, el aprendizaje profundo se ha centrado en la eficiencia informática. Además del crecimiento de los datos y la potencia de cómputo, lo que realmente sorprende es el efecto superpuesto producido por las mejoras de los algoritmos. Cada vez que el rendimiento del algoritmo mejora en un 10% o 20%, tendrá un efecto significativo cuando se superponga a la eficiencia de los datos. Hasta ahora, no ha habido tal movilización en torno a la eficiencia de los datos, porque no vale la pena cuando los datos no fluyen y la potencia de cómputo es limitada.
Ahora, estamos entrando en una nueva etapa de la investigación de la IA, y comenzaremos a acumular victorias en la eficiencia de los datos. Creo que es un poco tonto predecir ahora que nos encontraremos con obstáculos insuperables. La forma en que opera el cerebro humano es definitivamente diferente de nuestras mejoras de algoritmos, y debemos ser cautelosos al respecto. Pero creo que deberíamos seguir siendo optimistas sobre el desarrollo futuro de los algoritmos.
Sam Altman: ¿Cuál es la correlación entre el pre-entrenamiento a mayor escala y las habilidades de aprendizaje y razonamiento más sólidas del modelo?
Alex Paino: Lo que hemos observado es que un mejor pre-entrenamiento y aprendizaje no supervisado tienden a mejorar la inteligencia general del modelo y ayudan mucho en la generalización, lo que es complementario a la capacidad de razonamiento, mientras que el razonamiento puede ser un poco más aburrido en la mejora de la inteligencia. Creo que son complementarios.
Sam Altman: El pre-entrenamiento parece ser universal en muchas cosas, mientras que entrenar un modelo solo puede hacer que funcione bien en un tipo de cosa, ¿es correcto?
Alex Paino: Esto es muy interesante, pero cuando veas los datos que los entrenan, no te sorprenderá esta situación. El rango del conjunto de datos de pre-entrenamiento es muy grande, y lo que buscamos es amplitud y diversidad. Cuando se trata de refuerzo del modelo aprendizaje y hacer que obtenga claramente buenas señales de recompensa y un buen entorno de entrenamiento, creo que es difícil tener en cuenta la amplitud del conjunto de datos.
Daniel Selsam: Estoy de acuerdo, pero creo que hay otro factor. El pre-entrenamiento es esencialmente comprimir datos, descubriendo así las conexiones entre diferentes cosas. Se trata de analogía y más abstracto. El razonamiento es una habilidad que requiere un pensamiento cuidadoso sobre un tema específico y también puede obtener soluciones para muchos tipos de problemas. Pero en el proceso de pre-entrenamiento, se puede aprender un conocimiento más abstracto al comprimir datos en diferentes campos.
Sam Altman: ¿Por qué es efectivo el aprendizaje no supervisado?
Daniel Selsam: La clave es la compresión. La forma ideal de inteligencia es la inducción de Solomonov. En general, el aprendizaje automático considerará todas las posibilidades, pero tiende a comenzar con programas más simples para las pruebas.
La esencia del pre-entrenamiento actual es un proceso de compresión, que logra una expresión aproximada al encontrar el programa más simple para explicar todos los datos que los humanos han producido hasta ahora.
Sam Altman: ¿Cómo ayuda la predicción del próximo Token a lograr la compresión?
Daniel Selsam: Hay una paradoja en la estadística: ¿por qué las redes profundas parecen incapaces de comprimir pero pueden lograr la generalización? Normalmente, cuando tienes muchos datos y algunos modelos pequeños, estos modelos deben pasar por la compresión para aprender algo.
En el pre-entrenamiento, la escala tanto de los datos como de los modelos es muy grande. Algunas personas piensan que este entrenamiento es solo aprendizaje de memoria e interpolación. De hecho, ignoran otra perspectiva de comprensión de la compresión: la compresión pre-secuencial. Es como un compresor. Incluso si el peso de los datos es muy grande, el binario no necesita almacenar esta información. El resultado de la predicción del próximo Token puede recuperar rápidamente información útil y mejorar la eficiencia de la compresión.
Sam Altman: El proceso de entrenamiento de GPT-4.5 costó mucha mano de obra, tiempo y dinero, lo que en realidad puede considerarse como un experimento para verificar Scaling Law, y los resultados demuestran que es efectivo y continuará durante mucho tiempo. ¿Por qué Scaling Law puede llamarse la ley del universo?
Daniel Selsam: Cuanto mayor sea el grado de compresión, más poderosa será la inteligencia, lo que tiene profundas implicaciones filosóficas. ¿Por qué lleva más tiempo entrenar modelos más grandes y la tasa de compresión es mayor? Esto involucra muchas teorías, entre las cuales me gusta Sparse Representations.
Los conceptos clave en la realidad siguen una distribución de ley de potencia. Por ejemplo, el concepto número 100 más importante puede aparecer solo una vez en cada 100 documentos, y hay un efecto de cola larga obvio. Esta característica de distribución significa que se necesitan datos a gran escala y potencia de cómputo para capturar efectivamente todos los conceptos clave, y también determina que Scaling Law será efectiva durante mucho tiempo.