De un trabajo rápido en Google a la revolución de la IA: Noam Shazeer y Jeff Dean | es

El amanecer de la evolución de la IA: Un viaje de 25 años desde PageRank hasta la AGI

Dos luminarias de la odisea tecnológica de Google, Jeff Dean, el actual Jefe Científico, y Noam Shazeer, una figura clave detrás del modelo Transformer que se reincorporó a la empresa, participaron recientemente en un diálogo esclarecedor. Organizada por el renombrado podcaster Dwarkesh Patel, su conversación ofreció una visión de la evolución de la IA, que abarca desde los días fundacionales de MapReduce hasta la era transformadora de las arquitecturas Transformer y MoE.

Estos veteranos experimentados, con una experiencia combinada de décadas en Google, no solo han presenciado sino que han moldeado activamente las tecnologías definitorias de Internet y la inteligencia artificial. Irónicamente, Shazeer confesó que su motivación inicial para unirse a Google era una búsqueda financiera a corto plazo, un plan que fue dramáticamente anulado por sus contribuciones posteriores al campo.

El estado actual y la trayectoria futura del cómputo de IA

En un extenso intercambio de dos horas, Dean y Shazeer revelaron información sobre el estado actual del cómputo de IA, revelando que:

La escala de las operaciones ha trascendido los centros de datos individuales; el entrenamiento de Gemini ahora abarca múltiples centros de datos en diferentes áreas metropolitanas, operando asincrónicamente.
Existe un margen sustancial para el crecimiento en el escalamiento del cómputo de inferencia, ya que interactuar con la IA sigue siendo significativamente más rentable que la lectura tradicional.
Las arquitecturas de modelos futuros están concebidas para superar la flexibilidad de MoE, permitiendo el desarrollo independiente de varios componentes del modelo por diferentes equipos.

Perspectivas desde las trincheras: Recompensas por errores y arquitecturas futuras

La conversación también despertó interés en las redes sociales, con usuarios destacando conceptos intrigantes, como:

El potencial de almacenar vastos modelos MoE en la memoria.
Los beneficios inesperados de los errores en el código, que, a medida que aumenta la escala, pueden conducir inadvertidamente a descubrimientos innovadores.

Dean desafió la noción de que el cómputo de IA es prohibitivamente caro. Al comparar el costo de interactuar con un libro versus interactuar con una IA sobre el mismo libro, ilustró un punto convincente:

Los modelos de lenguaje más avanzados operan a un costo asombrosamente bajo de aproximadamente $10^{-18}$ por operación, lo que se traduce en un millón de tokens procesados por un solo dólar. En contraste, la compra de un libro de bolsillo ofrece apenas 10,000 tokens por dólar.

Esta marcada diferencia, una ventaja de costo cien veces mayor para la interacción con la IA, subraya el potencial sin explotar para mejorar la inteligencia de la IA a través de un mayor cómputo de inferencia.

Desde una perspectiva de infraestructura, la creciente importancia del cómputo en tiempo de inferencia podría remodelar la planificación del centro de datos. Esto podría requerir hardware específicamente adaptado para tareas de inferencia, que recuerdan a las TPU de primera generación de Google, diseñadas inicialmente para la inferencia y luego adaptadas para el entrenamiento.

Cómputo distribuido y asíncrono: Un nuevo paradigma

El creciente énfasis en la inferencia sugiere que la comunicación continua entre los centros de datos podría volverse innecesaria, lo que podría conducir a un modelo computacional más distribuido y asíncrono.

Gemini 1.5 ya se ha embarcado en este camino, aprovechando los recursos computacionales en varias ciudades importantes. Las redes de alta velocidad sincronizan los cómputos de diferentes centros de datos, logrando escalas de entrenamiento sin precedentes. Para modelos grandes, donde cada paso de entrenamiento puede tomar varios segundos, incluso una latencia de red de 50 milisegundos tiene un impacto mínimo.

En el ámbito de la inferencia, la sensibilidad a la latencia se convierte en una consideración crítica. Si bien las respuestas inmediatas exigen un rendimiento optimizado de baja latencia, las tareas no urgentes, como el análisis contextual complejo, pueden tolerar tiempos de procesamiento más largos.

Un sistema más adaptable y eficiente podría administrar asincrónicamente múltiples tareas, mejorando el rendimiento general y minimizando los tiempos de espera del usuario. Además, los avances algorítmicos, como el empleo de modelos de borrador más pequeños, pueden aliviar los cuellos de botella en el proceso de inferencia. Este enfoque implica que modelos más pequeños generen tokens potenciales, que luego son verificados por modelos más grandes, acelerando significativamente el proceso de inferencia a través de la paralelización.

Shazeer agregó que durante el entrenamiento asíncrono, cada réplica del modelo opera de forma independiente, enviando actualizaciones de gradiente a un sistema central para la aplicación asíncrona. A pesar de las implicaciones teóricas de las fluctuaciones menores de los parámetros, este método ha demostrado ser notablemente exitoso.

En contraste, el entrenamiento síncrono ofrece estabilidad y reproducibilidad, una preferencia para muchos investigadores. Para garantizar la replicabilidad en el entrenamiento, Dean destacó la práctica de registrar las operaciones, particularmente las actualizaciones de gradiente y la sincronización de lotes de datos. Al reproducir estos registros, incluso el entrenamiento asíncrono puede producir resultados reproducibles, lo que facilita la depuración y mitiga las inconsistencias causadas por factores ambientales.

El papel fortuito de los errores

Ampliando esto, Shazeer introdujo una perspectiva intrigante:

Si bien los modelos de entrenamiento encuentran varios errores, la tolerancia inherente al ruido de estos modelos permite el autoajuste, lo que lleva a resultados imprevistos. Algunos errores incluso producen efectos positivos, presentando oportunidades de mejora a medida que la escala amplifica las anomalías experimentales.

Cuando se le preguntó sobre las prácticas de depuración, Shazeer describió su enfoque de realizar numerosos experimentos a pequeña escala para una validación rápida. Este método simplifica la base de código y acorta los ciclos de experimento a horas en lugar de semanas, lo que facilita la retroalimentación y los ajustes rápidos.

Dean estuvo de acuerdo, señalando que muchos experimentos con resultados inicialmente desfavorables podrían proporcionar más tarde información crucial. Sin embargo, los investigadores enfrentan el desafío de la complejidad del código; si bien las mejoras incrementales son necesarias, también introducen desafíos de rendimiento y mantenimiento, lo que requiere un equilibrio entre la limpieza del sistema y la innovación.

La estructura orgánica de los modelos futuros

Dean y Shazeer prevén un cambio significativo en los modelos de IA de estructuras monolíticas a arquitecturas modulares.

Modelos como Gemini 1.5 Pro ya emplean una arquitectura de Mixture of Experts (MoE), activando diferentes componentes en función de la tarea. Por ejemplo, los problemas matemáticos involucran la sección competente en matemáticas, mientras que el procesamiento de imágenes activa el módulo especializado correspondiente.

Sin embargo, las estructuras de modelos actuales siguen siendo algo rígidas, con módulos expertos de tamaño uniforme y sin flexibilidad. Dean propuso una visión más progresista: los modelos futuros deberían adoptar una estructura orgánica, permitiendo que diferentes equipos desarrollen o mejoren de forma independiente distintas partes del modelo.

Por ejemplo, un equipo especializado en idiomas del sudeste asiático podría refinar el módulo relevante, mientras que otro se centra en mejorar la comprensión del código. Este enfoque modular no solo aumenta la eficiencia del desarrollo, sino que también permite que los equipos globales contribuyan al avance del modelo.

Técnicamente, los modelos pueden optimizar continuamente los módulos individuales a través de la destilación. Esto implica condensar módulos grandes y de alto rendimiento en versiones más pequeñas y eficientes, que luego continúan aprendiendo nuevos conocimientos.

Un enrutador puede seleccionar la versión de módulo apropiada en función de la complejidad de la tarea, equilibrando el rendimiento y la eficiencia, un concepto central para la arquitectura Pathway de Google.

Esta nueva arquitectura exige una infraestructura robusta, que incluye potentes clústeres de TPU y una amplia memoria de gran ancho de banda (HBM). Aunque cada llamada podría usar solo una fracción de los parámetros del modelo, todo el sistema necesita mantener el modelo completo en la memoria para atender las solicitudes concurrentes.

Los modelos actuales pueden descomponer una tarea en 10 subtareas con una tasa de éxito del 80%. Los modelos futuros podrían potencialmente dividir una tarea en 100 o 1,000 subtareas, logrando tasas de éxito del 90% o superiores.

El momento “Joder”: Reconocimiento preciso de gatos

Mirando hacia atrás, 2007 marcó un hito significativo para los modelos de lenguaje grandes (LLM).

En ese momento, Google entrenó un modelo N-gram usando 2 billones de tokens para la traducción automática. Sin embargo, la dependencia del almacenamiento en disco para los datos N-gram resultó en una alta latencia debido a la extensa E/S de disco (por ejemplo, 100,000 búsquedas/palabra), tardando 12 horas en traducir una sola oración.

Para abordar esto, idearon varias estrategias, incluida la compresión de memoria, la arquitectura distribuida y la optimización de la API de procesamiento por lotes:

Compresión de memoria: Cargar los datos N-gram completamente en la memoria para evitar la E/S de disco.
Arquitectura distribuida: Distribuir los datos en varias máquinas (por ejemplo, 200) para consultas paralelas.
Optimización de la API de procesamiento por lotes: Reducir la sobrecarga por solicitud para mejorar el rendimiento.

Durante este período, la potencia computacional comenzó a seguir la Ley de Moore, lo que llevó a un crecimiento exponencial.

“Desde finales de 2008, gracias a la Ley de Moore, las redes neuronales realmente comenzaron a funcionar”.

Cuando se le preguntó acerca de un momento “Joder”, un momento de incredulidad de que un esfuerzo de investigación en particular realmente funcionó, Jeff contó el proyecto de un equipo inicial de Google donde entrenaron un modelo para aprender características de alto nivel (como reconocer gatos y peatones) a partir de fotogramas de video de YouTube. A través del entrenamiento distribuido (2,000 máquinas, 16,000 núcleos), lograron un aprendizaje no supervisado a gran escala.

Después del preentrenamiento no supervisado, el rendimiento del modelo en tareas supervisadas (ImageNet) mejoró en un 60%, lo que demuestra el potencial del entrenamiento a gran escala y el aprendizaje no supervisado.

Al abordar si Google sigue siendo principalmente una empresa de recuperación de información, Jeff enfatizó:

“La IA cumple la misión original de Google”.

En esencia, la IA no solo recupera información, sino que también comprende y genera contenido complejo, con un vasto potencial futuro. En cuanto a la dirección futura de Google, “No lo sé”.

Sin embargo, se puede anticipar la integración de Google y algún código de código abierto en el contexto de cada desarrollador. En otras palabras, al permitir que los modelos manejen más tokens, buscar dentro de la búsqueda mejorará aún más las capacidades y la utilidad del modelo.

Este concepto ya se está experimentando internamente en Google.

“De hecho, ya hemos realizado más entrenamiento en el modelo Gemini para desarrolladores internos en nuestra base de código interna”.

Más precisamente, Google ha logrado internamente el objetivo de que el 25% de su código sea escrito por IA.

Los momentos más felices en Google

Curiosamente, el dúo también compartió experiencias más intrigantes relacionadas con Google.

Para Noam en 1999, unirse a una gran empresa como Google inicialmente no era atractivo, ya que sentía que sus habilidades podrían estar subutilizadas. Sin embargo, después de ver el gráfico del índice de volumen de búsqueda diario de Google, rápidamente cambió de opinión:

“Esta gente está destinada a tener éxito, y parece que tienen muchos problemas interesantes que resolver”.

Se unió con una intención “pequeña” específica:

“Ganar algo de dinero y luego perseguir felizmente mis propios intereses de investigación en IA”.

Al unirse a Google, conoció a su mentor, Jeff (a los nuevos empleados se les asignaron mentores), y colaboraron en varios proyectos.

En este punto, Jeff interrumpió con su propio aprecio por Google:

“Me gusta el amplio mandato de Google para la visión RM (Responsive y Multimodal), incluso si es una dirección, podemos hacer muchos proyectos pequeños”.

Esto también le brindó a Noam la libertad que llevó a la persona que inicialmente planeó “tocar y huir” a quedarse a largo plazo.

Mientras tanto, cuando el tema se dirigió a Jeff, se revisó su tesis de pregrado sobre la retropropagación paralela.

Este artículo de 8 páginas se convirtió en la principal tesis de pregrado de 1990 y se conserva en la biblioteca de la Universidad de Minnesota. En él, Jeff exploró dos métodos para el entrenamiento paralelo de redes neuronales basados en la retropropagación:

Enfoque de partición de patrones: Representar toda la red neuronal en cada procesador y dividir los patrones de entrada entre los procesadores disponibles.
Enfoque de partición de red (enfoque de canalización): Distribuir las neuronas de la red neuronal entre los procesadores disponibles, formando un anillo de comunicación. Las características pasan a través de esta canalización, procesadas por las neuronas en cada procesador.

Probó estos métodos con redes neuronales de diferentes tamaños y varios datos de entrada. Los resultados mostraron que para el enfoque de partición de patrones, las redes más grandes y más patrones de entrada producían una mejor aceleración.

Lo más notable es que el artículo revela cómo era una red neuronal “grande” en 1990:

“Una red neuronal de 3 capas con 10, 21 y 10 neuronas por capa se consideraba muy grande”.

Jeff recordó que usó hasta 32 procesadores para sus pruebas.

(En ese momento, probablemente no podía imaginar que 12 años después, él, junto con Andrew Ng, Quoc Le y otros, usarían 16,000 núcleos de CPU para identificar gatos a partir de datos masivos).

Sin embargo, Jeff admitió que para que estos hallazgos de investigación fueran realmente efectivos, “necesitábamos aproximadamente un millón de veces más potencia informática”.

Más tarde, discutieron los riesgos potenciales de la IA, especialmente el problema del ciclo de retroalimentación cuando la IA se vuelve extremadamente poderosa. En otras palabras, la IA podría entrar en un bucle de aceleración incontrolable (es decir, “explosión de inteligencia”) al escribir código o mejorar sus algoritmos.

Esto podría llevar a que la IA supere rápidamente el control humano, incluso creando versiones maliciosas. Como dijo el anfitrión, imagine “un millón de los mejores programadores como Jeff, que eventualmente se conviertan en un millón de Jeffs malvados”.

(Netizen): “Nuevo pesadilla desbloqueada, jaja!”

Finalmente, reflexionando sobre sus momentos más felices en Google, ambos compartieron sus recuerdos.

Para Jeff, los momentos más alegres en los primeros años de Google fueron presenciar el crecimiento explosivo del tráfico de búsqueda de Google.

“Construir algo que 2 mil millones de personas usan ahora es increíble”.

Recientemente, se ha sentido emocionado de construir cosas con el equipo de Gemini que la gente no habría creído posible incluso hace cinco años, y prevé que el impacto del modelo se expanda aún más.

Noam se hizo eco de experiencias similares y un sentido de misión, incluso mencionando con cariño las “áreas de micrococina” de Google.

Este es un espacio especial con alrededor de 50 mesas, que ofrece café y bocadillos, donde las personas pueden conversar e intercambiar ideas libremente.

Ante esta mención, incluso Jeff se animó (doge).

actualizado el 2025-02-18

# Google # Gemini # AGI