От быстрого заработка к революции в ИИ: Ноам Шазир и Джефф Дин

От рассвета эволюции ИИ: 25-летний путь от PageRank к AGI

Два столпа технологической одиссеи Google, Джефф Дин, нынешний главный научный сотрудник, и Ноам Шазир, ключевая фигура в создании модели Transformer, недавно провели познавательный диалог. В беседе с известным подкастером Дваркешем Пателем они поделились взглядами на эволюцию ИИ, охватывающую период от фундаментальных дней MapReduce до эпохи преобразований, связанных с архитектурами Transformer и MoE.

Эти опытные ветераны, имеющие за плечами десятилетия работы в Google, не только были свидетелями, но и активно формировали определяющие технологии интернета и искусственного интеллекта. По иронии судьбы, Шазир признался, что его первоначальной мотивацией для поступления в Google было краткосрочное финансовое обогащение, план, который был кардинально пересмотрен его последующим вкладом в эту область.

Текущее состояние и будущая траектория вычислительных ресурсов ИИ

В двухчасовой беседе Дин и Шазир представили информацию о текущем состоянии вычислительных ресурсов ИИ, раскрывая, что:

  • Масштаб операций вышел за пределы отдельных центров обработки данных; обучение Gemini теперь охватывает несколько центров обработки данных в разных мегаполисах, работающих асинхронно.
  • Существует значительный потенциал для роста масштабирования вычислений для инференса, поскольку взаимодействие с ИИ остается значительно более экономичным, чем традиционное чтение.
  • Будущие архитектуры моделей, как ожидается, превзойдут гибкость MoE, позволяя различным командам независимо разрабатывать различные компоненты модели.

Инсайты из окопов: Bug Bounties и будущие архитектуры

Разговор также вызвал интерес в социальных сетях, пользователи выделили интригующие концепции, такие как:

  • Потенциал хранения огромных моделей MoE в памяти.
  • Неожиданные преимущества ошибок в коде, которые, по мере увеличения масштаба, могут непреднамеренно привести к новаторским открытиям.

Дин оспорил представление о том, что вычислительные ресурсы ИИ непомерно дороги. Сравнив стоимость взаимодействия с книгой и взаимодействия с ИИ по поводу той же книги, он проиллюстрировал убедительный момент:

Самые передовые языковые модели работают с поразительно низкой стоимостью примерно $10^{-18}$ за операцию, что соответствует миллиону обработанных токенов за один доллар. В отличие от этого, покупка книги в мягкой обложке предлагает всего 10 000 токенов за доллар.

Эта резкая разница — стократное преимущество по стоимости для взаимодействия с ИИ — подчеркивает неиспользованный потенциал для повышения интеллекта ИИ за счет увеличения вычислительной мощности инференса.

С инфраструктурной точки зрения, растущая значимость вычислений во время инференса может изменить планирование центров обработки данных. Это может потребовать аппаратного обеспечения, специально разработанного для задач инференса, напоминающего TPU первого поколения Google, первоначально разработанные для инференса, а затем адаптированные для обучения.

Распределенные и асинхронные вычисления: Новая парадигма

Растущий акцент на инференсе предполагает, что постоянная связь между центрами обработки данных может стать ненужной, что потенциально приведет к более распределенной и асинхронной вычислительной модели.

Gemini 1.5 уже встал на этот путь, используя вычислительные ресурсы в нескольких крупных городах. Высокоскоростные сети синхронизируют вычисления из разных центров обработки данных, достигая беспрецедентных масштабов обучения. Для больших моделей, где каждый шаг обучения может занимать несколько секунд, даже сетевая задержка в 50 миллисекунд оказывает минимальное влияние.

В области инференса чувствительность к задержкам становится критическим соображением. В то время как немедленные ответы требуют оптимизированной производительности с низкой задержкой, несрочные задачи, такие как сложный контекстный анализ, могут допускать более длительное время обработки.

Более адаптивная и эффективная система могла бы асинхронно управлять несколькими задачами, повышая общую производительность и сводя к минимуму время ожидания пользователя. Кроме того, алгоритмические достижения, такие как использование небольших черновиков моделей, могут смягчить узкие места в процессе инференса. Этот подход включает в себя меньшие модели, генерирующие потенциальные токены, которые затем проверяются более крупными моделями, что значительно ускоряет процесс инференса за счет распараллеливания.

Шазир добавил, что во время асинхронного обучения каждая реплика модели работает независимо, отправляя обновления градиента в центральную систему для асинхронного применения. Несмотря на теоретические последствия незначительных колебаний параметров, этот метод оказался на удивление успешным.

В отличие от этого, синхронное обучение обеспечивает стабильность и воспроизводимость, что является предпочтительным для многих исследователей. Чтобы обеспечить воспроизводимость обучения, Дин подчеркнул практику ведения журналов операций, особенно обновлений градиента и синхронизации пакетов данных. Воспроизводя эти журналы, даже асинхронное обучение может давать воспроизводимые результаты, что упрощает отладку и смягчает несоответствия, вызванные факторами окружающей среды.

Случайная роль ошибок

Развивая эту тему, Шазир представил интригующую перспективу:

Хотя при обучении моделей встречаются различные ошибки, присущая этим моделям терпимость к шуму позволяет им самонастраиваться, что приводит к непредвиденным результатам. Некоторые ошибки даже приводят к положительным эффектам, предоставляя возможности для улучшения по мере того, как масштаб усиливает экспериментальные аномалии.

Когда его спросили о практике отладки, Шазир описал свой подход к проведению многочисленных мелкомасштабных экспериментов для быстрой проверки. Этот метод упрощает кодовую базу и сокращает циклы экспериментов до часов вместо недель, что облегчает быструю обратную связь и корректировки.

Дин согласился, отметив, что многие эксперименты с изначально неблагоприятными результатами впоследствии могут предоставить важные сведения. Однако исследователи сталкиваются с проблемой сложности кода; хотя постепенные улучшения необходимы, они также создают проблемы с производительностью и обслуживанием, требуя баланса между чистотой системы и инновациями.

Органическая структура будущих моделей

Дин и Шазир предвидят значительный сдвиг в моделях ИИ от монолитных структур к модульным архитектурам.

Такие модели, как Gemini 1.5 Pro, уже используют архитектуру Mixture of Experts (MoE), активируя различные компоненты в зависимости от задачи. Например, математические задачи задействуют раздел, владеющий математикой, а обработка изображений активирует соответствующий специализированный модуль.

Однако текущие структуры моделей остаются несколько жесткими, экспертные модули имеют одинаковый размер и не обладают гибкостью. Дин предложил более дальновидное видение: будущие модели должны принять органическую структуру, позволяющую различным командам независимо разрабатывать или улучшать различные части модели.

Например, команда, специализирующаяся на языках Юго-Восточной Азии, могла бы усовершенствовать соответствующий модуль, а другая — сосредоточиться на улучшении понимания кода. Этот модульный подход не только повышает эффективность разработки, но и позволяет глобальным командам вносить вклад в развитие модели.

Технически модели могут непрерывно оптимизировать отдельные модули с помощью дистилляции. Это включает в себя сжатие больших, высокопроизводительных модулей в меньшие, эффективные версии, которые затем продолжают изучать новые знания.

Маршрутизатор может выбирать соответствующую версию модуля в зависимости от сложности задачи, балансируя производительность и эффективность — концепция, лежащая в основе архитектуры Pathway Google.

Эта новая архитектура требует надежной инфраструктуры, включая мощные кластеры TPU и достаточный объем высокоскоростной памяти (HBM). Хотя каждый вызов может использовать только часть параметров модели, вся система должна хранить полную модель в памяти для обслуживания одновременных запросов.

Текущие модели могут разбить задачу на 10 подзадач с 80% успехом. Будущие модели потенциально могут разбить задачу на 100 или 1000 подзадач, достигнув 90% или более успеха.

Момент “Охренеть”: Точное распознавание кошек

Оглядываясь назад, 2007 год стал значительной вехой для больших языковых моделей (LLM).

В то время Google обучил N-граммную модель, используя 2 триллиона токенов для машинного перевода. Однако зависимость от дискового хранилища для данных N-грамм привела к высокой задержке из-за интенсивного ввода-вывода диска (например, 100 000 поисков/слово), что заняло 12 часов для перевода одного предложения.

Чтобы решить эту проблему, они разработали несколько стратегий, включая сжатие памяти, распределенную архитектуру и оптимизацию API пакетной обработки:

  • Сжатие памяти: Полная загрузка данных N-грамм в память, чтобы избежать ввода-вывода диска.
  • Распределенная архитектура: Распределение данных по нескольким машинам (например, 200) для параллельных запросов.
  • Оптимизация API пакетной обработки: Сокращение накладных расходов на запрос для повышения пропускной способности.

В этот период вычислительная мощность начала следовать закону Мура, что привело к экспоненциальному росту.

“С конца 2008 года, благодаря закону Мура, нейронные сети действительно начали работать.”

Когда его спросили о моменте “Охренеть” — моменте неверия в то, что конкретные исследовательские усилия действительно сработали, — Джефф рассказал о проекте ранней команды Google, в котором они обучили модель для изучения высокоуровневых функций (таких как распознавание кошек и пешеходов) из кадров видео YouTube. Благодаря распределенному обучению (2000 машин, 16 000 ядер) они достигли масштабного неконтролируемого обучения.

После неконтролируемой предварительной подготовки производительность модели в контролируемых задачах (ImageNet) улучшилась на 60%, что продемонстрировало потенциал масштабного обучения и неконтролируемого обучения.

Отвечая на вопрос о том, остается ли Google в первую очередь компанией по поиску информации, Джефф подчеркнул:

“ИИ выполняет первоначальную миссию Google.”

По сути, ИИ не только извлекает информацию, но и понимает и генерирует сложный контент, обладая огромным будущим потенциалом. Что касается будущего направления Google, “Я не знаю”.

Однако можно ожидать интеграции Google и некоторого кода с открытым исходным кодом в контекст каждого разработчика. Другими словами, позволяя моделям обрабатывать больше токенов, поиск внутри поиска еще больше повысит возможности и полезность модели.

Этот концепт уже экспериментируется внутри Google.

“Фактически, мы уже провели дальнейшее обучение модели Gemini для внутренних разработчиков на нашей внутренней кодовой базе.”

Точнее говоря, Google внутри компании достиг цели 25% своего кода, написанного ИИ.

Самые счастливые времена в Google

Интересно, что дуэт также поделился более интригующими впечатлениями, связанными с Google.

Для Ноама в 1999 году поступление в крупную компанию, такую как Google, изначально не привлекало, поскольку он чувствовал, что его навыки могут быть недостаточно использованы. Однако, увидев график ежедневного объема поисковых запросов Google, он быстро передумал:

“Эти люди обязательно добьются успеха, и, похоже, у них много интересных проблем, которые нужно решить.”

Он присоединился с конкретным “небольшим” намерением:

“Заработать немного денег, а затем с удовольствием заниматься своими собственными исследовательскими интересами в области ИИ.”

После поступления в Google он встретил своего наставника, Джеффа (новым сотрудникам назначались наставники), и они сотрудничали в нескольких проектах.

В этот момент Джефф вставил свою собственную оценку Google:

“Мне нравится широкий мандат Google на видение RM (Responsive and Multimodal), даже если это одно направление, мы можем делать много небольших проектов.”

Это также предоставило Ноаму свободу, которая привела к тому, что человек, который первоначально планировал “ударить и убежать”, остался надолго.

Между тем, когда тема перешла к Джеффу, был пересмотрен его дипломный проект по параллельному обратному распространению.

Эта 8-страничная статья стала лучшей дипломной работой 1990 года и хранится в библиотеке Университета Миннесоты. В ней Джефф исследовал два метода параллельного обучения нейронных сетей на основе обратного распространения:

  • Подход с разделением шаблонов: Представление всей нейронной сети на каждом процессоре и разделение входных шаблонов между доступными процессорами.
  • Подход с разделением сети (конвейерный подход): Распределение нейронов нейронной сети по доступным процессорам, образуя кольцо связи. Функции проходят через этот конвейер, обрабатываемый нейронами на каждом процессоре.

Он протестировал эти методы с нейронными сетями разных размеров и различными входными данными. Результаты показали, что для подхода с разделением шаблонов, более крупные сети и больше входных шаблонов приводили к лучшему ускорению.

Примечательно, что в статье показано, как выглядела “большая” нейронная сеть в 1990 году:

“3-слойная нейронная сеть с 10, 21 и 10 нейронами на слой считалась очень большой.”

Джефф вспомнил, что он использовал до 32 процессоров для своих тестов.

(В то время он, вероятно, не мог себе представить, что 12 лет спустя он, вместе с Эндрю Ыном, Куоком Ле и другими, будет использовать 16 000 ядер ЦП для идентификации кошек из массивных данных.)

Однако Джефф признал, что для того, чтобы эти результаты исследований действительно были эффективными, “нам нужно было примерно в миллион раз больше вычислительной мощности.”

Позже они обсудили потенциальные риски ИИ, особенно проблему обратной связи, когда ИИ становится чрезвычайно мощным. Другими словами, ИИ может войти в неконтролируемый цикл ускорения (т. е. “интеллектуальный взрыв”), написав код или улучшив свои алгоритмы.

Это может привести к тому, что ИИ быстро превзойдет человеческий контроль, даже создав вредоносные версии. Как выразился ведущий, представьте себе “миллион лучших программистов, таких как Джефф, в конечном итоге превращающихся в миллион злых Джеффов”.

(Netizen): “Разблокирован новый кошмар, ха-ха!”

Наконец, размышляя о своих самых счастливых временах в Google, оба поделились своими воспоминаниями.

Для Джеффа самыми радостными моментами в первые годы Google были свидетелями взрывного роста поискового трафика Google.

“Строить что-то, чем сейчас пользуются 2 миллиарда человек, невероятно.”

В последнее время он был в восторге от создания вещей с командой Gemini, в которые люди не поверили бы даже пять лет назад, и он предвидит, что влияние модели будет расширяться и дальше.

Ноам повторил аналогичный опыт и чувство миссии, даже с любовью упомянув “микро-кухни Google”.

Это особое пространство примерно с 50 столами, предлагающее кофе и закуски, где люди могут свободно общаться и обмениваться идеями.

При этом упоминании даже Джефф оживился (doge).