GPT-4.5: 100000 GPU и обучение

В редком взгляде за кулисы, OpenAI недавно поделилась деталями разработки своей самой амбициозной модели, GPT-4.5. Это откровение произошло спустя более месяца после выпуска модели, в откровенной 45-минутной беседе с участием соучредителя и генерального директора OpenAI, Сэма Альтмана, а также трех ключевых технических фигур из проекта GPT-4.5. В ходе обсуждения были раскрыты ранее неизвестные проблемы, в том числе значительные задержки по срокам, частые сбои в вычислительном кластере и непредсказуемые пути повышения производительности.

Зарождение GPT-4.5: Двухлетняя одиссея

Инициатива GPT-4.5, задуманная за два года до ее запуска, представляла собой наиболее тщательно спланированное начинание OpenAI на сегодняшний день. Она потребовала согласованных усилий сотен людей, при этом Альтман отметил, что проект фактически привлек ‘почти всех’ в OpenAI. Эта широкая вовлеченность подчеркивает стратегическую важность GPT-4.5 в рамках более широкой миссии организации.

Во время этапа разработки команда OpenAI столкнулась с тем, что они назвали ‘катастрофическими проблемами’. Развертывание кластера из 100 000 графических процессоров выявило скрытые уязвимости инфраструктуры, которые проявлялись в виде нечастых, но серьезных сбоев. Чтобы найти баланс между целесообразностью и оптимальной производительностью, системные инженеры приняли итеративный подход, по сути, ‘строя и исправляя’ одновременно. Один особенно неуловимый баг поражал кластер повторяющимися ошибками, оставаясь незамеченным до тех пор, пока процесс обучения не достиг примерно 40% завершения.

Парадоксально, но эти испытания способствовали укреплению технической базы OpenAI. Полученные знания теперь позволяют небольшой команде из всего 5-10 человек воспроизвести модель масштаба GPT-4. Скачок производительности от GPT-4 к GPT-4.5, оцененный примерно в десять раз, характеризовался ‘трудно поддающимся количественной оценке, но всесторонне улучшенным интеллектом’, что удивило даже тех, кто работал в OpenAI. Этот качественный скачок предполагает прогресс, выходящий за рамки простого масштабирования, указывая на фундаментальные улучшения в способности модели рассуждать и понимать.

Заглядывая вперед, OpenAI признает, что достижение следующего порядка величины в производительности будет зависеть не только от вычислительной мощности, но и от эффективности данных. Основное внимание уделяется разработке алгоритмов, которые могут извлекать больше знаний из существующих наборов данных, тем самым максимизируя полезность доступных вычислительных ресурсов.

Кроме того, архитектура развивается от однокластерной к многокластерной, представляя будущие сценарии обучения, включающие совместное обучение на целых 10 миллионах графических процессоров. Этот переход требует значительных улучшений в отказоустойчивости для обеспечения стабильности и надежности таких крупномасштабных распределенных систем.

В ходе беседы также обсуждались взаимосвязь между ‘длинным хвостом’ данных и законами масштабирования, преимущества тесного сотрудничества между командами машинного обучения и системными командами (совместное проектирование), суть неконтролируемого обучения и культура тщательного решения проблем.

Ключевые игроки, стоящие за GPT-4.5

Помимо Альтмана, в беседе приняли участие еще три члена команды OpenAI:

  • Алекс Пайно: Отвечает за алгоритмы машинного обучения предварительного обучения GPT-4.5.
  • Амин Тутунчян: Главный системный архитектор OpenAI.
  • Дэниел Сельсам: Исследует эффективность данных и алгоритмы.

Происхождение и эволюция GPT-4.5

Сэм Альтман: Что действительно нужно для создания такой большой модели, как GPT-4.5?

Алекс Пайно: Мы начали этот проект около двух лет назад. В то время OpenAI собиралась запустить новый большой вычислительный кластер, и наша команда увидела эту возможность и выполнила серию задач, чтобы определить функции, которые должна включать модель, и провела большое количество тестов операций по снижению рисков.

Мы разработали долгосрочный план для этого, включающий весь технологический стек от системы до машинного обучения. Снижение рисков и подготовка к обучению - это длительный процесс выполнения, и само обучение также является очень большим проектом.

Амин Тутунчян: Я думаю, что этот процесс требует тесного сотрудничества между командой машинного обучения и системной командой с самого начала, пока мы четко не узнаем, какую модель мы хотим обучить, а затем начать обучение.

Мы сделали прогнозы в машинном обучении и системах, пытаясь минимизировать разрыв между ожиданиями и реальностью. Однако, поскольку наш рабочий ритм очень быстрый и мы должны использовать новейшие вычислительные ресурсы, обучение модели стало чем-то, что трудно спланировать идеально заранее.

Мы почти всегда начинаем обучение с множеством нерешенных проблем и пытаемся преодолеть трудности и добиться прогресса в процессе. Основное решение - увеличить количество вычислительных ресурсов.

Финальный этап - это выполнение, которое требует, чтобы многие люди вкладывали много энергии и мотивации в течение длительного времени для завершения процесса обучения.

Сэм Альтман: Как вы думаете, насколько велик разрыв между нашими ожиданиями и реальностью?

Амин Тутунчян: С точки зрения системы, в начале мы обычно далеки от ожидаемого состояния. Мы всегда сталкиваемся с выбором: отложить ли запуск и дождаться решения проблемы или начать раньше и решить проблему в процессе. Это всегда требует компромиссов, чтобы избежать необоснованных задержек в процессе.

Но почти всегда возникают неожиданные проблемы, и что мы должны сделать, так это обработать эти узлы как можно больше, разобраться с неизвестными факторами и сформулировать план обучения модели.

Алекс Пайно: В этом проекте наша цель - создать GPT-4.5, что означает, что ее возможности должны быть в 10 раз умнее, чем у GPT-4. Это первоначальная цель, которую мы поставили около 2 лет назад.

В этом процессе произошло много всего. Мы думали о том, сможем ли мы сделать лучше или хуже, чем ожидалось? Это очень сложный процесс, но в конце концов, с точки зрения эффективных вычислений, которые мы вложили, мы получили модель, которая, как мы думаем, в 10 раз умнее, чем GPT-4.

Амин Тутунчян: С точки зрения выполнения, время, затраченное на проект GPT-4.5, далеко от того, что мы изначально ожидали.

Революция небольшой команды: Обучение GPT-4 с минимальными ресурсами

Сэм Альтман: Когда кластер расширился с 10 000 карт до 100 000 карт, почему вы столкнулись с таким количеством проблем?

Амин Тутунчян: Я думаю, что если системные разработчики достаточно чувствительны, большинство проблем можно наблюдать на небольшом этапе.

Есть также некоторые проблемы, которые не являются уникальными для этапа крупномасштабного обучения, но первоначально возникали часто, но станут катастрофическими проблемами после увеличения масштаба, особенно когда команда заранее не предвидела, что эти проблемы ухудшатся до такой степени.

Сэм Альтман: Что вызвало катастрофические последствия?

Амин Тутунчян: Я думаю, что проблемы инфраструктуры хорошо известны. Частота отказов, тип отказа и общее количество отказов очень высоки. Кластер из 100 000 карт - это крупномасштабный образец, поэтому мы также обнаружили проблемы, которые поставщик вычислительной мощности не наблюдал.

Сеть - это одна часть, и отдельные ускорители также могут иметь проблемы. Но в этом и заключается красота этой системы - почти все компоненты должны работать так, как ожидается, чтобы получить ожидаемые результаты. Наша работа заключается в том, чтобы свести эту проблему к минимуму.

Сэм Альтман: Действительно, трудно работать на пределе масштаба кластера, но я также заметил, что делать вещи, которые больше не находятся на переднем крае технологий, стало намного проще. Обучение GPT-4.5 требует сотен людей, и почти все в OpenAI участвуют.

Но сегодня, если вы выберете самую маленькую команду из OpenAI и переобучите GPT-4 с нуля со всеми знаниями, которые мы знаем, и всей системной работой, сколько людей потребуется?

Алекс Пайно: Я думаю, что сейчас может потребоваться около 5-10 человек, чтобы создать модель уровня GPT-4. Технологический стек был значительно улучшен в процессе завершения GPT-4.5.

Фактически, мы сделали нечто подобное в процессе обучения GPT-4.5 - мы обучили GPT-4o, который является моделью уровня GPT-4, и переобучили ее, используя многие из тех же материалов из исследовательского проекта GPT-4.5. Для этого обучения было задействовано меньше людей.

Эффективность данных: Ключ к разблокировке следующего поколения моделей

Сэм Альтман: С вашей точки зрения, Дэн? Почему трудно обучать большие модели?

Дэниел Сельсам: Я думаю, что трудно делать что-то новое. Я думаю, что даже просто обнаружить, что кто-то другой что-то сделал, намного облегчает задачу, потому что самое трудное - это верить, что ты можешь что-то сделать в первую очередь. Я думаю, что просто знать, что что-то возможно, - это супер чит-код, который делает вещи намного проще.

Алекс Пайно: Мы расширяем операцию предварительного обучения GPT в 10 раз по сравнению с тем, что было раньше, и мы всегда будем находить какие-то интересные новые вещи, которые вы не обязательно можете предсказать.

Сэм Альтман: Что необходимо для достижения следующего 10-кратного или 100-кратного роста в масштабе предварительного обучения?

Дэниел Сельсам: Эффективность данных. Архитектура Transformer (которая является GPT) очень эффективна в использовании данных. Она может хорошо поглощать и сжимать информацию и достигать обобщения. Ее самая большая особенность заключается в том, что она может эффективно поглощать информацию с помощью вычислительных ресурсов.

Однако глубина понимания, которую она получает из данных, ограничена. Когда вычислительная мощность растет быстро, а данные растут относительно медленно, данные становятся узким местом в этой стандартной модели. Это требует алгоритмических инноваций, разработки методов, которые могут использовать больше вычислительной мощности для изучения большего количества знаний из того же объема данных.

Сэм Альтман: Что еще, по вашему мнению, нам нужно для поддержания расширения, помимо этого?

Амин Тутунчян: Мой ответ касается системы. Я думаю, что огромный объем работы, необходимой для GPT-4.5, по сути, является неизбежным результатом спецификаций модели. Мы не можем обучить GPT-4.5 с точно такой же технической архитектурой, как GPT-4.

С точки зрения управления состоянием, поскольку требуемые вычислительные ресурсы превысили пропускную способность одного кластера, мы должны перейти к многокластерной архитектуре обучения. Для достижения этой цели мы должны интегрировать несколько различных рабочих процессов за короткое время.

Хотя это действительно помогло нам достичь поэтапного прорыва, чтобы достичь следующего порядка величины в улучшении производительности, нам все еще нужно решить несколько известных, но временно отложенных технических проблем - этих проблем нельзя избежать. Именно этот вид технических компромиссов постоянно продлевает цикл разработки идеальной системы. Мы всегда делаем стратегические компромиссы в процессе достижения оптимального плана реализации.

Необходимо четко понимать, что сама система не является конечной целью. Ее фактическое выходное значение является основным соображением. Для следующего 10-кратного улучшения производительности я думаю, что прорыв в отказоустойчивости имеет решающее значение. Нам необходимо построить механизм отказоустойчивости, который глубоко сотрудничает с рабочей нагрузкой, чтобы значительно снизить беспокойство по поводу эксплуатации и обслуживания. Сложность эксплуатации и обслуживания нынешней сверхбольшой системы существенно отличается от сложности предыдущих систем.

Сэм Альтман: Знаете ли вы, какой процент отказов был вызван определенными компонентами во время обучения GPT-4.5?

Амин Тутунчян: У меня нет конкретных цифр, которыми можно поделиться, но в целом первоначальное развертывание нового поколения оборудования часто сталкивается со многими техническими проблемами, которые не были полностью поняты. Мы решили продвигать проект до того, как проблема была полностью выяснена, что привело к высокой начальной частоте отказов.

Но опыт показывает, что по мере выявления и устранения первопричины частота отказов будет значительно снижена. Это явление по существу отражает наше углубляющееся понимание инфраструктуры - некоторые называют это очисткой инфраструктуры или пониманием основных проблем инфраструктуры.

Ранние этапы выполнения почти всегда довольно болезненны. Пока мы продвигаем проект, мы также постоянно обнаруживаем и решаем новые режимы отказа, но в конечном итоге частота отказов будет постепенно уменьшаться, а нормальное время работы увеличится.

Это, по существу, вопрос компромиссов приоритетов: на ранних этапах жизненного цикла инфраструктуры риск ее отказа часто трудно точно оценить; и если мы чрезмерно стремимся к конечному идеальному состоянию (оригинальное название - ‘City Estate’, дизайн идеального города-государства), это может привести к тому, что начальная производительность системы будет крайне низкой.

За пределами вычислений: Алгоритмические инновации и неиспользованный потенциал данных

Сэм Альтман: Хотя модель вывода является ключевым компонентом нашего будущего технологического стека, давайте временно сосредоточимся на границах разработки традиционных моделей предварительного обучения. Предположим, что у нас есть неограниченная вычислительная мощность GPU, неограниченная пропускная способность сети и неограниченное электроснабжение, но мы по-прежнему ограничены существующими техническими узкими местами - включая проблемы надежности системы, отсутствие отказоустойчивых методов обучения и ограничения существующих наборов данных.

Согласно нашему правилу эволюции достижения 100-кратного увеличения масштаба для каждой основной версии GPT, на основе текущих технических границ, какого уровня может достичь разработка моделей предварительного обучения? В частности, для моделей серии GPT, на основе нашей существующей системы знаний, какую модель теоретически можно обучить? Можем ли мы создать GPT-5.5?

Алекс Пайно: С точки зрения машинного обучения и разработки алгоритмов, мы еще не достигли четкого теоретического предела. Фактически, мы только начали изучать алгоритмы с более высокой эффективностью данных и то, как в большей степени использовать существующие ресурсы данных. Эта ситуация очень интересна - даже такие модели, как GPT-4, в значительной степени разрабатываются в условиях ограниченных вычислительных ресурсов, что определило направление большинства предыдущих исследований.

Но сейчас ситуация совершенно иная. Начиная с GPT-4.5, в некоторых ключевых измерениях данные, а не вычисления, становятся основным ограничением. Этот сдвиг делает связанные исследования менее захватывающими.

Сэм Альтман: Но это действительно удивительный прогресс, и мир, возможно, не полностью осознает, что вычислительные ресурсы больше не являются основным узким местом для лучшей модели, которую мы можем построить. Этот сдвиг очень значителен, в конце концов, мы слишком долго жили в вычислительно ограниченной среде.

Открытие сюрпризов: Предсказуемость против непредвиденного интеллекта

Сэм Альтман: Какой самый интересный опыт машинного обучения мы получили во время обучения GPT-4.5? Просто скажите, чем хотите поделиться.

Амин Тутунчян: В целом, самые заставляющие задуматься вещи - это те, которые отклоняются от наших прогнозов - особенно когда мы пытаемся понять, почему фактическая производительность отклоняется от ожидаемой кривой.

Алекс Пайно: Одним из самых удивительных открытий для нас является то, что разные компоненты машинного обучения имеют очень разные характеристики масштабируемости. Некоторые части можно расширять очень хорошо, а другие - нет. Это то, что мы действительно поняли во время фактического процесса обучения. Этот опыт дал нам много вдохновения.

Дэниел Сельсам: Я думаю, что двумя основными характеристиками парадигмы GPT являются: во-первых, тестовые потери (метрика, которая измеряет, насколько хорошо модель работает на невиданных тестовых данных) можно точно предсказать; во-вторых, производительность модели демонстрирует предсказуемое улучшение с увеличением масштаба. Что еще более удивительно, так это то, что сокращение тестовых потерь будет преобразовано во всесторонне улучшенный уровень интеллекта различными трудно поддающимися количественной оценке, но удивительными и загадочными способами.

Сэм Альтман: Вы абсолютно оптимистичны в этом отношении? Вы полностью согласны с этой точкой зрения?

Дэниел Сельсам: На самом деле, я хочу сказать, что мы обнаружили особенно интересное явление в тесте GPT-4.5 - после повторного тестирования многие сложные возможности, продемонстрированные моделью, полностью превзошли все ожидания.

Мы уверены, что она станет умнее различными способами, которые трудно определить заранее, и эти тонкие улучшения можно наблюдать по удовлетворенности пользователей после фактического развертывания: более сильные резервы здравого смысла, более точная способность контекстного понимания и более тонкое понимание семантики - это волшебство, принесенное этими дополнительными тестовыми потерями. На мой взгляд, Закон масштабирования был прекрасно подтвержден в этом измерении.

Сила сотрудничества: Команды машинного обучения и системные команды, работающие в гармонии

Сэм Альтман: Какой был самый позитивный момент за весь процесс обучения? Какое ваше любимое воспоминание? Очевидно, что было много боли, но я надеюсь, что эта боль была облегчена.

Алекс Пайно: У меня действительно есть такой момент. Мы проделали большую работу по машинному обучению во время обучения, и я думаю, что некоторые изменения, которые мы внесли в процессе, оказали довольно хорошее влияние, возможно, даже лучше, чем ожидалось, что было очень захватывающим моментом для нас.

Амин Тутунчян: Для меня, одновременно с обучением, мы также строим инфраструктуру. Мы твердо верим, что сможем преодолеть этот выступ производительности, и у нас есть план, и все его выполняют, но это занимает много времени. Это тяжелая работа и, безусловно, сложнее, чем я думал. Мой прогноз был неверным, и я недооценил время, которое потребуется для решения этих проблем.

Момент, когда команда, наконец, преодолела эти ключевые проблемы и производительность значительно улучшилась, все еще свеж в моей памяти. Вы можете ясно почувствовать изменение энергии во всей команде - все внезапно полны энергии и устремляются к конечной цели с новой мотивацией.

Самое удивительное, что предполагаемое время завершения, отображаемое в нашем трекере статуса, продолжало сокращаться с первоначальных двух лет и, наконец, зафиксировалось на четком временном узле. Этот видимый прогресс неизмерим для повышения морального духа команды. Я думаю, что в этом и заключается красота.

Я хотел бы подчеркнуть, что работа по машинному обучению никогда не прекращалась. Даже после начала обучения этот процесс совместного проектирования машинного обучения все еще продолжается. Команда машинного обучения не только активно отслеживала проблемы, которые были помечены как ‘последующая обработка’, но и продолжала предоставлять улучшения, которые действительно оптимизировали время обучения.

Это прекрасно воплощает наш командный дух - здесь нет границы работы ‘подметать снег перед своей дверью’, а есть действительно бесшовное сотрудничество. Эта сплоченность является нашим самым большим преимуществом.

Тщательное планирование и неустанное преследование аномалий в предварительном обучении GPT-4.5

Дэниел Сельсам: Внешний мир много обсуждал проблемы и прогностическую точность этого обучения. Но на самом деле все это построено на чрезвычайно тщательном планировании - можете ли вы рассказать об этом более подробно?

Алекс Пайно: Это определенно самый тщательный план, который мы составили до сих пор. Как я уже сказал, мы начали подготовку к этому проекту за год до официального запуска обучения. В течение этого периода мы провели несколько крупномасштабных тестовых запусков по контролю рисков.

Мы уделяем особое внимание постепенному внедрению всех улучшений: начиная с базовой конфигурации с высокой степенью уверенности - которую можно понимать как зрелую архитектуру, похожую на GPT-4, мы полностью освоили эту конфигурацию на уровне машинного обучения - а затем наслоение новых функций, как строительные блоки.

Ключ заключается в строгой проверке масштабируемости каждого улучшения в разных масштабах: не только для того, чтобы увидеть улучшения производительности, но и для того, чтобы гарантировать, что эти улучшения могут продолжать быть эффективными по мере увеличения размера модели. Многие улучшения хорошо работают в мелкомасштабных тестах, но терпят неудачу в крупномасштабных приложениях.

Поэтому мы поддерживали высокую степень бдительности на протяжении всего процесса и продолжали итеративно улучшать нашу методологию закона масштабирования. Благодаря этой практике контроля рисков мы накопили большой ценный опыт, который будет продолжать направлять разработку будущих моделей серии GPT.

Амин Тутунчян: Я помню особенно интересный момент, по которому я очень скучаю. Вы знаете, мы почти неизбежно сталкиваемся с различными ошибками каждый раз, когда начинаем задачу обучения, что является обычным явлением. Но ключ в том, чтобы обеспечить, чтобы прогресс не был затруднен, и мы всегда должны подтверждать, действительно ли текущий прогресс находится на правильном пути и окажут ли эти ошибки фатальное воздействие на здоровье обучения.

Хотя мы изначально были очень уверены, что есть серьезные недостатки, благодаря всей системе мониторинга, которую мы построили, мы смогли точно различить первопричину проблемы: Это сбой оборудования? Какой тип сбоя оборудования? Это повреждение данных? Или это ошибка в самой модели машинного обучения? Или это состояние гонки в коде?

В то время у нас было открыто несколько областей обсуждения проблем одновременно, с широким спектром симптомов. После серии исправлений ошибок мы зашли в тупик: перед нами было нагромождено несколько нерешенных проблем, и все ломали голову - были ли они вызваны разными ошибками? Или это ошибка, которая вызывает проблемы?

Позже мы провели голосование и попросили членов команды проголосовать за наиболее вероятную первопричину. В результате самый пессимистичный вариант попал в точку: оказалось, что проблема была с функцией torch.sum выше по потоку PyTorch, простой операцией суммирования.

Эта ошибка очень интересна. Вы знаете, что мы в основном используем ядро Triton, и только в некоторых незначительных маргинальных сценариях мы будем возвращаться к операциям torch. Ошибка функции torch.sum, вызванная нашим конкретным путем кода, иногда вызывает незаконный доступ к памяти из-за характеристик распределения данных - она совершила ошибку при вычислении смещения памяти.

Самое драматичное, что когда инженер, наконец, локализовал проблему и отправил исправление, все ошибки с разными симптомами исчезли. Все взволнованно сменили канал Slack с ‘теории множественных ошибок’ на ‘теорию единственной ошибки’, и сцена была очень счастливой.

Как долго эта ошибка скрывалась? Она существовала с ранних этапов обучения и не была обнаружена до тех пор, пока полоса прогресса не прошла около 40%. Процесс обнаружения также был полон драмы: В то время сложное ядро непрерывно вызывало последовательность, и второй вызов вызвал незаконный доступ к памяти.

Хотя эта частота сбоев чрезвычайно низка (она происходит только один раз в несколько сотен или даже тысяч шагов обучения), ее легко игнорировать как случайный сбой, но наш командный принцип: никогда не отпускать ни одной аномалии. Лучшая часть этой истории заключается в этой настойчивости, чтобы не сдаваться легкомысленно.

Стремление к идеальным системам: Далекий горизонт

Сэм Альтман: После начала предварительного обучения GPT-4.5, что еще вы должны сделать?

Алекс Пайно: Всем нам необходимо часто наблюдать за кривой потерь. Кроме того, нам необходимо постоянно оптимизировать систему и улучшать совместное проектирование, которое не было завершено до начала обучения. Мы внимательно следим за различными статистическими показателями во время процесса обучения, чтобы убедиться, что нет никаких неожиданных аномальных тенденций. В то же время мы изучаем возможные планы улучшений с точки зрения машинного обучения. Хотя работа на уровне данных будет временно сокращена после начала предварительного обучения, остается еще большое количество задач, которые необходимо обработать.

Амин Тутунчян: Я думаю, что машинное обучение в значительной степени зависит от правильности суждения. После начала предварительного обучения, столкнувшись с большим количеством шумовых сигналов, мы похожи на гадалок, интерпретирующих чайные листья, и нам нужно судить, здорова ли система. Это наша ответственность.

Сэм Альтман: На системном уровне, что ограничивает нас в проведении обучения модели? Это чипы, процессоры, память, сеть или питание?

Амин Тутунчян: Красота системы заключается в том, что при совместном проектировании рабочая нагрузка может адаптироваться к инфраструктуре, которую вы строите. Здесь нет общего мнения о том, что сеть является узким местом или пропускная способность памяти является узким местом, и так далее. Даже для моделей с одинаковыми спецификациями мы можем выбирать для передачи требований к ресурсам, и мы можем выбирать для создания более сбалансированной системы, но наличие большей пропускной способности памяти всегда полезно. Трудно ответить на этот вопрос без ограничивающих условий.

При проектировании GPT-4.5 нам может потребоваться, чтобы система имела какой-то атрибут, который необходимо сгенерировать под руководством человека. Поэтому совместное проектирование очень важно для формирования архитектуры модели и архитектурных элементов и в определенной степени связывает системные и машинные аспекты. Если у системы есть атрибут, который мы не хотим иметь очень сильно, моя идеальная ситуация заключается в том, что все должно быть разделено, чтобы дать друг другу максимальное пространство.

Иногда вещи связаны вместе, и нам нужно соответствовать требованиям инфраструктуры, или вещи должны быть такими. Большую часть времени нам нужна сбалансированная система и сбалансированная связь. И лучшее средство корректировки, которое у нас есть, - это все эти совместные проекты.

Сэм Альтман: Как далеко мы от этой идеальной цели системы?

Амин Тутунчян: До этой цели еще далеко. Процесс построения системы всегда выглядит так: сначала есть идеализированное представление о том, как все должно работать, а затем согласовываются эти различия с существующими ресурсами.

Я думаю, что мы делаем это не для теории ради теории, а просто для того, чтобы обсудить, чем мы хотим, чтобы это стало, реализовать это и приблизиться к этому идеалу как можно ближе. Это может быть самой захватывающей частью системной области. Люди раньше говорили, что это элегантный системный дизайн, и в конечном итоге история покажет нам, правильный это выбор или неправильный.

Сэм Альтман: Если бы вы могли получить ответ на проблему машинного обучения до следующего крупного обучения, что бы вы больше всего хотели узнать?

Алекс Пайно: Я хотел бы знать, какие алгоритмы мы должны использовать при ограниченных данных и в конкретных областях. Хотя это широкий вопрос, он действительно является самым важным.

Сэм Альтман: Будете ли вы проводить синхронное предварительное обучение с 10 миллионами GPU или более в будущем?

Алекс Пайно: Я думаю, что будут, но это может быть не традиционная модель предварительного обучения. Ее форма может сильно отличаться от существующих технологий, но она по-прежнему сохранит ядро неконтролируемого обучения.

Амин Тутунчян: Я предпочитаю полусинхронный режим. Из-за физических законов полная синхронизация нереальна.

Дэниел Сельсам: Я думаю, что более вероятно, что это будет децентрализовано. Обязательно будет 10 миллионов GPU, работающих вместе в системе искусственного интеллекта для обучения и выполнения задач, но, как и различные части мозга, они могут не обязательно общаться друг с другом.

Синергетическая сила алгоритмических улучшений и эффективности данных

Сэм Альтман: Насколько велик разрыв между самыми передовыми алгоритмами и эффективностью человеческих данных? Можем ли мы надеяться догнать в будущем?

Дэниел Сельсам: Трудно напрямую сравнивать эти два понятия. Разрыв в изучении языков определенно огромен. Ключ в том, как определить объем информации, полученной человеческими зрительными нервами. Я думаю, что алгоритмы, как правило, гораздо менее эффективны в отношении данных, чем люди.

В течение десятилетий глубокое обучение было сосредоточено на эффективности вычислительной мощности. В дополнение к росту данных и вычислительной мощности, что действительно удивительно, так это синергетический эффект, производимый алгоритмическими улучшениями. Каждый раз, когда производительность алгоритма улучшается на 10% или 20%, это оказывает значительное влияние при наложении на эффективность данных. До сих пор не было никакой мобилизации вокруг эффективности данных, потому что этот подход не стоит того, когда данные не циркулируют и вычислительная мощность ограничена.

Теперь мы вступаем в новый этап исследований ИИ, и мы начнем накапливать победы в эффективности данных. Я думаю, что несколько глупо предсказывать сейчас, что мы столкнемся с непреодолимыми препятствиями. То, как работает человеческий мозг, безусловно, отличается от наших алгоритмических улучшений, и мы должны быть осторожны в этом отношении. Но я думаю, что мы должны сохранять оптимизм в отношении будущего развития алгоритмов.

Сэм Альтман: Какова корреляция между более масштабным предварительным обучением и более сильными способностями модели к обучению и рассуждению?

Алекс Пайно: Мы наблюдали, что лучшее предварительное обучение и неконтролируемое обучение часто улучшают общий интеллект модели и оказывают большую помощь в обобщении. Это дополняет способность к рассуждению, в то время как рассуждение может быть более вялым в улучшении интеллекта. Я думаю, что они дополняют друг друга.

Сэм Альтман: Предварительное обучение, кажется, является общим во многих вещах, в то время как обучение модели может только заставить ее хорошо делать одну вещь, верно?

Алекс Пайно: Это очень интересно, но вас не удивит эта ситуация, когда вы увидите данные, которые их обучают. Диапазон набора данных предварительного обучения очень велик, и то, что мы преследуем, - это широта и разнообразие. Когда дело доходит до обучения модели с подкреплением и обеспечения того, чтобы она четко получала хорошие сигналы вознаграждения и хорошую среду обучения, я думаю, что трудно сбалансировать широту набора данных.

Дэниел Сельсам: Я согласен, но я думаю, что есть еще один фактор. Предварительное обучение - это, по сути, сжатие данных, тем самым обнаруживая связи между разными вещами. Речь идет об аналогиях и более абстрактных вещах. Рассуждение - это навык, который требует тщательного обдумывания конкретной проблемы и также может получить решения многих типов проблем. Однако в процессе предварительного обучения можно изучить более абстрактные знания при сжатии данных из разных областей.

Суть интеллекта: Сжатие и эффект длинного хвоста

Сэм Альтман: Почему неконтролируемое обучение эффективно?

Дэниел Сельсам: Ключ в сжатии. Идеальная форма интеллекта - это индукция Соломонова. В целом, машинное обучение будет рассматривать все возможности, но, как правило, начинает тестирование с более простых программ.

Суть нынешнего предварительного обучения - это процесс сжатия, который достигает приблизительного выражения путем поиска самой простой программы для объяснения всех данных, произведенных людьми до сих пор.

Сэм Альтман: Как предсказание следующего токена помогает достичь сжатия?

Дэниел Сельсам: В статистике есть парадокс - почему глубокие сети могут достигать обобщения, даже если они кажутся неспособными к сжатию? Обычно, когда у вас много данных и несколько небольших моделей, эти модели должны пройти через сжатие, чтобы чему-то научиться.

В предварительном обучении масштаб данных и моделей очень велик. Некоторые люди думают, что это обучение - это просто память и интерполяционное обучение. Фактически, они игнорируют другую перспективу понимания сжатия - предварительное сжатие. Это похоже на компрессор. Даже если вес данных очень велик, двоичный файл не нужно хранить эту информацию. Результат предсказания следующего токена может быстро извлечь полезную информацию и повысить эффективность сжатия.

Сэм Альтман: Процесс обучения GPT-4.5 стоил много рабочей силы, времени и денег, что на самом деле можно рассматривать как эксперимент для проверки Закона масштабирования, и результаты доказывают, что он эффективен и будет продолжаться в течение длительного времени. Почему Закон масштабирования можно назвать законом Вселенной?

Дэниел Сельсам: Чем выше степень сжатия, тем сильнее интеллект. Это имеет глубокие философские коннотации. Почему требуется больше времени для обучения более крупных моделей, и скорость сжатия выше? Это включает в себя множество теорий, среди которых мне нравятся Sparse Representations.

Ключевые концепции в реальности следуют степенному распределению. Например, 100-я важная концепция может появляться только один раз в каждых 100 документах, и существует очевидный эффект длинного хвоста. Эта характеристика распределения приводит к необходимости в крупномасштабных данных и вычислительной мощности для эффективного захвата всех ключевых концепций, а также определяет, что Закон масштабирования будет продолжать эффективно существовать в течение длительного времени.