Преодоление ‘Катастрофических Проблем’ при Крупномасштабном Обучении
Разработка GPT-4.5, проекта, начатого два года назад, представляет собой самое амбициозное начинание OpenAI на сегодняшний день. Это масштабное предприятие потребовало совместных усилий сотен людей, и, как отметил Сэм Альтман, генеральный директор OpenAI, проект потребовал почти полного вовлечения всей организации.
Создание GPT-4.5 не обошлось без трудностей. Команда столкнулась с многочисленными ‘катастрофическими проблемами’ на этапе исследований и разработок. Использование кластера из 100 000 графических процессоров выявило ранее невидимые, маловероятные, но серьезные сбои в инфраструктуре. Чтобы сбалансировать скорость и оптимальную производительность, команда систем OpenAI была вынуждена принять подход ‘исправляй по ходу’. Одна особенно неуловимая ошибка преследовала кластер частыми ошибками, оставаясь незамеченной примерно до 40% процесса обучения.
Несмотря на эти проблемы, проект GPT-4.5 катализировал разработку более надежного технологического стека. Сегодня небольшая команда всего из 5-10 человек может воспроизвести большую модель, подобную GPT-4. Увеличение производительности от GPT-4 к GPT-4.5 было примерно десятикратным, что дало ‘интеллект, который трудно количественно оценить, но улучшенный во всех аспектах’, результат, который удивил даже сотрудников OpenAI.
Смещение Фокуса: от Вычислительной Мощности к Эффективности Данных
OpenAI пришла к осознанию того, что достижение следующего десятикратного или стократного скачка в производительности зависит не от грубой вычислительной мощности, а от эффективности данных - в частности, от способности извлекать больше знаний из того же количества данных, используя при этом больше вычислительных ресурсов.
Архитектура также эволюционирует от однокластерной к многокластерной парадигме. Будущие итерации обучения могут включать совместное обучение на 10 миллионах графических процессоров, что потребует повышенной отказоустойчивости.
Диалог Сэма Альтмана с Командой GPT-4.5
Ниже приведена отредактированная компиляция обсуждения между Сэмом Альтманом и командой OpenAI GPT-4.5:
Сэм Альтман: Что нужно для создания такой большой модели, как GPT-4.5?
Алекс Пайно: Мы начали этот проект около двух лет назад. В то время OpenAI собиралась запустить новый большой вычислительный кластер, и наша команда увидела в этом возможность провести серию операций для определения функций, которые необходимо включить в модель, и провела большое количество тестов для снижения рисков.
У нас разработан долгосрочный план, охватывающий весь технологический стек от системы до машинного обучения. Снижение рисков и подготовка к обучению - это длительный процесс, а само обучение - очень большой проект.
Амин Тутунчян: Я думаю, что этот процесс требует тесного сотрудничества между командой машинного обучения и командой систем с самого начала, пока мы не выясним, какую модель мы хотим обучить, а затем начнем обучение.
Мы делали прогнозы как в машинном обучении, так и в системных аспектах, пытаясь максимально сузить разрыв между ожиданием и реальностью. Но поскольку наш рабочий ритм быстрый и нам приходится использовать новейшие вычислительные ресурсы, обучение модели стало чем-то, что трудно идеально спланировать заранее.
Мы почти всегда начинаем обучение с множеством нерешенных проблем и пытаемся преодолеть трудности и добиться прогресса в процессе работы. Основное решение - добавить больше вычислительных ресурсов.
Финальный этап - это исполнение, которое требует от многих людей вложения большого количества энергии и мотивации в течение длительного времени для завершения процесса обучения.
Сэм Альтман: Насколько, по вашему мнению, велик разрыв между нашими ожиданиями и реальностью?
Амин Тутунчян: С точки зрения системы, мы обычно далеки от ожидаемого состояния в начале. Мы всегда сталкиваемся с выбором: отложить ли старт и дождаться решения проблемы, или начать раньше и решать проблему в процессе. Это всегда требует компромисса, чтобы избежать необоснованных задержек в процессе.
Но почти всегда возникают какие-то неожиданные проблемы, и что мы должны делать, так это справляться с этими узлами как можно больше, справляться с неизвестными факторами и формулировать план обучения модели.
Алекс Пайно: В этом проекте наша цель - создать GPT-4.5, что означает, что ее возможности должны быть в 10 раз умнее, чем GPT-4. Это изначальная цель, которую мы поставили около 2 лет назад.
В процессе произошло много всего. Мы думали о том, сможем ли мы сделать лучше или будет хуже, чем ожидалось? Это очень сложный процесс, но в конце концов, с точки зрения эффективных вычислений, которые мы вложили, мы получили модель, которая, по нашему мнению, достигла в 10 раз большей сообразительности, чем GPT-4.
Амин Тутунчян: С точки зрения исполнения, время, затраченное на проект GPT-4.5, далеко от того, что мы изначально ожидали.
Сэм Альтман: Почему вы столкнулись с таким количеством проблем, когда кластер расширился с 10 000 карт до 100 000 карт?
Амин Тутунчян: Я думаю, что если разработчики системы достаточно чувствительны, большинство проблем можно наблюдать на малой стадии.
Некоторые проблемы не являются уникальными для крупномасштабной стадии обучения, но часто возникали и раньше, но станут катастрофическими проблемами после увеличения масштаба, особенно когда команда не предвидела, что эти проблемы ухудшатся до такой степени.
Сэм Альтман: Какие вещи вызвали катастрофические последствия?
Амин Тутунчян: Я думаю, что проблемы с инфраструктурой хорошо известны, будь то частота отказов, тип отказов или общее количество отказов очень высоки. Кластер из 100 000 карт - это крупномасштабный пул образцов, поэтому мы также обнаружили проблемы, которые поставщик вычислительной мощности не наблюдал.
Сеть - одна из них, и отдельные ускорители также могут иметь проблемы. Но в этом и прелесть этой системы - почти все компоненты должны работать так, как ожидалось, чтобы получить ожидаемые результаты. Наша задача - максимально минимизировать эту проблему.
Сэм Альтман: Действительно, трудно работать на пределе размера кластера, но я также заметил, что стало намного проще делать вещи, которые больше не находятся на переднем крае технологий. Обучение GPT-4.5 требует сотен людей, и в OpenAI почти все на борту.
Но сегодня, если бы вы выбрали самую маленькую команду из OpenAI и переобучили GPT-4 с нуля со всеми знаниями и системной работой, которые мы знаем, сколько бы людей это потребовало?
Алекс Пайно: Я думаю, что сейчас может потребоваться около 5-10 человек, чтобы сделать модель уровня GPT-4. Технологический стек значительно улучшился в процессе завершения GPT-4.5.
На самом деле, мы делали подобные вещи в процессе обучения GPT-4.5 - мы обучили GPT-4o, который является моделью уровня GPT-4, и переобучили ее, используя много того же контента из исследовательского проекта GPT-4.5. Для этого обучения было использовано меньше людей.
Сэм Альтман: С вашей точки зрения, Дэн? Почему трудно обучать большие модели?
Дэниел Селсам: Я думаю, что трудно делать что-то новое. Я думаю, что даже простое открытие того, что кто-то другой что-то сделал, значительно облегчает задачу, потому что самое трудное - это иметь веру, чтобы сделать что-то в первую очередь. Я думаю, что просто знание того, что что-то возможно, - это супер-чит-код, который значительно облегчает задачу.
Алекс Пайно: Мы расширяем прогон предварительного обучения GPT в 10 раз по сравнению с его предыдущим размером, и мы всегда находим какие-то интересные новые вещи, которые нельзя обязательно предсказать.
Сэм Альтман: Что нужно для достижения следующего 10-кратного или 100-кратного роста в масштабе предварительного обучения?
Дэниел Селсам: Эффективность данных. Архитектура Transformer (то есть GPT) очень эффективна в использовании данных. Она может хорошо поглощать и сжимать информацию и достигать обобщения. Ее самая большая особенность заключается в том, что она может эффективно поглощать информацию с помощью вычислительных ресурсов.
Однако глубина понимания, которое она получает из данных, ограничена. Когда вычислительная мощность быстро растет, а данные растут относительно медленно, данные становятся узким местом для этой стандартной модели. Это требует алгоритмических инноваций для разработки методов, которые могут использовать больше вычислительной мощности для изучения большего количества знаний из того же объема данных.
Сэм Альтман: Что еще, по вашему мнению, нам нужно для поддержания расширения?
Амин Тутунчян: Мой ответ касается системы. Я думаю, что огромный объем работы, необходимой для GPT-4.5, по сути, является неизбежным результатом спецификаций модели. Мы не можем обучить GPT-4.5 с той же технической архитектурой, что и GPT-4.
С точки зрения управления состоянием, поскольку требуемые вычислительные ресурсы превысили возможности одного кластера, мы должны перейти к многокластерной архитектуре обучения. Чтобы достичь этой цели, мы должны интегрировать несколько различных рабочих процессов в короткий период времени.
Хотя это действительно помогло нам достичь прорывов на этапе, для достижения следующего порядка величины улучшения производительности нам все еще необходимо решить несколько известных, но временно отложенных технических проблем - этих проблем нельзя избежать. Именно этот вид технического компромисса постоянно продлевает цикл исследований и разработок идеальной системы, и мы всегда делаем стратегические компромиссы в процессе реализации оптимального плана реализации.
Должно быть ясно, что сама система не является конечной целью, и ее фактическая выходная ценность является основным соображением. Для следующего 10-кратного повышения производительности я думаю, что прорыв в отказоустойчивости имеет решающее значение. Нам необходимо создать механизм отказоустойчивости, который глубоко синергичен с рабочей нагрузкой, чтобы значительно снизить тревогу при эксплуатации и обслуживании. Сложность эксплуатации и обслуживания нынешних сверхкрупных систем по существу отличается от предыдущих систем.
Сэм Альтман: Знаете ли вы, какой процент сбоев был вызван определенными компонентами во время обучения GPT-4.5?
Амин Тутунчян: У меня нет конкретных цифр, которыми можно поделиться, но в целом на ранних этапах развертывания нового поколения оборудования системная эксплуатация часто сталкивается со многими техническими проблемами, которые не до конца поняты. Мы решили продвигать проект до того, как проблема была полностью определена, что привело к высокой первоначальной частоте отказов.
Но опыт показал, что по мере выявления и устранения основной причины частота отказов значительно снижается. Это явление по существу отражает наше углубляющееся понимание инфраструктуры - некоторые называют это очисткой инфраструктуры или пониманием основных проблем инфраструктуры.
Ранние этапы выполнения почти всегда довольно болезненны. Продвигая проект, мы также постоянно обнаруживаем и решаем новые режимы сбоев, но частота отказов будет постепенно снижаться, а время нормальной работы будет увеличиваться.
Это по существу вопрос компромиссов в приоритетах: на ранних этапах жизненного цикла инфраструктуры риск ее отказа часто трудно точно оценить; и если мы чрезмерно стремимся к конечному идеальному состоянию (оригинал - ‘City Estate’, идеальный дизайн города-государства), это может привести к тому, что производительность системы в ранние этапы будет крайне низкой.
Сэм Альтман: Хотя модель рассуждений является ключевым компонентом нашего будущего технологического стека, давайте временно сосредоточимся на границе развития традиционной модели предварительного обучения. Предположим, у нас есть неограниченная вычислительная мощность графического процессора, неограниченная пропускная способность сети и неограниченное энергоснабжение, но мы все еще ограничены существующими техническими узкими местами - включая проблемы с надежностью системы, отсутствие отказоустойчивых методов обучения и ограничения существующих наборов данных.
Согласно нашему закону эволюции, достижения 100-кратного увеличения масштаба в каждой основной версии GPT, исходя из текущих технических границ, какого уровня может достичь развитие модели предварительного обучения? Конкретно для моделей серии GPT, с нашей существующей системой знаний, какую модель мы теоретически можем обучить? Можно ли создать GPT-5.5?
Алекс Пайно: С точки зрения машинного обучения и разработки алгоритмов, мы еще не достигли четкого теоретического верхнего предела. На самом деле, мы только начинаем изучать алгоритмы с более высокой эффективностью данных и то, как в полной мере использовать существующие ресурсы данных. Эта ситуация очень интересная - даже такие модели, как GPT-4, в значительной степени разрабатываются в условиях ограниченных вычислительных ресурсов, что также определяет направление большинства предыдущих исследований.
Но сейчас ситуация совершенно другая. С GPT-4.5 в некоторых ключевых измерениях данные, а не вычисления, становятся основным ограничением. Этот сдвиг делает связанные исследования менее захватывающими.
Сэм Альтман: Но это действительно удивительный прогресс, и мир может не до конца осознать, что вычислительные ресурсы больше не являются основным узким местом в лучшей модели, которую мы можем построить. Это изменение является глубоким, в конце концов, мы слишком долго жили в среде, ограниченной вычислениями.
Сэм Альтман: Какой самый интересный опыт машинного обучения мы получили в процессе обучения GPT-4.5? Просто расскажите о том, чем хотите поделиться.
Амин Тутунчян: В общем, наиболее заставляют задуматься те ситуации, которые отклоняются от наших прогнозов - особенно когда мы пытаемся понять, почему фактическая производительность отклоняется от ожидаемой кривой.
Алекс Пайно: Одним из самых удивительных открытий для нас является то, что масштабируемость производительности различных компонентов машинного обучения сильно различается. Некоторые части можно масштабировать хорошо, а другие - нет. Это то, что мы действительно осознали в фактическом процессе обучения. Этот опыт дал нам много вдохновения.
Дэниел Селсам: Я думаю, что двумя основными особенностями парадигмы GPT являются: во-первых, тестовые потери (метрика для измерения того, насколько хорошо модель работает на невиданных тестовых данных) можно точно предсказать; во-вторых, производительность модели демонстрирует предсказуемое улучшение с расширением масштаба. Что еще более волшебно, снижение тестовых потерь превратится во всесторонне улучшенный уровень интеллекта различными способами, которые трудно количественно оценить, но которые поражают.
Сэм Альтман: Вы абсолютно оптимистичны в этом отношении? Вы полностью согласны с этой точкой зрения?
Дэниел Селсам: На самом деле, я хочу сказать, что мы обнаружили особенно интересные явления в тесте GPT-4.5 - после повторного тестирования модель продемонстрировала много тонких способностей, которые полностью превзошли все ожидания.
Мы уверены, что она станет умнее различными способами, которые нельзя определить заранее, и после фактического развертывания мы можем наблюдать эти тонкие уровни улучшения с точки зрения удовлетворенности пользователей: более сильные резервы здравого смысла, более точные возможности понимания контекста и более деликатное понимание семантики - это именно то волшебство, которое приносят эти дополнительные тестовые потери. На мой взгляд, закон масштабирования был прекрасно проверен в этом измерении.
Сэм Альтман: Какой был самый позитивный момент во всем процессе обучения? Какое ваше любимое воспоминание? Очевидно, было много боли, но я надеюсь, что эти боли были облегчены.
Алекс Пайно: У меня есть такой момент. Мы проделали большую работу в области машинного обучения во время обучения. Я думаю, что некоторые из изменений, которые мы внесли во время работы, оказали довольно хорошее влияние, возможно, лучше, чем ожидалось, что было очень волнующим моментом для нас.
Амин Тутунчян: Для меня, одновременно с обучением, мы также строим инфраструктуру. Мы твердо верим, что можем пересечь этот обрыв производительности, и у нас есть план, и все его выполняют, но это занимает много времени. Это тяжелая работа и определенно сложнее, чем я думал. Мой прогноз был неверным, и я недооценил время, необходимое для решения этих проблем.
Момент, когда команда, наконец, преодолела эти ключевые проблемы и производительность значительно улучшилась, все еще свеж в моей памяти. Вы можете отчетливо почувствовать трансформацию энергии всей команды - все внезапно полны энергии и устремляются к финальной цели с новой мотивацией.
Самое волшебное то, что предполагаемое время завершения, отображаемое в нашем отслеживателе статуса, продолжало сокращаться с первоначальных двух лет и, наконец, зафиксировалось на четком временном узле. Этот видимый прогресс оказывает неизмеримый стимул для морального духа команды. Я думаю, в этом и заключается красота.
Я хотел бы подчеркнуть, что работа в области машинного обучения никогда не прекращалась. Даже после начала обучения этот процесс совместного проектирования машинного обучения продолжается. Команда машинного обучения не только активно отслеживает те вопросы, которые были отмечены как ‘последующая обработка’, но и продолжает вносить улучшения, которые действительно оптимизируют время обучения.
Это прекрасно отражает дух нашей команды - здесь нет рабочей границы ‘каждый подметает снег перед своей дверью’, а есть действительно бесшовное сотрудничество, и эта сплоченность является нашей величайшей силой.
Сэм Альтман: Внешний мир много обсуждал проблемы и точность прогнозирования самого обучения. Но на самом деле все это основано на чрезвычайно тщательном планировании - можете ли вы рассказать об этом более подробно?
Алекс Пайно: Это определенно наш самый тщательный план на сегодняшний день. Как я уже говорил, мы начали готовиться к этому проекту за год до официального начала обучения. За это время мы провели несколько крупномасштабных тестов по контролю рисков.
Мы уделяем особое внимание постепенному внедрению всех улучшений: начиная с базовой конфигурации с высокой степенью уверенности - которую можно понимать как зрелую архитектуру, подобную GPT-4, мы полностью освоили эту конфигурацию на уровне машинного обучения - а затем добавляем новые функции слой за слоем, как строительные блоки.
Ключевым моментом является строгая проверка масштабируемости каждого улучшения в различных масштабах: не только для того, чтобы увидеть улучшения производительности, но и для того, чтобы убедиться, что эти улучшения продолжают быть эффективными по мере расширения масштаба модели. Многие улучшения хорошо работают в мелкомасштабных тестах, но терпят неудачу в крупномасштабных приложениях.
Поэтому мы поддерживали высокую степень бдительности на протяжении всего процесса и продолжаем итеративно улучшать нашу методологию закона расширения. Благодаря этой практике контроля рисков мы накопили много ценного опыта, который будет продолжать направлять разработку будущих моделей серии GPT.
Амин Тутунчян: Я помню особенно интересный момент, по которому очень скучаю. Знаете, мы почти всегда сталкиваемся с различными ошибками каждый раз, когда начинаем задачу обучения. Это уже обычное дело. Но ключевым моментом является обеспечение того, чтобы прогресс не был заблокирован, и всегда подтверждение того, что текущий прогресс действительно находится на правильном пути, и будут ли эти ошибки иметь фатальное воздействие на здоровье обучения.
Хотя мы изначально были очень уверены, что есть серьезные дефекты, благодаря всей построенной нами системе мониторинга мы смогли точно различать основную причину проблемы: Это аппаратный сбой? Какой тип аппаратного сбоя? Это повреждение данных? Или это ошибка в самой модели машинного обучения? Или это состояние гонки в коде?
В то время у нас было открыто несколько областей для обсуждения проблем одновременно, с различными симптомами. После серии исправлений ошибок мы застряли: перед нами было несколько нерешенных проблем, и все ломали голову - были ли они вызваны разными ошибками? Или это ошибка в работе?
Позже мы провели голосование, чтобы позволить членам команды проголосовать за наиболее вероятную основную причину. Наименее перспективный вариант попал в точку: оказалось, что проблема была с функцией torch.sum вышестоящей PyTorch, простой операцией суммирования.
Эта ошибка особенно интересна. Знаете, мы в основном используем ядро Triton, и мы будем возвращаться к операциям torch только в некоторых неважных пограничных сценариях. И ошибка функции torch.sum, вызванная нашим конкретным кодом, случайно вызовет незаконный доступ к памяти из-за характеристик распределения данных - она сделала ошибку при вычислении смещения памяти.
Самое драматичное то, что когда инженер, наконец, локализовал проблему и представил исправление, все отчеты об ошибках с различными симптомами исчезли. Все с воодушевлением изменили канал Slack с ‘теории множественных ошибок’ на ‘теорию одной ошибки’, и сцена была очень счастливой.
Как долго эта ошибка скрывалась? Она существовала с ранних стадий обучения и не была идентифицирована до тех пор, пока индикатор прогресса не прошел около 40%. Процесс обнаружения также был полон драматизма: в то время сложное ядро последовательно вызывало последовательности, и второй вызов вызвал незаконный доступ к памяти.
Хотя эта частота сбоев крайне низка (она происходит только один раз в несколько сотен или даже тысяч шагов обучения), ее легко проигнорировать как случайный сбой, но руководящим принципом нашей команды является: никогда не отпускать какие-либо аномалии. Лучшая часть этой истории заключается в этой настойчивости не сдаваться легко.
Сэм Альтман: Что еще вам нужно сделать после того, как начнется предварительное обучение GPT-4.5?
Алекс Пайно: Всем нам нужно часто наблюдать за кривой потерь. Кроме того, нам необходимо продолжать оптимизировать систему и улучшать совместное проектирование, которое не было завершено до начала обучения. Мы внимательно следим за различными статистическими данными во время процесса обучения, чтобы убедиться, что нет неожиданных тенденций. В то же время мы изучаем возможные планы улучшений с точки зрения машинного обучения. Хотя работа на уровне данных будет временно сокращена после начала предварительного обучения, все еще есть много задач, которые необходимо обработать.
Амин Тутунчян: Я думаю, что машинное обучение в значительной степени зависит от суждения о правильности. После начала предварительного обучения, столкнувшись с большим количеством шумовых сигналов, мы подобны гадалкам, интерпретирующим чайную гущу, и нам нужно судить, здорова ли система. Это наша ответственность.
Сэм Альтман: На системном уровне, что ограничит нас в проведении обучения модели? Это чип, процессор, память, сеть или источник питания?
Амин Тутунчян: Прелесть системы в том, что при совместном проектировании рабочая нагрузка может адаптироваться к построенной вами инфраструктуре. Нет универсального утверждения, что сеть является узким местом, или пропускная способность памяти является узким местом, и т. д. Даже для моделей одной и той же спецификации мы можем выбрать передачу требований к ресурсам. Мы можем выбрать создание более сбалансированной системы, но наличие большей пропускной способности памяти всегда полезно. Трудно ответить на этот вопрос без ограничений.
При проектировании GPT-4.5 нам может потребоваться определенный атрибут в системе, который необходимо сгенерировать с помощью человеческого руководства. Поэтому совместное проектирование очень важно для формирования архитектуры модели и архитектурных элементов и в определенной степени связывает системные и машинные аспекты. Если у системы есть атрибут, который мы не хотим иметь очень сильно. Моя идеальная ситуация заключается в том, что все должно быть разделено, чтобы дать друг другу наибольшее пространство.
Иногда вещи связаны вместе, и нам нужно соответствовать требованиям инфраструктуры, или вещи должны быть такими. Большую часть времени нам нужна сбалансированная система, сбалансированная связь. И лучшим средством регулирования, которое у нас есть, является все это совместное проектирование.
Сэм Альтман: Как далеко мы находимся от такой идеальной цели системы?
Амин Тутунчян: Мы далеки от этой цели. Процесс построения системы всегда выглядит так: сначала возникает идеализированное представление о том, как все должно работать, а затем эти различия согласовываются с существующими ресурсами.
Я не думаю, что мы делаем это для теории ради теории, а просто для того, чтобы обсудить, чем мы хотим, чтобы это стало, реализовать это и приблизиться к этому идеалу как можно ближе. Это может быть самой захватывающей частью системной области. Люди раньше говорили, что это элегантный дизайн системы, и в конечном итоге история покажет нам, правильный ли этот выбор.
Сэм Альтман: Если бы вы могли получить ответ на вопрос машинного обучения перед следующим большим обучением, что бы вы больше всего хотели узнать?
Алекс Пайно: Я хочу знать, какие алгоритмы мы должны использовать при ограниченных данных и в конкретных областях. Хотя это широкий вопрос, он действительно является наиболее важным.
Сэм Альтман: Будете ли вы проводить синхронное предварительное обучение с 10 миллионами графических процессоров или более в будущем?
Алекс Пайно: Я думаю, что будет, но это может быть не традиционная модель предварительного обучения. Ее форма может сильно отличаться от существующих технологий, но она по-прежнему сохранит ядро неконтролируемого обучения.
Амин Тутунчян: Я предпочитаю полусинхронную модель. Из-за законов физики полная синхронизация не очень реалистична.
Дэниел Селсам: Я думаю, что более вероятно, что это будет децентрализовано. Определенно будет 10 миллионов графических процессоров, работающих вместе в системе искусственного интеллекта, которая учится и выполняет задачи, но, как и различные части мозга, они могут не обязательно общаться друг с другом.
Сэм Альтман: Насколько велика разница между современными алгоритмами и эффективностью человеческих данных? Возможно ли догнать в будущем?
Дэниел Селсам: Их трудно сравнивать напрямую. Разрыв в изучении языка определенно огромен. Ключевым моментом является то, как определить объем информации, полученной зрительными нервами человека. Я думаю, что общая эффективность алгоритмов намного ниже, чем у людей.
В течение десятилетий глубокое обучение было сосредоточено на вычислительной эффективности. В дополнение к росту данных и вычислительной мощности, что действительно удивительно, так это наложенный эффект, создаваемый улучшениями алгоритмов. Каждый раз, когда производительность алгоритма улучшается на 10% или 20%, это оказывает значительный эффект при наложении на эффективность данных. До сих пор не было такой мобилизации вокруг эффективности данных, потому что это не стоило того,когда данные не текли и вычислительная мощность была ограничена.
Сейчас мы вступаем в новую стадию исследований искусственного интеллекта, и мы начнем накапливать победы в области эффективности данных. Я думаю, что сейчас немного глупо предсказывать, что мы столкнемся с непреодолимыми препятствиями. Способ работы человеческого мозга определенно отличается от наших улучшений алгоритмов, и мы должны быть осторожны в этом отношении. Но я думаю, что мы должны сохранять оптимизм в отношении будущего развития алгоритмов.
Сэм Альтман: Какова корреляция между более масштабным предварительным обучением и более сильными способностями модели к обучению и рассуждению?
Алекс Пайно: То, что мы наблюдали, заключается в том, что лучшее предварительное обучение и неконтролируемое обучение, как правило, улучшают общий интеллект модели и очень помогают в обобщении, что дополняет способность к рассуждению, в то время как рассуждения могут быть немного более тупыми в улучшении интеллекта. Я думаю, что они дополняют друг друга.
Сэм Альтман: Предварительное обучение, кажется, универсально во многих вещах, в то время как обучение модели может заставить ее хорошо справляться только с одним типом вещей, верно?
Алекс Пайно: Это очень интересно, но когда вы видите данные, которые их обучают, вы не будете удивлены этой ситуацией. Диапазон набора данных предварительного обучения очень велик, и то, к чему мы стремимся, - это широта и разнообразие. Когда дело доходит до обучения модели с подкреплением и четкого получения хороших сигналов вознаграждения и хорошей среды обучения, я думаю, что трудно учитывать широту набора данных.
Дэниел Селсам: Я согласен, но я думаю, что есть еще один фактор. Предварительное обучение - это, по сути, сжатие данных, тем самым обнаруживая связи между разными вещами. Речь идет об аналогии и более абстрактном. Рассуждение - это навык, который требует тщательного обдумывания конкретного вопроса и также может получить решения для многих типов проблем. Но в процессе предварительного обучения можно выучить больше абстрактных знаний при сжатии данных из разных областей.
Сэм Альтман: Почему неконтролируемое обучение эффективно?
Дэниел Селсам: Ключевым моментом является сжатие. Идеальной формой интеллекта является индукция Соломонова. В общем, машинное обучение будет рассматривать все возможности, но, как правило, будет начинать с более простых программ для тестирования.
Суть текущего предварительного обучения - это процесс сжатия, который достигает приблизительного выражения путем поиска простейшей программы для объяснения всех данных, которые были произведены людьми до сих пор.
Сэм Альтман: Как предсказание следующего токена помогает достичь сжатия?
Дэниел Селсам: В статистике есть парадокс - почему глубокие сети, кажется, неспособны сжимать, но могут достичь обобщения? Обычно говоря, когда у вас много данных и небольших моделей, эти модели должны пройти через сжатие, чтобы чему-то научиться.
В предварительном обучении масштаб как данных, так и моделей очень велик. Некоторые люди думают, что это обучение - это просто память и интерполяция обучения. На самом деле, они игнорируют другую перспективу понимания сжатия - предварительное сжатие. Это похоже на компрессор. Даже если вес данных очень велик, двоичному файлу не нужно хранить эту информацию. Результат предсказания следующего токена может быстро извлечь полезную информацию и повысить эффективность сжатия.
Сэм Альтман: Процесс обучения GPT-4.5 стоил много рабочей силы, времени и денег, что на самом деле можно рассматривать как эксперимент для проверки закона масштабирования, и результаты доказывают, что он эффективен и будет продолжаться в течение длительного времени. Почему закон масштабирования можно назвать законом Вселенной?
Дэниел Селсам: Чем выше степень сжатия, тем мощнее интеллект, что имеет глубокие философские последствия. Почему требуется больше времени для обучения более крупных моделей, и скорость сжатия выше? Это включает в себя множество теорий, среди которых мне нравятся разреженные представления.
Ключевые понятия в реальности следуют степенному закону распределения. Например, 100-е по важности понятие может появиться только один раз в каждых 100 документах, и существует очевидный эффект длинного хвоста. Эта характеристика распределения означает, что для эффективного захвата всех ключевых понятий необходимы крупномасштабные данные и вычислительная мощность, а также определяет, что закон масштабирования будет эффективным в течение длительного времени.