Неизбежное плато: Пределы масштабирования вычислений

Растущее значение вычислительных мощностей для моделей рассуждений

Модели рассуждений, известные как следующий крупный шаг в эволюции больших языковых моделей (LLM), продемонстрировали значительные успехи, особенно в областях, требующих сложного решения проблем, таких как математика и компьютерное программирование. Эти сложные системы, отличающиеся дополнительным этапом “обучения рассуждению”, используют обучение с подкреплением для точной настройки своих возможностей решения сложных задач. o3 от OpenAI является ярким примером новаторской разработки, демонстрирующей значительное повышение производительности по сравнению с его предшественником, o1, согласно оценочным тестам. Главный вопрос, который сейчас нависает над этой областью, - устойчивость этого прогресса. Могут ли эти модели продолжать развиваться такими же темпами, просто увеличивая вычислительную мощность?

Epoch AI, исследовательская организация, занимающаяся изучением социальных последствий искусственного интеллекта, взяла на себя задачу разобраться в этом вопросе. Джош Ю, аналитик данных в Epoch AI, провел всесторонний анализ, чтобы определить текущий уровень вычислительных инвестиций в обучение рассуждению и оценить оставшийся потенциал для расширения.

OpenAI публично заявила, что o3 был обучен с использованием в десять раз больших вычислительных ресурсов, выделенных на рассуждение, по сравнению с o1 - существенное увеличение, достигнутое всего за четыре месяца. Созданная OpenAI диаграмма наглядно иллюстрирует тесную взаимосвязь между вычислительной мощностью и производительностью в математическом тесте AIME. Epoch AI предполагает, что эти цифры конкретно относятся ко второй фазе обучения, обучению рассуждению, а не ко всему процессу обучения модели.

Чтобы представить эти цифры в перспективе, Epoch AI изучила сопоставимые модели. DeepSeek-R1, например, как сообщается, был обучен примерно с использованием 6e23 FLOP (операций с плавающей запятой в секунду) при оценочной стоимости 1 миллион долларов, достигнув результатов эталонного тестирования, аналогичных o1.

Технологические гиганты Nvidia и Microsoft также внесли свой вклад в разработку моделей рассуждений, предоставив общедоступные данные для обучения. Llama-Nemotron Ultra 253B от Nvidia использовала примерно 140 000 часов GPU H100, что эквивалентно примерно 1e23 FLOP, для своей фазы обучения рассуждению. Phi-4-reasoning от Microsoft использовала еще меньше вычислительной мощности, менее 1e20 FLOP. Критическим фактором, отличающим эти модели, является их сильная зависимость от синтетических данных для обучения, сгенерированных другими системами искусственного интеллекта. Epoch AI подчеркивает, что эта зависимость затрудняет прямое сравнение с моделями, такими как o3, из-за присущих различий между реальными и синтетическими данными и их влияния на обучение и обобщение модели.

Определение “Обучения рассуждению”: мутная область

Еще один уровень сложности возникает из-за отсутствия общепринятого определения “обучения рассуждению”. В дополнение к обучению с подкреплением, некоторые модели включают в себя методы, такие как контролируемая тонкая настройка. Неопределенность, окружающая компоненты, включенные в оценки вычислений, влечет за собой несоответствия, что затрудняет точное сравнение ресурсов между различными моделями.

В настоящее время модели рассуждений по-прежнему потребляют значительно меньше вычислительной мощности, чем самые масштабные обучающие прогоны искусственного интеллекта, такие как Grok 3, которые превышают 1e26 FLOP. Современные фазы обучения рассуждению обычно работают в диапазоне от 1e23 до 1e24 FLOP, что оставляет значительный простор для потенциального расширения - или, по крайней мере, так кажется на первый взгляд.

Дарио Амодей, генеральный директор Anthropic, разделяет аналогичную точку зрения. Он считает, что инвестиции в размере 1 миллиона долларов в обучение рассуждению могут принести значительный прогресс. Однако компании активно изучают способы увеличить бюджет для этой вторичной фазы обучения до сотен миллионов долларов и более, что предполагает будущее, в котором экономика обучения кардинально изменится.

Если нынешняя тенденция примерно десятикратного увеличения вычислительной мощности каждые три-пять месяцев сохранится, вычислительные мощности для обучения рассуждению потенциально могут догнать общие вычислительные мощности для обучения ведущих моделей уже в следующем году. Однако Джош Ю прогнозирует, что в конечном итоге рост замедлится примерно до 4-кратного увеличения в год, что соответствует более широким отраслевым тенденциям. Это замедление, вероятно, будет вызвано сочетанием факторов, включая снижение отдачи от инвестиций в обучение, увеличение стоимости вычислительных ресурсов и ограничения доступных данных для обучения.

За пределами вычислений: узкие места на горизонте

Epoch AI подчеркивает, что вычислительная мощность - не единственный ограничивающий фактор. Обучение рассуждению требует значительного количества высококачественных, сложных задач. Получение таких данных затруднено; генерация их синтетическим путем еще более затруднена. Проблема с синтетическими данными заключается не только в подлинности; многие утверждают, что их качество оставляет желать лучшего. Кроме того, эффективность этого подхода за пределами строго структурированных областей, таких как математика и компьютерное программирование, остается неопределенной. Тем не менее, такие проекты, как “Deep Research” в ChatGPT, который использует специально настроенную версию o3, предполагают потенциал для более широкого применения.

Трудоемкие закулисные задачи, такие как выбор подходящих задач, разработка функций вознаграждения и разработка стратегий обучения, также создают проблемы. Эти затраты на разработку, часто исключаемые из оценок вычислений, вносят значительный вклад в общую стоимость обучения рассуждению.

Несмотря на эти проблемы, OpenAI и другие разработчики сохраняют оптимизм. Как отмечает Epoch AI, кривые масштабирования для обучения рассуждению в настоящее время напоминают классический лог-линейный прогресс, наблюдаемый в предварительном обучении. Кроме того, o3 демонстрирует существенные успехи не только в математике, но и в агентских программных задачах, что указывает на универсальный потенциал этого нового подхода.

Будущее этого прогресса зависит от масштабируемости обучения рассуждению - технически, экономически и с точки зрения содержания. В следующих пунктах рассматриваются несколько ключевых факторов, которые определят будущее этих моделей:

  • Техническая масштабируемость: Относится к способности увеличивать вычислительные ресурсы, используемые в обучении, без столкновения с непреодолимыми техническими препятствиями. Это включает в себя достижения в области аппаратного и программного обеспечения, а также алгоритмов для эффективного использования больших наборов данных и более мощной вычислительной инфраструктуры. По мере роста размера и сложности моделей техническая масштабируемость становится все более важной для дальнейшего прогресса. Базовая архитектура должна будет развиваться, чтобы не отставать от масштаба моделей.
  • Экономическая масштабируемость: Подразумевает возможность увеличения вычислительных ресурсов в рамках разумных бюджетных ограничений. Если стоимость обучения масштабируется линейно или экспоненциально с размером модели, дальнейшее получение прибыли может стать непомерно дорогим. Поэтому может потребоваться более дешевое и эффективное обучение. Инновации в аппаратном обеспечении и методах оптимизации, которые снижают стоимость за FLOP, имеют решающее значение для экономической масштабируемости. Тенденция заключалась в том, чтобы сосредоточиться на все более крупных моделях, но при ограниченном бюджете стимулы сместятся на обучение наиболее эффективных моделей.
  • Масштабируемость контента: Подчеркивает доступность высококачественных данных для обучения, которые могут эффективно стимулировать успехи в способности к рассуждению. По мере того, как модели становятся более сложными, необходимы более сложные и разнообразные наборы данных, чтобы бросить им вызов и предотвратить переобучение. Доступность таких наборов данных ограничена, особенно в областях, требующих сложных рассуждений. Методы генерации синтетических данных могут помочь смягчить это узкое место, но они должны быть тщательно разработаны, чтобы избежать предвзятости или неточностей, которые могут ухудшить производительность модели.

Будущее вычислений

Нам, обывателям, легко думать, что мы находимся на пути к бесконечным вычислениям. Однако в действительности они ограничены, и в будущем это ограничение может стать более очевидным. В этом разделе мы рассмотрим несколько способов, с помощью которых вычисления могут развиваться в будущем, и то, как эти изменения повлияют на индустрию LLM.

Квантовые вычисления

Квантовые вычисления представляют собой сдвиг парадигмы в вычислениях, используя принципы квантовой механики для решения задач, которые неразрешимы для классических компьютеров. Находясь еще в зачаточном состоянии, квантовые вычисления обладают огромным потенциалом для ускорения рабочих нагрузок искусственного интеллекта, включая обучение моделей рассуждений. Квантовые алгоритмы, такие как квантовый отжиг и вариационные квантовые эйгенсолверы (VQE), потенциально могут оптимизировать параметры модели более эффективно, чем классические методы оптимизации, снижая вычислительные ресурсы, необходимые для обучения. Например, квантовые алгоритмы машинного обучения могут улучшить оптимизацию сложных нейронных сетей, что приведет к сокращению времени обучения и потенциально к повышению производительности модели.

Однако остаются значительные проблемы в масштабировании квантовых компьютеров и разработке надежных квантовых алгоритмов. Эта технология все еще находится в основном на экспериментальной стадии, и практические квантовые компьютеры с достаточным количеством кубитов (квантовых битов) и временем когерентности пока еще не доступны. Кроме того, разработка квантовых алгоритмов, адаптированных к конкретным задачам искусственного интеллекта, требует специальных знаний и является текущей областью исследований. Широкое внедрение квантовых вычислений в искусственный интеллект остается за горизонтом нескольких лет и, вероятно, будет практичным только тогда, когда станут доступны компьютеры.

Нейроморфные вычисления

Нейроморфные вычисления имитируют структуру и функцию человеческого мозга для выполнения вычислений. В отличие от традиционных компьютеров, которые основаны на двоичной логике и последовательной обработке, нейроморфные чипы используют искусственные нейроны и синапсы для обработки информации параллельным и энергоэффективным способом. Эта архитектура хорошо подходит для задач искусственного интеллекта, которые включают распознавание образов, обучение и адаптацию, таких как обучение моделей рассуждений. Нейроморфные чипы потенциально могут снизить энергопотребление и задержку, связанные с обучением больших моделей искусственного интеллекта, что делает это более экономически жизнеспособным и экологически устойчивым.

Loihi от Intel и TrueNorth от IBM являются примерами нейроморфных чипов, которые продемонстрировали многообещающие результаты в приложениях искусственного интеллекта. Эти чипы способны выполнять сложные задачи искусственного интеллекта со значительно меньшим энергопотреблением по сравнению с традиционными процессорами и графическими процессорами. Однако нейроморфные вычисления по-прежнему являются относительно новой областью, и остаются проблемы в разработке надежных инструментов программирования и оптимизации алгоритмов для нейроморфных архитектур. Кроме того, ограниченная доступность нейроморфного оборудования и отсутствие широких знаний в области нейроморфных вычислений препятствуют внедрению этой технологии в основные приложения искусственного интеллекта.

Аналоговые вычисления

Аналоговые вычисления используют непрерывные физические величины, такие как напряжение или ток, для представления и обработки информации, а не дискретные цифровые сигналы. Аналоговые компьютеры могут выполнять определенные математические операции, такие как дифференциальные уравнения и линейная алгебра, намного быстрее и эффективнее, чем цифровые компьютеры, особенно в задачах, которые могут быть полезны для рассуждений. Аналоговые вычисления могут быть полезны для обучения моделей или для выполнения логического вывода при необходимости.

Однако аналоговые вычисления сталкиваются с проблемами в точности, масштабируемости и программируемости. Аналоговые схемы восприимчивы к шуму и дрейфу, что может ухудшить точность вычислений. Масштабирование аналоговых компьютеров для обработки больших и сложных моделей искусственного интеллекта также является технической проблемой. Кроме того, программирование аналоговых компьютеров обычно требует специальных знаний и более сложно, чем программирование цифровых компьютеров. Несмотря на эти проблемы, растет интерес к аналоговым вычислениям как к потенциальной альтернативе цифровым вычислениям для конкретных приложений искусственного интеллекта, особенно для тех, которые требуют высокой скорости и энергоэффективности.

Распределенные вычисления

Распределенные вычисления включают распределение рабочих нагрузок искусственного интеллекта между несколькими машинами или устройствами, подключенными к сети. Этот подход позволяет организациям использовать совокупную вычислительную мощность большого количества ресурсов для ускорения обучения и логического вывода искусственного интеллекта. Распределенные вычисления необходимы для обучения больших языковых моделей (LLM) и других сложных моделей искусственного интеллекта, которые требуют огромных наборов данных и вычислительных ресурсов.

Такие платформы, как TensorFlow, PyTorch и Apache Spark, предоставляют инструменты и API для распределения рабочих нагрузок искусственного интеллекта между кластерами машин. Эти платформы позволяют организациям масштабировать свои возможности искусственного интеллекта, добавляя больше вычислительных ресурсов по мере необходимости. Однако распределенные вычисления создают проблемы в управлении данными, накладных расходах на связь и синхронизации. Эффективное распределение данных между несколькими машинами и минимизация задержек связи имеют решающее значение для максимизации производительности распределенных систем искусственного интеллекта. Кроме того, обеспечение правильной синхронизации и координации различных машин или устройств необходимо для достижения точных и надежных результатов.

Заключение

Траектория моделей рассуждений, несомненно, переплетается с доступностью и масштабируемостью вычислительных ресурсов. В то время как нынешние темпы прогресса, обусловленные увеличением вычислений, впечатляют, несколько факторов, включая нехватку высококачественных данных для обучения, увеличение стоимости вычислений и появление альтернативных парадигм вычислений, предполагают, что эпоха необузданного масштабирования вычислений может приближаться к своим пределам. Будущее моделей рассуждений, вероятно, будет зависеть от нашей способности преодолеть эти ограничения и изучить новые подходы к расширению возможностей искусственного интеллекта. Имея всю эту информацию, мы можем предположить, что рост возможностей модели рассуждений может вскоре начать замедляться из-за одного из многочисленных обсуждаемых ограничений.