Был ли GPT-4.5 провалом?

Масштаб и охват GPT-4.5

GPT-4.5 представляет собой самый амбициозный проект OpenAI на сегодняшний день с точки зрения размера. Хотя точные детали, касающиеся его архитектуры и данных обучения, остаются скудными, известно, что процесс обучения был настолько вычислительно интенсивным, что потребовал распределения по нескольким центрам обработки данных. Уже одно это намекает на монументальные ресурсы, вложенные в его разработку.

Структура ценообразования модели еще больше подчеркивает ее позиционирование как премиального предложения. Затраты значительно выше, чем у ее предшественников, превышая GPT-4o в 15-30 раз, o1 в 3-5 раз и Claude 3.7 Sonnet в 10-25 раз. Доступ в настоящее время ограничен подписчиками ChatGPT Pro (по цене 200 долларов в месяц) и клиентами API, готовыми платить за каждый токен.

Однако прирост производительности, по крайней мере, в некоторых областях, не совсем соответствует цене. Первоначальные тесты показали лишь скромные улучшения по сравнению с GPT-4o и даже показали, что GPT-4.5 отстает от таких моделей, как o1 и o3-mini, в задачах на рассуждение.

Понимание предназначения GPT-4.5

Крайне важно признать, что OpenAI никогда явно не позиционировала GPT-4.5 как свою флагманскую, универсальную модель. Фактически, ранние версии их сообщения в блоге разъясняли, что она не задумывалась как ‘пограничная модель’, раздвигающая абсолютные границы возможностей. Кроме того, она не предназначена в первую очередь как модель рассуждений, что делает прямые сравнения с моделями, оптимизированными для этой цели (например, o3 и DeepSeek-R1), несколько вводящими в заблуждение.

OpenAI указала, что GPT-4.5 станет ее последней моделью без цепочки рассуждений (non-chain-of-thought). Это означает, что ее обучение было в значительной степени сосредоточено на внедрении огромных объемов мировых знаний и согласовании с предпочтениями пользователей, а не на развитии сложных способностей к рассуждению.

Где GPT-4.5 может блистать: знания и нюансы

Основное преимущество более крупных моделей часто заключается в их расширенной способности к приобретению знаний. GPT-4.5, в соответствии с этим принципом, демонстрирует пониженную склонность к галлюцинациям по сравнению с ее меньшими аналогами. Это делает ее потенциально ценной в сценариях, где первостепенное значение имеет строгое соблюдение фактов и контекстной информации.

Более того, GPT-4.5 демонстрирует повышенную способность следовать инструкциям и предпочтениям пользователя. Это было продемонстрировано в различных демонстрациях OpenAI и подтверждено опытом пользователей, опубликованным в Интернете. Модель, похоже, более эффективно улавливает нюансы намерений пользователя, что приводит к более адаптированным и релевантным результатам.

Дебаты о качестве прозы: субъективность и потенциал

Возникла оживленная дискуссия относительно способности GPT-4.5 генерировать превосходную прозу. Некоторые руководители OpenAI высоко оценили качество вывода модели, а генеральный директор Сэм Альтман даже предположил, что взаимодействие с ней дало некоторым проницательным тестировщикам представление об ‘AGI’ (Artificial General Intelligence).

Однако общая реакция была явно неоднозначной. Соучредитель OpenAI Андрей Карпати предвидел улучшения в задачах, менее зависящих от чистого рассуждения, подчеркивая такие области, как ‘EQ’ (эмоциональный интеллект), креативность, создание аналогий и юмор – аспекты, часто сдерживаемые мировыми знаниями и общим пониманием.

Интересно, что последующий опрос, проведенный Карпати, выявил общее предпочтение пользователями ответов GPT-4o по сравнению с ответами GPT-4.5 с точки зрения качества письма. Это подчеркивает присущую субъективность в оценке прозы и предполагает, что умелое проектирование подсказок может вызвать сопоставимое качество у меньших, более эффективных моделей.

Сам Карпати признал неоднозначность результатов, предложив различные возможные объяснения: тестировщики с ‘высоким вкусом’ могут воспринимать тонкие структурные улучшения, пропущенные другими, протестированные примеры могли быть неидеальными, или различия могли быть просто слишком тонкими, чтобы их можно было различить в небольшой выборке.

Пределы масштабирования и будущее LLM

Выпуск GPT-4.5, в некотором смысле, подчеркивает потенциальные ограничения простого масштабирования моделей, обученных на массивных наборах данных. Илья Суцкевер, еще один соучредитель OpenAI и бывший главный научный сотрудник, как известно, заявил на NeurIPS 2024, что ‘предварительное обучение, каким мы его знаем, бесспорно закончится… Мы достигли пика данных, и больше их не будет. Мы должны иметь дело с теми данными, которые у нас есть. Есть только один интернет’.

Уменьшающаяся отдача, наблюдаемая с GPT-4.5, служит свидетельством проблем масштабирования универсальных моделей, обученных в основном на данных из Интернета и настроенных для согласования посредством обучения с подкреплением на основе обратной связи от человека (RLHF).

Следующим рубежом для больших языковых моделей, по-видимому, является масштабирование во время тестирования (или масштабирование во время вывода). Это включает в себя обучение моделей ‘думать’ в течение более длительного времени путем генерации токенов цепочки рассуждений (CoT). Масштабирование во время тестирования повышает способность модели решать сложные задачи рассуждения и было ключевым фактором успеха таких моделей, как o1 и R1.

Не провал, а основа

Хотя GPT-4.5, возможно, и не является оптимальным выбором для каждой задачи, крайне важно признать ее потенциальную роль в качестве основополагающего элемента для будущих достижений. Надежная база знаний необходима для разработки более сложных моделей рассуждений.

Даже если сама GPT-4.5 не станет основной моделью для большинства приложений, она может служить важнейшим строительным блоком для последующих моделей рассуждений. Вполне вероятно, что она уже используется в таких моделях, как o3.

Как объяснил Марк Чен, главный научный сотрудник OpenAI: ‘Вам нужны знания, чтобы строить на их основе рассуждения. Модель не может идти вслепую и просто учиться рассуждению с нуля. Поэтому мы считаем, что эти две парадигмы довольно взаимодополняемы, и мы думаем, что они имеют петли обратной связи друг с другом’.

Таким образом, разработка GPT-4.5 представляет собой не тупик, а стратегический шаг в продолжающейся эволюции больших языковых моделей. Это свидетельство итеративного характера исследований в области искусственного интеллекта, где каждый шаг, даже если он кажется незначительным в отдельности, способствует общему прогрессу в направлении создания более способных и универсальных систем искусственного интеллекта. В настоящее время основное внимание смещается на использование этой прочной основы знаний для создания моделей, которые могут не только вспоминать информацию, но и рассуждать и решать проблемы с беспрецедентной эффективностью. Путь к действительно разумному искусственному интеллекту продолжается, и GPT-4.5, несмотря на неоднозначный прием, играет значительную роль в этом путешествии.
Теперь основное внимание уделяется не только тому, сколько знает модель, но и тому, насколько хорошо она может использовать эти знания. Это основная проблема, с которой борется сообщество ИИ, и GPT-4.5, хотя и не является идеальным решением, предоставляет ценную информацию и прочную основу для будущих прорывов. Путь вперед включает в себя сочетание подходов: совершенствование существующих методов, изучение новых архитектур и разработку более сложных методов обучения и оценки. Конечная цель остается прежней: создать системы ИИ, которые могут не только понимать и генерировать человеческий язык, но и рассуждать, учиться и адаптироваться способами, которые когда-то считались исключительной прерогативой человеческого интеллекта.