OpenAI: o3 и o4-mini - новые модели вывода

OpenAI недавно представила свои последние достижения в области моделей логического вывода, o3 и o4-mini, 16 апреля. Это развитие следует за серией корректировок дорожной карты продуктов компании, поскольку долгожданный GPT-5 остается в разработке.

Предпосылки и контекст

Первоначально OpenAI рассматривала возможность отказаться от индивидуального выпуска модели o3, планируя интегрировать ее возможности непосредственно в предстоящую GPT-5. Однако в начале апреля генеральный директор OpenAI Сэм Альтман объявил об изменении стратегии, сославшись на непредвиденные трудности в консолидации всех компонентов. Следовательно, было принято решение выпустить o3 и o4-mini как отдельные модели, в то время как GPT-5 проходит дальнейшую разработку.

Возможности и особенности o3 и o4-mini

Эти новые модели, o3 и o4-mini, теперь доступны пользователям ChatGPT Plus, Pro, Team и API, заменяя более ранние модели o1 и o3-mini. В ближайшем будущем подписчики ChatGPT enterprise и education также смогут использовать эти передовые модели. Отмечены заметные улучшения в возможностях редактирования кода и визуального мышления.

OpenAI подчеркивает, что эти модели представляют собой их самые интеллектуальные предложения на сегодняшний день, при этом модели логического вывода теперь способны независимо использовать все инструменты, доступные ChatGPT, включая веб-поиск, анализ файлов на основе Python, логическое обоснование визуального ввода и генерацию изображений.

Показатели производительности

В оценках, проведенных внешними экспертами, модель o3 продемонстрировала снижение критических ошибок на 20% по сравнению со своим предшественником, o1, при столкновении со сложными задачами реального мира. С другой стороны, o4-mini был оптимизирован для быстрого реагирования и экономической эффективности. В математическом тесте AIME 2025 o3 и o4-mini достигли баллов 88,9 и 92,7 соответственно, превзойдя балл o1, равный 79,2. Аналогичным образом, в тесте кодирования Codeforces o3 и o4-mini достигли баллов 2706 и 2719, превысив балл o1, равный 1891. Кроме того, o3 и o4-mini превзошли o1 в различных тестах, включая GPQA Diamond (вопросы по науке на уровне докторантуры), Humanity’s Last Exam (междисциплинарные вопросы на уровне экспертов) и MathVista (визуальное математическое обоснование).

Улучшенное редактирование кода и визуальное мышление

Модели o3-high (режим высокой емкости) и o4-mini-high демонстрируют общие показатели точности редактирования кода 81,3% и 68,9% соответственно, превосходя показатель o1-high, равный 64,4%. Более того, o3 и o4-mini включают информацию об изображениях в свои процессы рассуждений, позволяя пользователям загружать графики из учебников или эскизы, нарисованные от руки, и получать прямые интерпретации от моделей. Эти модели могут активно использовать несколько инструментов в ответ на запросы пользователей. Например, отвечая на вопрос об использовании энергии летом в определенном месте, модели могут автономно искать в Интернете общедоступные данные, генерировать код Python для прогнозирования и создавать визуализации.

Практическое применение

OpenAI предоставила несколько иллюстративных примеров возможностей моделей:

  • Генерация маршрута: Предоставив o3 изображение расписания и текущее время, пользователи могут запросить подробный маршрут, учитывающий все достопримечательности и представления, указанные в расписании.

  • Анализ спортивных правил: При появлении запроса проанализировать влияние новых спортивных правил на производительность питчера и продолжительность игры, o3 может автономно искать соответствующую информацию и проводить статистический анализ.

  • Запросы на основе изображений: Пользователи могут загрузить фотографию и запросить конкретные детали, такие как название самого большого судна на изображении или место его дока.

Экономическая эффективность

В тесте AIME 2025 o3 продемонстрировал более высокую экономическую эффективность по сравнению с o1. OpenAI утверждает, что и o3, и o4-mini более доступны по цене, чем их предшественник.

Дополнительные обновления

В связи с задержкой выпуска GPT-5 OpenAI представила o3 и o4-mini в качестве промежуточных решений во время продолжающегося перехода модели. Кроме того, компания запустила Codex CLI, инструмент агента программирования с открытым исходным кодом. Кроме того, модели серии GPT-4.1 были интегрированы в API, превзойдя производительность GPT-4o. Внедрение GPT-4.1 совпадает с планами OpenAI прекратить выпуск предварительной версии GPT-4.5, которая была выпущена в феврале этого года.

Проблемы и направления на будущее

Недавние корректировки дорожной карты продуктов OpenAI привели к созданию более сложной экосистемы продуктов, что создает проблемы в интеграции o-серии, ориентированной на логический вывод, с базовой серией GPT (например, GPT-4, GPT-5). Чтобы сохранить свои конкурентные преимущества, OpenAI должна продемонстрировать свои возможности с помощью своих базовых моделей, таких как GPT-5.

Глубокий взгляд на новые модели: o3 и o4-mini

o3: Интеллектуальная рабочая лошадка

Модель o3 разработана как универсальная, высокопроизводительная модель, предназначенная для решения широкого круга задач. Ее ключевые сильные стороны заключаются в повышенной точности и снижении частоты ошибок в сложных сценариях реального мира. Эта модель особенно хорошо подходит для приложений, требующих глубокого обоснования, сложного решения проблем и детального понимания контекста.

Ключевые возможности:

  • Расширенные рассуждения: o3 превосходно справляется с задачами, требующими нескольких шагов логического вывода, что делает его идеальным для таких приложений, как финансовый анализ, проверка юридических документов и научные исследования.

  • Снижение частоты ошибок: По сравнению со своим предшественником, o1, o3 значительно снижает количество критических ошибок, обеспечивая более надежные и заслуживающие доверия результаты.

  • Широкая применимость: o3 разработан для решения широкого круга задач, от простых ответов на вопросы до сложного решения проблем, что делает его универсальным инструментом для различных приложений.

  • Интеграция инструментов: Возможность плавной интеграции с инструментами ChatGPT, такими как веб-поиск, анализ Python и интерпретация изображений, значительно расширяет возможности модели и позволяет ей справляться с более широким кругом задач.

o4-mini: Эффективный и гибкий исполнитель

Модель o4-mini оптимизирована для скорости и эффективности, что делает ее идеальным выбором для приложений, в которых первостепенное значение имеют скорость реагирования и экономическая эффективность. Эта модель предназначена для предоставления высококачественных результатов быстро и эффективно, без ущерба для точности и надежности.

Ключевые возможности:

  • Быстрое реагирование: o4-mini разработан для приложений, требующих ответа в режиме реального времени или близком к реальному, таких как чат-боты для обслуживания клиентов, интерактивные игры и динамическое создание контента.

  • Экономическая эффективность: Модель оптимизирована для эффективности, что делает ее экономически эффективным решением для приложений с большими объемами запросов или ограниченным бюджетом.

  • Сбалансированная производительность: Несмотря на то, что o4-mini оптимизирован для скорости и эффективности, он по-прежнему обеспечивает высококачественные результаты, гарантируя, что пользователям не придется жертвовать точностью ради скорости реагирования.

  • Универсальные приложения: Несмотря на акцент на скорости и эффективности, o4-mini может решать широкий круг задач, что делает его универсальным инструментом для различных приложений.

Более глубокий взгляд на показатели производительности

Показатели производительности, выпущенные OpenAI, дают ценную информацию о возможностях новых моделей. Давайте подробнее рассмотрим некоторые ключевые тесты и то, что они показывают:

  • AIME 2025 (Математика): AIME (Американский пригласительный математический экзамен) - это сложный математический конкурс, который проверяет навыки решения задач и математическое мышление. Модели o3 и o4-mini значительно превзошли o1 в этом тесте, демонстрируя свои улучшенные математические способности.

  • Codeforces (Кодирование): Codeforces - это популярная платформа соревновательного программирования, на которой проводятся конкурсы и задачи по кодированию. Модели o3 и o4-mini достигли более высоких баллов в тесте Codeforces, что указывает на их улучшенные навыки кодирования и способность решать сложные проблемы программирования.

  • GPQA Diamond (Наука на уровне докторантуры): Тест GPQA (General Purpose Question Answering) оценивает способность модели отвечать на вопросы по широкому кругу научных дисциплин. Модели o3 и o4-mini продемонстрировали превосходную производительность в этом тесте, подчеркивая их продвинутые научные знания и способности к рассуждению.

  • Последний экзамен человечества (Междисциплинарный уровень экспертов): Этот тест проверяет способность модели отвечать на вопросы, требующие знаний из нескольких дисциплин, таких как история, философия и литература. Модели o3 и o4-mini превзошли o1 в этом тесте, демонстрируя свое междисциплинарное понимание и опыт.

  • MathVista (Визуальное математическое мышление): MathVista - это тест, который оценивает способность модели решать математические задачи, представленные в визуальной форме, такие как диаграммы, графики и схемы. Модели o3 и o4-mini превосходно справились с этим тестом, демонстрируя свою способность извлекать информацию из визуальных источников и применять математические рассуждения для решения проблем.

Последствия для пользователей и разработчиков

Выпуск o3 и o4-mini имеет важные последствия для пользователей и разработчиков. Эти новые модели предлагают ряд преимуществ, в том числе:

  • Улучшенная производительность: Пользователи могут ожидать значительного улучшения производительности в широком спектре задач, включая рассуждения, решение проблем и генерацию кода.

  • Повышенная эффективность: Модель o4-mini предлагает экономически эффективное решение для приложений, требующих быстрого времени отклика и высокой пропускной способности.

  • Расширенные возможности: Возможность интеграции с инструментами ChatGPT, такими как веб-поиск и анализ Python, открывает новые возможности для приложений и вариантов использования.

  • Большая гибкость: Наличие двух различных моделей, o3 и o4-mini, позволяет пользователям выбрать модель, которая наилучшим образом соответствует их конкретным потребностям и требованиям.

Более широкий контекст: дорожная карта продуктов OpenAI

Выпуск o3 и o4-mini - это лишь один из элементов более крупной головоломки. OpenAI постоянно развивает свою дорожную карту продуктов, преследуя конечную цель создания все более мощных и универсальных моделей искусственного интеллекта. Некоторые из ключевых тенденций и событий, за которыми стоит следить, включают в себя:

  • Продолжение разработки GPT-5: Несмотря на то, что выпуск GPT-5 был отложен, OpenAI по-прежнему привержена разработке этой модели следующего поколения. Ожидается, что GPT-5 предложит значительные улучшения в производительности и возможностях по сравнению со своими предшественниками.

  • Интеграция моделей логического вывода и фундаментальных моделей: OpenAI работает над плавной интеграцией своих моделей o-серии, ориентированных на логический вывод, со своими фундаментальными моделями серии GPT. Эта интеграция позволит пользователям использовать сильные стороны обоих типов моделей для создания более мощных и универсальных приложений искусственного интеллекта.

  • Демократизация искусственного интеллекта: OpenAI стремится сделать технологию искусственного интеллекта более доступной для всех. Выпуск инструментов с открытым исходным кодом, таких как Codex CLI, является шагом в этом направлении.

Влияние на ландшафт ИИ

Постоянные инновации OpenAI оказывают глубокое влияние на более широкий ландшафт искусственного интеллекта, стимулируя прогресс и вдохновляя на новые разработки в отрасли. Выпуск o3 и o4-mini еще больше укрепляет позиции OpenAI как лидера в этой области и создает основу для еще более захватывающих достижений в ближайшие годы. Раздвигая границы возможного с помощью ИИ, OpenAI помогает формировать будущее технологий и трансформировать то, как мы живем и работаем.

Заключение

Представление моделей o3 и o4-mini представляет собой важный шаг вперед в эволюции технологии искусственного интеллекта. Эти модели предлагают улучшенную производительность, повышенную эффективность и расширенные возможности, что позволяет пользователям и разработчикам создавать более мощные и универсальные приложения искусственного интеллекта. Поскольку OpenAI продолжает внедрять инновации и совершенствовать свою дорожную карту продуктов, мы можем ожидать еще более захватывающих событий в ближайшие годы.