OpenAI: новые инструменты для ИИ-агентов

Рост ИИ-агентов в рабочей силе

OpenAI предвидит будущее, в котором ИИ-агенты будут глубоко интегрированы в рабочую силу, значительно повышая производительность в различных отраслях. Ожидается, что эти агенты будут выполнять сложные задачи, используя расширенные возможности, такие как рассуждение и мультимодальные взаимодействия. Недавно выпущенные инструменты специально разработаны для оптимизации разработки рабочих процессов на основе агентов с использованием платформы OpenAI.

Представляем Responses API

Responses API — это значительный шаг вперед, объединяющий функциональные возможности завершения чата с возможностями ассистента. OpenAI рекомендует разработчикам отдавать приоритет этому API для новых проектов.

Ключевые преимущества Responses API:

  • Гибкость: Он предлагает более адаптируемую основу для создания приложений на основе агентов.
  • Управление сложностью: Один вызов Responses API позволяет разработчикам решать все более сложные задачи, используя несколько инструментов и ходов модели.
  • Встроенная поддержка инструментов: API предоставляет встроенную поддержку внешних инструментов, включая поиск в Интернете, доступ к локальным файлам и управление компьютером (с помощью мыши и клавиатуры).
  • Улучшения, управляемые разработчиками: Основанный на отзывах о предыдущих моделях, API отличается унифицированным дизайном, упрощенным полиморфизмом, улучшенной потоковой передачей и различными вспомогательными средствами SDK.

Возможности веб-поиска

Для функции веб-поиска Responses API использует те же модели, что и поиск ChatGPT, предварительный просмотр поиска GPT-4o и предварительный просмотр мини-поиска GPT-4o. Эти модели продемонстрировали впечатляющую точность в тесте SimpleQA, достигнув показателей 90% и 88%. Это значительно превосходит ‘обычные’ модели GPT, которые обычно набирают от 15% до 63%.

Ограничения управления компьютером

Хотя возможности веб-поиска сильны, инструмент использования компьютера показывает возможности для улучшения. В настоящее время он набирает 38,1% в тесте OSWorld, что указывает на то, что модель еще не очень надежна для автоматизации задач в операционных системах.

Эволюция API: смещение фокуса

Хотя Chat Completions API и Assistants API пока останутся доступными, OpenAI стремится улучшить Chat Completions API с помощью новых моделей и функций. Однако компания объявила, что Assistants API будет устаревшим в следующем году, что свидетельствует о явном переходе к Responses API в качестве основного инструмента для разработки агентов.

Agents SDK: оркестровка агентских рабочих процессов

Наряду с Responses API OpenAI запустила новый Agents SDK. Этот SDK предназначен для облегчения оркестровки агентских рабочих процессов, предоставляя инструменты для:

  • Определения отдельных агентов: Создание специализированных агентов для конкретных задач.
  • Управления передачей управления (передачи): Плавная передача управления между различными агентами.
  • Реализации проверок безопасности (ограничений): Определение проверок ввода и вывода для предотвращения неуместного, вредного или нежелательного поведения.
  • Включения взаимодействия с человеком в цикле: Включение вмешательства человека, когда это необходимо.

Реальные приложения Agents SDK:

Agents SDK подходит для широкого спектра практических приложений, включая:

  • Автоматизацию поддержки клиентов
  • Многоэтапные исследования
  • Генерацию контента
  • Проверку кода
  • Поиск потенциальных клиентов

Совместимость моделей и инструментов

Agents SDK поддерживает все текущие модели OpenAI, включая o1, o3-mini, GPT-4.5, GPT-4o и GPT-4o-mini. Он также позволяет разработчикам расширять возможности своих агентов с помощью внешних и постоянных знаний через встраивания и Knowledge API. Используя Responses API, Agents SDK поддерживает те же внешние инструменты для веб-поиска, доступа к локальным файлам и управления компьютером.

Замена предыдущих фреймворков

Agents SDK заменяет своих предшественников и совместим с любым API в стиле Chat Completions, включая Responses API и сторонние API.

Реакция сообщества и стратегические соображения

Выпуск этих новых инструментов вызвал дискуссии в сообществе разработчиков. Некоторые члены сообщества Hacker News (HN) выразили обеспокоенность тем, что отход OpenAI от Chat Completions API может привести к усилению привязки к их платформе.

Опасения по поводу привязки:

Некоторые разработчики предполагают, что постепенный отказ от Assistant API подчеркивает важность создания собственной оркестровки. Этот подход обеспечивает большую гибкость и возможность замены базовой LLM при необходимости.

Подход ‘Сделай сам’:

Несколько читателей HN отметили, что принятие Agents SDK или другого агентского промежуточного программного обеспечения может по сути означать передачу основной логики приложения на аутсорсинг. Они утверждают, что разработчики могут предпочесть сохранить больший контроль, создавая свои собственные решения.

Более глубокое погружение в Responses API

Responses API — это больше, чем просто комбинация существующих функций; он представляет собой фундаментальный сдвиг в том, как разработчики могут взаимодействовать с моделями OpenAI. Он разработан, чтобы стать краеугольным камнем агентской разработки, предлагая уровень контроля и гибкости, недоступный ранее.

Детальный контроль над поведением модели

Одним из ключевых преимуществ Responses API является детальный контроль над поведением модели. Разработчики теперь могут указывать подробные инструкции и ограничения, управляя ответами модели с большей точностью. Это особенно важно для сложных задач, требующих нескольких шагов и взаимодействий.

Улучшенная разработка подсказок

Responses API облегчает более сложную разработку подсказок. Разработчики могут создавать подсказки, включающие несколько инструментов и источников данных, что позволяет модели генерировать более информированные и контекстуально релевантные ответы. Это открывает возможности для создания агентов, способных справляться с нюансами и сложными задачами.

Оптимизированный рабочий процесс разработки

Унифицированный дизайн и улучшенные возможности потоковой передачи Responses API способствуют более оптимизированному рабочему процессу разработки. Разработчики могут быстрее выполнять итерации подсказок и дизайнов агентов, что приводит к ускорению циклов разработки и повышениюпроизводительности агентов.

Подробное изучение Agents SDK

Agents SDK — это не просто набор инструментов; это фреймворк для создания сложных агентских рабочих процессов и управления ими. Он обеспечивает структурированный подход к разработке агентов, упрощая создание надежных и масштабируемых приложений.

Модульный дизайн агента

SDK поощряет модульный подход к дизайну агентов. Разработчики могут создавать специализированных агентов для конкретных задач, а затем комбинировать их для создания более сложных систем. Эта модульность упрощает обслуживание и обновление агентов с течением времени.

Передачи: плавные переходы

Механизм передачи является важной особенностью Agents SDK. Он обеспечивает плавные переходы между различными агентами, гарантируя, что задачи обрабатываются наиболее подходящим агентом на каждом этапе. Это важно для создания рабочих процессов, включающих несколько шагов и точек принятия решений.

Ограничения: обеспечение безопасности и релевантности

Функция ограничений предоставляет механизм для обеспечения соблюдения ограничений безопасности и релевантности. Разработчики могут определять правила, которые не позволяют агенту генерировать вредный или нежелательный вывод. Это особенно важно для приложений, которые взаимодействуют с пользователями или обрабатывают конфиденциальные данные.

Человек в цикле: лучшее из обоих миров

Возможность включения взаимодействия с человеком в цикле является мощной функцией Agents SDK. Она позволяет разработчикам создавать агентов, которые могут автономно выполнять сложные задачи, но также могут прибегать к вмешательству человека, когда это необходимо. Такое сочетание автоматизации и человеческого надзора имеет решающее значение для многих реальных приложений.

Будущее агентской разработки

Новые инструменты OpenAI представляют собой значительный шаг вперед в области агентской разработки. Они предоставляют разработчикам мощность и гибкость для создания сложных ИИ-агентов, способных выполнять широкий спектр задач. По мере развития технологий мы можем ожидать появления еще более инновационных приложений ИИ-агентов в различных отраслях.

Переход к Responses API и Agents SDK отражает более широкую тенденцию в индустрии ИИ: движение к более модульным, настраиваемым и управляемым системам ИИ. Эта тенденция обусловлена потребностью в решениях ИИ, которые можно адаптировать к конкретным задачам и интегрировать в сложные рабочие процессы.

Стремление OpenAI предоставить разработчикам инструменты, необходимые им для создания этих систем, является положительным знаком для будущего ИИ. По мере того, как все больше разработчиков будут использовать эти инструменты и изучать их возможности, мы можем ожидать быстрого ускорения разработки и развертывания ИИ-агентов в различных секторах. Потенциал для повышения производительности, повышения эффективности и новых инновационных решений огромен. Это трансформация, которая может изменить то, как мы работаем и взаимодействуем с технологиями. Эволюция ИИ-агентов — это не только автоматизация; речь идет о расширении человеческих возможностей и создании новых возможностей.