Responses API: AI 에이전트를 위한 새로운 기반
새롭게 출시된 ‘Responses API’는 AI 에이전트 개발 프로세스를 간소화하여 사용자를 대신하여 독립적으로 작업을 수행할 수 있도록 합니다. 이 API는 OpenAI의 정교한 대규모 언어 모델(LLM)을 기반으로 에이전트를 구축하기 위한 초석으로 설계되었습니다. 향후 1년 동안 기존 Assistants API를 대체할 예정입니다.
OpenAI의 이러한 전략적 움직임은 에이전트 AI에 대한 회사의 의지를 강조합니다. Responses API는 개발자가 정보 검색 및 작업 자동화에 특히 중점을 둔 향상된 기능을 갖춘 에이전트를 만들 수 있도록 지원합니다.
향상된 검색 기능: 지식 격차 해소
Responses API의 주요 기능 중 하나는 AI 에이전트에 강력한 검색 기능을 제공하는 것입니다. 이러한 에이전트는 전용 파일 검색 도구를 활용하여 회사의 내부 데이터 저장소를 탐색할 수 있습니다. 또한 광범위한 인터넷으로 검색을 확장할 수 있습니다.
이 기능은 최근 OpenAI가 공개한 Operator 에이전트를 반영합니다. Operator는 데이터 입력과 같은 작업을 간소화하도록 설계된 CUA(Computer-Using-Agent) 모델을 사용합니다. 그러나 OpenAI는 이전에 CUA 모델이 운영 체제 내에서 작업을 자동화할 때 가끔 불안정하다고 언급한 바 있습니다. 모델에서 오류가 발생하는 것으로 알려졌습니다. 따라서 OpenAI는 개발자에게 Responses API가 현재 ‘초기 반복’ 단계에 있으며 시간이 지남에 따라 안정성이 향상될 것으로 예상된다고 조언합니다.
모델 선택: GPT-4o Search 및 GPT-4o Mini Search
Responses API를 활용하는 개발자는 GPT-4o search와 GPT-4o mini search 두 가지 모델 옵션을 사용할 수 있습니다. 두 모델 모두 사용자 쿼리에 대한 답변을 찾기 위해 자율적으로 웹을 탐색할 수 있습니다. 또한 응답의 근거가 되는 출처에 대한 인용을 제공하여 투명성과 검증 가능성을 높입니다.
이러한 웹 검색 및 데이터 검색 기능은 매우 중요합니다. OpenAI는 개방형 웹과 회사의 독점 데이터 세트에 모두 액세스하면 모델의 정확성과 그 위에 구축된 에이전트의 성능이 크게 향상된다고 강조합니다.
정확도 벤치마킹: 도약했지만 완벽하지는 않음
OpenAI는 자체 SimpleQA 벤치마크를 사용하여 검색 지원 모델의 우수성을 입증했습니다. 이 벤치마크는 AI 시스템의 컨패뷸레이션(confabulation) 비율, 즉 허위 또는 조작된 정보를 생성하는 빈도를 측정하도록 특별히 설계되었습니다.
결과는 설득력이 있습니다. GPT-4o search는 90%라는 인상적인 점수를 달성했으며, GPT-4o mini search는 88%로 그 뒤를 바짝 따랐습니다. 대조적으로, 새로운 GPT-4.5 모델은 더 큰 매개변수 수와 더 큰 전반적인 성능에도 불구하고 동일한 벤치마크에서 63%만 기록했습니다. 이 낮은 점수는 추가 정보를 검색하기 위한 검색 기능이 부족하기 때문입니다.
그러나 개발자는 현실적인 관점을 유지하는 것이 중요합니다. 이러한 모델은 상당한 발전을 나타내지만 검색 기능이 AI 컨패뷸레이션 또는 환각을 완전히 제거하지는 않습니다. 벤치마크 점수는 GPT-4o search가 여전히 응답의 약 10%에서 사실 오류를 생성함을 나타냅니다. 이 오류율은 고정밀 에이전트 AI가 필요한 많은 애플리케이션에서 허용되지 않을 수 있습니다.
개발자 지원: 오픈 소스 도구 및 리소스
기술의 초기 단계에도 불구하고 OpenAI는 개발자가 이러한 새로운 도구를 실험하기 시작하도록 적극적으로 장려하고 있습니다. Responses API와 함께 회사는 오픈 소스 Agents SDK(Software Development Kit)를 출시했습니다. 이 SDK는 AI 모델 및 에이전트를 내부 시스템과 원활하게 통합하기 위한 도구 모음을 제공합니다. 또한 AI 에이전트의 작업을 보호하고 모니터링하기 위한 리소스도 포함되어 있습니다.
이 릴리스는 개발자가 여러 AI 에이전트를 관리하고 오케스트레이션하여 복잡한 작업에서 함께 작업할 수 있도록 설계된 프레임워크인 ‘Swarm’을 이전에 OpenAI가 도입한 것을 기반으로 합니다.
OpenAI의 전략적 비전: 도달 범위 및 채택 확대
이러한 새로운 도구와 이니셔티브는 대규모 언어 모델의 시장 점유율을 높이려는 OpenAI의 광범위한 목표와 전략적으로 일치합니다. 에이전트 AI 스타트업 SOCi Inc.의 시장 통찰력 책임자인 Damian Rollison이 지적했듯이, OpenAI는 이전에 새로운 Apple Intelligence 제품군 내에서 ChatGPT를 Apple Inc.의 Siri와 통합하는 유사한 전략을 사용했습니다. 이 통합으로 ChatGPT는 방대한 새로운 사용자층에 노출되었습니다.
Rollison은 “새로운 Responses API는 일반 대중이 이미 사용하고 있는 다양한 도구에 AI 에이전트 개념을 더 광범위하게 노출하고 적응시킬 수 있는 가능성을 열어줍니다.”라고 말했습니다.
주의 사항: 과대 광고 주기 탐색
AI 에이전트의 잠재력은 부인할 수 없으며 많은 개발자가 OpenAI의 새로운 도구가 제공하는 가능성을 탐구하고 싶어할 것이지만, 이러한 기술은 아직 초기 단계라는 점을 기억하는 것이 중요합니다. 완벽한 성능에 대한 주장은 건전한 회의론으로 접근해야 합니다.
최근 사례는 이 점을 강조합니다. 한 중국 스타트업이 Manus라는 AI 에이전트를 선보이며 큰 화제를 모았습니다. 초기 채택자들은 처음에 감명을 받았지만 에이전트가 더 널리 사용 가능해짐에 따라 한계와 단점이 빠르게 드러났습니다. 이는 실제 성능이 초기 과대 광고보다 뒤처지는 경우가 많으며 철저한 테스트와 평가가 필수적임을 상기시켜 줍니다.
AI 에이전트의 미래: 협업 환경
AI 에이전트 개발은 OpenAI의 노력에만 국한되지 않습니다. 점점 더 많은 기업과 연구자 생태계가 빠르게 진화하는 이 분야에 적극적으로 기여하고 있습니다. 경쟁과 협력은 모두 혁신을 주도하여 다양한 접근 방식과 솔루션으로 이어집니다.
일부 회사는 특정 산업 또는 작업에 맞춘 특수 에이전트에 초점을 맞추고 있는 반면, 다른 회사는 더 광범위한 요청을 처리할 수 있는 범용 에이전트를 추구하고 있습니다. 연구 커뮤니티는 또한 AI 에이전트를 둘러싼 신뢰성, 안전 및 윤리적 고려 사항을 개선하기 위해 새로운 아키텍처와 훈련 기술을 탐구하고 있습니다.
주요 과제 및 고려 사항
AI 에이전트가 더욱 정교해지고 우리 삶의 다양한 측면에 통합됨에 따라 몇 가지 주요 과제와 고려 사항이 전면에 등장합니다.
- 신뢰성 및 정확성: 특히 중요한 애플리케이션에서 에이전트가 정확하고 신뢰할 수 있는 정보를 지속적으로 제공하는 것이 가장 중요합니다.
- 안전 및 보안: 에이전트가 민감한 데이터에 액세스하거나 중요한 시스템을 제어할 수 있으므로 악의적인 사용 및 의도하지 않은 결과로부터 보호하는 것이 중요합니다.
- 투명성 및 설명 가능성: 에이전트가 어떻게 결정과 행동에 도달하는지 이해하는 것은 신뢰와 책임감을 구축하는 데 중요합니다.
- 윤리적 의미: 잠재적인 편견, 공정성 문제 및 사회적 영향을 해결하는 것은 책임감 있는 개발 및 배포를 보장하는 데 필수적입니다.
- 사용자 경험: 에이전트와 상호 작용하기 위한 직관적이고 사용자 친화적인 인터페이스를 설계하는 것은 광범위한 채택의 핵심입니다.
- 데이터 프라이버시: 사용자 데이터를 보호하고 개인 정보 보호 규정을 준수하는 것은 중요한 문제입니다.
앞으로 나아갈 길: 반복 및 책임감 있는 개발
AI 에이전트 개발은 지속적인 반복, 개선 및 학습을 특징으로 하는 지속적인 여정입니다. OpenAI의 새로운 도구는 중요한 진전을 나타내지만 최종 목적지는 아닙니다. 기술이 성숙함에 따라 지속적인 연구, 책임감 있는 개발 관행 및 개방형 협업은 잠재적인 위험을 완화하면서 AI 에이전트의 잠재력을 최대한 실현하는 데 필수적입니다. 강력할 뿐만 아니라 신뢰할 수 있고 안전하며 사회에 유익한 에이전트를 만드는 데 초점을 맞춰야 합니다. 이 분야의 발전은 혁신과 윤리적 원칙 및 사용자 복지에 대한 헌신을 균형 있게 유지하면서 신중하고 측정된 접근 방식을 필요로 합니다. 앞으로 몇 년 동안 의심할 여지 없이 더 많은 발전이 있을 것이며, 책임감 있는 개발 커뮤니티는 이 혁신적인 기술의 궤적을 안내하는 데 경계를 늦추지 않아야 합니다.