에이전트 개념의 부상
최근 마이크로소프트의 GitHub MCP 서버 출시, 구글의 A2A 에이전트 간 통신 프로토콜 발표, 알리페이의 MCP 서버 출시 등 일련의 사건들을 통해 에이전트(Agent) 분야가 시장의 전례 없는 관심을 받고 있습니다. 현재 에이전트에 대한 정의가 완전히 합의된 것은 아니지만, 전 OpenAI 연구원인 Lilian Weng이 제시한 ‘계획’, ‘기억’, ‘도구 사용’이라는 세 가지 핵심 구성 요소가 널리 인정받으며 에이전트 이해의 핵심 요소로 자리 잡았습니다.
인공지능 분야에서 에이전트 개념은 새로운 것이 아니지만, 대규모 언어 모델(LLM)의 빠른 발전에 따라 에이전트의 응용 전망은 새로운 돌파구를 맞이했습니다. 에이전트는 환경을 감지하고, 자율적으로 계획을 수립하며, 작업을 실행할 수 있는 지능형 시스템으로 간주할 수 있습니다. 핵심은 인간의 의사 결정 과정을 모방하고 다양한 도구와 자원을 활용하여 설정된 목표를 달성하는 데 있습니다.
에이전트의 발전 현황: 거대한 잠재력, 낮은 침투율
채팅 봇의 진화 버전으로서 현재 에이전트 응용 프로그램은 대부분 대규모 모델의 유료 서비스에 통합되어 있으며, Manus 및 Devin과 같은 일부 에이전트만 독립적인 유료 서비스를 제공합니다. 그럼에도 불구하고 Deep Research 및 Manus와 같이 자체 계획 기능을 갖춘 에이전트는 사용에 많은 제한이 있으며 실제로 경험할 수 있는 사용자 수는 많지 않을 수 있으며 ‘블록버스터’ 응용 프로그램의 출현까지 개선의 여지가 많습니다.
그러나 대규모 모델 추론 기능이 지속적으로 향상됨에 따라 에이전트는 응용 프로그램 혁신의 초점이 되고 있습니다. 점점 더 많은 개발자와 연구자가 지능형 비서, 자동화된 프로세스, 데이터 분석 등 다양한 분야에서 에이전트의 응용 프로그램을 탐색하기 시작했습니다. 에이전트의 잠재력은 점차 발굴되고 있으며 미래의 개발 공간은 매우 넓습니다.
에이전트의 대규모 응용 임박: 다중 유리한 조건이 주도
모델 훈련 단의 돌파구
- 빠르게 증가하는 컨텍스트 창: 대규모 모델의 컨텍스트 창(Context Window)은 모델이 텍스트를 처리할 때 고려할 수 있는 최대 텍스트 길이를 나타냅니다. 기술의 발전으로 모델의 컨텍스트 창이 빠르게 증가하고 있으며 이는 모델이 긴 텍스트의 컨텍스트를 더 잘 이해하여 보다 정확한 결정을 내릴 수 있음을 의미합니다.
- 심층 강화 학습 응용 프로그램: 강화 학습은 보상과 처벌을 통해 에이전트를 훈련시키는 방법입니다. 최근 강화 학습은 에이전트 훈련에 널리 사용되어 에이전트가 복잡한 환경에 더 잘 적응하고 최적의 전략을 학습할 수 있도록 했습니다.
- 점점 성숙해지는 추론 모델: 추론 모델은 에이전트의 핵심 구성 요소이며 입력된 정보를 기반으로 추론하고 판단하는 역할을 합니다. 연구가 심화됨에 따라 추론 모델은 점점 더 성숙해지고 있으며 에이전트의 다양한 응용 프로그램을 더 잘 지원할 수 있습니다.
생태계의 급성장
- MCP 및 A2A와 같은 프로토콜의 급속한 발전: MCP(Model Communication Protocol)와 A2A(Agent-to-Agent)는 두 가지 중요한 에이전트 통신 프로토콜입니다. 이러한 프로토콜의 빠른 개발은 에이전트가 다양한 도구와 서비스를 더 쉽게 호출하여 더 복잡한 기능을 구현할 수 있도록 했습니다.
- 점점 더 편리해지는 에이전트의 도구 호출: 기술의 발전으로 에이전트가 외부 도구와 서비스를 호출하는 방식이 점점 더 편리해지고 있습니다. 예를 들어, API(응용 프로그래밍 인터페이스)를 통해 에이전트는 다양한 데이터 소스와 온라인 서비스에 쉽게 액세스하여 자체 기능을 확장할 수 있습니다.
2024년 11월, Anthropic은 외부 데이터와 도구가 모델에 컨텍스트를 제공하는 방식을 표준화하기 위해 MCP 프로토콜을 출시하고 오픈 소스화했습니다. 이러한 움직임은 에이전트 생태계의 발전을 크게 촉진하여 에이전트가 외부 리소스를 더 잘 활용할 수 있도록 할 것입니다.
MCP와 A2A: 에이전트 연결의 핵심
MCP 프로토콜: 에이전트와 외부 세계 연결
MCP 프로토콜의 주요 목표는 에이전트와 외부 데이터 및 도구 간의 ‘원클릭 연결’을 구현하는 것입니다. MCP 프로토콜을 통해 에이전트는 데이터베이스, API, 웹 서비스 등 다양한 외부 리소스에 쉽게 액세스할 수 있습니다. 이를 통해 에이전트는 환경을 더 잘 이해하고 더 현명한 결정을 내릴 수 있습니다.
A2A 프로토콜: 에이전트 간 통신 브리지 구축
A2A 프로토콜의 목표는 에이전트 간 통신을 구현하는 것입니다. A2A 프로토콜을 통해 에이전트는 서로 협력하여 복잡한 작업을 공동으로 완료할 수 있습니다. 이는 분산 지능형 시스템 구축에 중요한 의미를 갖습니다.
A2A 프로토콜의 목표는 에이전트 간 통신이고 MCP는 에이전트와 외부 도구 및 데이터 간 통신이지만 ‘도구도 에이전트로 캡슐화될 수 있음’이라는 복잡한 상황에서 두 가지 기능이 겹칠 수 있지만 이러한 경쟁은 대규모 모델이 외부 도구와 통신 비용을 줄이는 데 도움이 됩니다. 이러한 경쟁은 기술 발전을 촉진하고 궁극적으로 전체 에이전트 생태계에 혜택을 줄 것입니다.
에이전트 발전 전망
엔드 투 엔드 에이전트: 인공 개입 불필요
현재 시장에는 많은 ‘지능형 에이전트’가 존재하지만 그중 상당수는 Coze, Dify 등 플랫폼을 기반으로 개발되었으며 사전에 인간이 워크플로를 작성해야 합니다. 이러한 에이전트는 프롬프트 엔지니어링의 중첩과 더 유사하며 비교적 초기 단계의 에이전트에 속합니다.
더 고급 에이전트는 ‘엔드 투 엔드’이며 이는 ‘에이전트에 작업을 입력하면 에이전트가 인간에게 필요한 작업 결과를 자동으로 완료함’을 의미합니다. 예를 들어 사용자는 에이전트에 목표를 입력하기만 하면 에이전트가 자율적으로 작업을 계획하고 실행하여 최종적으로 목표를 완료할 수 있습니다. L3/L4/L5와 같은 이러한 고급 에이전트는 인간의 요구 사항에 더 부합하며 미래 에이전트 발전의 중요한 방향이 될 것입니다.
에이전트, 로봇 및 자율 주행 지원
에이전트의 정의를 구체적인 지능에 적용하면 대규모 모델에 의해 지배되는 로봇과 차량도 에이전트임을 알게 됩니다. 특히 로봇의 경우 현재 로봇 발전의 병목 현상은 ‘물리적 동작을 수행하는 방법’의 ‘소뇌’가 아니라 ‘어떤 물리적 동작을 수행할지’ 생각하는 ‘대뇌’에 있으며 이는 에이전트의 사정거리에 속합니다.
로봇 분야에서 에이전트는 로봇이 환경을 더 잘 이해하고 더 합리적인 결정을 내리는 데 도움이 될 수 있습니다. 예를 들어 에이전트는 환경의 물체와 사람에 따라 로봇의 이동 경로를 자율적으로 계획하고 다양한 작업을 수행할 수 있습니다.
자율 주행 분야에서 에이전트는 차량이 주변 환경을 더 잘 인식하고 더 안전한 운전 결정을 내리는 데 도움이 될 수 있습니다. 예를 들어 에이전트는 교통 신호, 다른 차량 및 보행자에 따라 차량의 속도와 방향을 자율적으로 조정하여 교통사고를 방지할 수 있습니다.
에이전트 연결 및 AI 기본 네트워크
미래에는 아마도 모든 에이전트가 서로 통신하고, 자체적으로 조직하고, 협상하여 기존 인터넷보다 저렴하고 효율적인 협업 네트워크를 구축할 수 있어야 할 것입니다. 중국 개발자 커뮤니티는 또한 에이전트 인터넷 시대의 HTTP 프로토콜이 되기 위해 ANP와 같은 프로토콜을 구축하고 있습니다. 에이전트 간의 신원 인증에 관해서는 DID와 같은 기술을 활용할 수 있습니다.
- 에이전트 연결: 에이전트 간의 연결은 리소스 공유 및 협업을 구현하여 전체 시스템의 효율성을 향상시킬 수 있습니다. 예를 들어 서로 다른 에이전트가 데이터, 도구 및 서비스를 공유하여 복잡한 작업을 공동으로 완료할 수 있습니다.
- AI 기본 네트워크: AI 기본 네트워크는 인공지능 응용 프로그램을 위해 특별히 설계된 네트워크를 의미합니다. 이 네트워크는 더 높은 대역폭, 더 낮은 지연 시간 및 더 강력한 보안을 제공하여 에이전트의 다양한 응용 프로그램을 더 잘 지원할 수 있습니다.
- DID 기술: DID(Decentralized Identifier)는 분산된 신원 인증 기술입니다. DID 기술을 통해 에이전트는 자체 신원을 보유하여 더 안전하고 안정적인 통신을 구현할 수 있습니다.
에이전트 기술의 발전은 엄청난 변화를 가져올 것이며 미래의 인터넷은 더 이상 단순한 정보 전달 네트워크가 아니라 지능으로 가득 찬 협업 네트워크가 될 것입니다.