디지털 환경은 인공 지능으로 가득 차 있지만, 대부분은 미리 정의된 매개변수 내에서 작동하거나 구조화된 데이터 피드 및 API에 크게 의존하는 등 제한된 상태로 남아 있습니다. 복잡한 목표를 달성하기 위해 지저분하고 예측 불가능한 월드 와이드 웹 환경을 탐색할 수 있는 진정한 자율 에이전트, 즉 디지털 비서의 꿈은 대체로 실현되지 못했습니다. Amazon은 이제 이 분야에 과감하게 뛰어들어 Nova Act를 공개합니다. 이는 웹 브라우저를 이해하고 상호작용하여 마치 인간 사용자처럼 복잡한 작업을 실행할 수 있는 에이전트를 지원하도록 세심하게 설계된 정교한 AI 모델입니다. 이 이니셔티브는 현재의 한계를 뛰어넘어 더 유능하고 신뢰할 수 있으며 다재다능한 AI 비서 시대를 열려는 중요한 추진력을 보여줍니다.
거대한 비전: 단순 명령을 넘어 복잡한 문제 해결로
Amazon의 야망은 날씨 예보를 가져오거나 타이머를 설정하는 것을 훨씬 뛰어넘습니다. 이 회사는 AI 에이전트가 디지털 영역과 잠재적으로 상호 연결된 물리적 영역 모두에서 다면적인 목표를 원활하게 관리하는 매력적인 비전을 제시합니다. 결혼식 계획의 무수한 세부 사항을 조율하고, 공급업체를 조정하고, 예산을 관리하고, 다양한 온라인 포털을 통해 RSVP를 추적할 수 있는 AI를 상상해 보십시오. 복잡한 IT 관리 작업을 처리하고, 네트워크 문제를 해결하고, 소프트웨어 라이선스를 관리하거나, 내부 웹 기반 도구와 직접 상호작용하여 신입 사원을 온보딩하는 정교한 에이전트를 그려보십시오. 이는 작업별 봇에서 개인의 편의성을 크게 향상시키고 비즈니스 생산성을 높이도록 설계된 목표 지향적인 디지털 파트너로의 패러다임 전환을 나타냅니다.
현재의 생성형 AI 모델은 대화와 콘텐츠 생성에는 능숙하지만, 웹 인터페이스의 동적이고 종종 일관성 없는 특성에 직면하면 종종 실패합니다. 로그인, 메뉴 탐색, 양식 작성, 시각적 단서 해석, 예기치 않은 팝업 대응과 같은 일련의 작업을 실행하려면 일관성 있게 달성하기 어려웠던 수준의 상황적 이해와 운영 신뢰성이 필요합니다. Amazon은 이러한 장애물을 명시적으로 인정하며, 웹 기반 작업 실행의 복잡성을 마스터하기 위해 처음부터 설계된 전략적 대응으로 Nova Act를 포지셔닝합니다.
Nova Act 소개: 지능형 웹 탐색 엔진
Nova Act는 또 다른 대규모 언어 모델이 아닙니다. 인간의 의도를 웹 브라우저 내의 구체적인 행동으로 변환하는 데 중점을 둔 특수 시스템입니다. 이는 AI에 웹 요소를 효과적으로 인식, 이해 및 조작하는 능력을 부여하려는 공동의 노력을 나타냅니다. 핵심 과제는 자연어 지침(“다음 주 화요일 회의실 예약해 줘”)과 특정 웹사이트 또는 웹 애플리케이션에서 해당 요청을 이행하는 데 필요한 특정 클릭, 스크롤 및 텍스트 입력 순서 사이의 간극을 메우는 데 있습니다.
Amazon의 접근 방식은 웹이 정적인 존재가 아님을 인식합니다. 웹사이트 레이아웃은 변경되고, 인터페이스는 매우 다양하며, 동적 콘텐츠는 예측 불가능하게 로드됩니다. 따라서 에이전트에는 언어 능력 이상의 것이 필요합니다. 웹 구조(HTML, DOM), 시각적 요소 및 상호 작용 패턴에 대한 강력한 이해가 필요합니다. Nova Act는 이러한 미묘한 이해를 갖도록 개발되어 다양한 온라인 환경에서 더 높은 정밀도와 적응성으로 작동할 수 있도록 합니다. 웹 네이티브 상호 작용에 대한 이러한 초점은 Nova Act의 목적을 보다 범용적인 AI 모델과 구별하는 점입니다.
개발자 역량 강화: Nova Act 소프트웨어 개발 키트
이 고급 AI 기능을 실제 애플리케이션으로 전환하기 위해 Amazon은 Nova Act 소프트웨어 개발 키트(SDK)의 연구 프리뷰를 출시합니다. 이 툴킷은 차세대 자율 에이전트를 구축하려는 개발자를 위해 설계되었습니다. Nova Act의 성능을 활용하여 웹 기반 워크플로우를 자동화하는 데 필요한 빌딩 블록과 제어 기능을 제공합니다.
SDK 설계 철학의 초석은 복잡한 프로세스를 **”원자적 명령(atomic commands)”**이라고 하는 신뢰할 수 있는 기본 단위로 분해하는 것입니다. 이를 웹 상호 작용의 기본 동사로 생각하십시오.
- 검색(Searching): 페이지에서 특정 정보나 요소를 찾습니다.
- 결제(Checking Out): 전자 상거래에서 구매 프로세스를 완료합니다.
- 상호작용(Interacting): 드롭다운 메뉴, 체크박스, 날짜 선택기 또는 모달 팝업과 같은 특정 인터페이스 구성 요소와 상호 작용합니다.
- 탐색(Navigating): 웹사이트의 페이지 또는 섹션 간에 이동합니다.
- 데이터 입력(Inputting Data): 양식이나 텍스트 필드를 정확하게 채웁니다.
개발자는 이러한 상위 수준 명령에만 국한되지 않습니다. SDK를 사용하면 에이전트 동작을 구체화하기 위해 **세부 지침(detailed instructions)**을 추가할 수 있습니다. 예를 들어, 항공편 예약을 담당하는 에이전트는 결제 과정에서 여행자 보험 제안을 무시하거나 좌석 선택 추가 판매를 건너뛰도록 구체적으로 지시받을 수 있습니다. 이러한 세분화된 제어 수준은 특정 사용자 선호도나 비즈니스 규칙을 준수하면서 의도한 대로 정확하게 작업을 수행하는 에이전트를 만드는 데 중요합니다.
실제 웹 자동화에 요구되는 신뢰성과 정확성을 강화하기 위해 SDK는 여러 강력한 메커니즘을 통합합니다.
- Playwright를 통한 브라우저 조작: 널리 사용되는 Playwright 프레임워크를 활용하여 강력한 크로스 브라우저 자동화를 제공하고 브라우저 작업에 대한 세분화된 제어를 제공합니다.
- API 호출: 에이전트가 사용 가능한 경우 API를 통해 웹 서비스와 직접 상호 작용할 수 있도록 하여 특정 작업에 대해 UI 조작보다 더 안정적이고 효율적인 대안을 제공합니다.
- Python 통합: 개발자가 사용자 지정 Python 코드를 포함할 수 있도록 하여 에이전트 워크플로우 내에서 복잡한 로직, 데이터 처리 또는 다른 시스템과의 통합을 가능하게 합니다.
- 병렬 스레딩(Parallel Threading): 특정 작업을 동시에 실행할 수 있도록 하여 느리게 로드되는 웹 페이지나 네트워크 지연으로 인한 지연을 완화하고 전반적인 작업 완료 속도와 복원력을 향상시키는 데 도움이 됩니다.
이 포괄적인 툴킷은 개발자에게 이전에는 비실용적이거나 신뢰할 수 없었던 정교한 자동화 과제를 해결하는 데 필요한 유연성과 성능을 제공하는 것을 목표로 합니다.
성능 측정: 성능과 실용적 신뢰성에 초점
벤치마크 점수는 AI 세계에서 흔한 기준이지만, Amazon은 Nova Act 개발이 추상적인 테스트에서 단순히 순위표 상단을 차지하는 것보다 **실용적인 신뢰성(practical reliability)**을 우선시한다고 강조합니다. 목표는 웹 상호 작용에 중요한 특정 기능에 집중하는 것을 의미하더라도 실제 시나리오에서 일관되게 작동하는 에이전트를 구축하는 것입니다.
그렇긴 하지만, Nova Act는 웹 인터페이스와의 상호 작용을 평가하기 위해 특별히 설계된 벤치마크에서 뛰어난 성능을 보여줍니다. Amazon은 경쟁 모델에 종종 어려움을 주는 기능을 대상으로 하는 내부 평가에서 90% 이상의 정확도를 초과하는 인상적인 점수를 강조합니다.
기존 벤치마크에서의 결과는 주목할 만합니다.
- ScreenSpot Web Text: 이 벤치마크는 웹 페이지의 텍스트 기반 상호 작용과 관련된 자연어 지침(예: “글꼴 크기 늘리기”, “구독을 언급하는 단락 찾기”)을 해석하는 AI의 능력을 평가합니다. Nova Act는 거의 완벽한 0.939 점수를 달성하여 Claude 3.7 Sonnet(0.900) 및 OpenAI의 CUA(Conceptual User Agent benchmark)(0.883)와 같은 저명한 모델을 크게 앞섰습니다.
- ScreenSpot Web Icon: 이 테스트는 별점, 아이콘 또는 슬라이더와 같은 시각적, 비텍스트 요소와의 상호 작용에 중점을 둡니다. Nova Act는 다시 한 번 강력한 성능을 보여 0.879점을 기록했습니다.
흥미롭게도, 다양한 사용자 인터페이스 요소 탐색 능력을 광범위하게 평가하는 GroundUI Web 테스트에서는 Nova Act가 일부 경쟁 모델에 비해 약간 낮은 성능을 보였습니다. Amazon은 이를 솔직하게 인정하며, 실패가 아니라 모델이 지속적인 훈련과 개선을 통해 계속 진화함에 따라 개선 대상으로 삼는 영역으로 규정합니다. 이러한 투명성은 개발이 반복적인 프로세스임을 인식하고 진정으로 유용한 도구를 구축하는 데 중점을 둔다는 점을 강조합니다.
강조점은 여전히 신뢰할 수 있는 실행에 확고하게 남아 있습니다. Amazon은 Nova Act SDK를 사용하여 구축된 에이전트가 개발 중에 작업을 정확하고 안정적으로 수행하면 개발자는 배포에 대해 높은 신뢰도를 가져야 한다고 강조합니다. 이러한 에이전트는 헤드리스(headless)(보이는 브라우저 창 없이)로 실행하거나, API를 통해 더 큰 애플리케이션에 통합하거나, 특정 시간에 자율적으로 작업을 수행하도록 **예약(scheduled)**할 수도 있습니다. 제공된 예시 – 초기 설정 후 사용자 상호 작용 없이 매주 화요일 저녁에 선호하는 샐러드를 자동으로 배달 주문하는 에이전트 – 는 일상적인 디지털 잡무에 대한 원활하고 신뢰할 수 있는 자동화라는 비전을 완벽하게 보여줍니다.
적응성의 도약: UI 이해 학습 및 이전
Nova Act의 가장 매력적인 측면 중 하나는 사용자 인터페이스에 대한 이해를 일반화하고 최소한의 또는 전혀 작업별 재훈련 없이 **새로운 환경(novel environments)**에서 효과적으로 적용하는 능력입니다. 종종 전이 학습(transfer learning)이라고 하는 이 기능은 사소한 웹사이트 재설계나 익숙하지 않은 애플리케이션 레이아웃에 부딪혀도 깨지기 쉽거나 쉽게 고장 나지 않는 진정으로 다재다능한 에이전트를 만드는 데 중요합니다.
Amazon은 Nova Act가 훈련 데이터에 명시적으로 비디오 게임 경험을 포함하지 않았음에도 불구하고 브라우저 기반 게임을 운영하는 데 능숙함을 보여준 설득력 있는 일화를 공유했습니다. 이는 모델이 단순히 특정 웹사이트 구조를 암기하는 것이 아니라 버튼 인식, 시각적 피드백 해석, 입력 필드 이해와 같은 웹 상호 작용의 기본 원칙을 학습하고 있음을 시사합니다. 이 기능이 광범위한 애플리케이션에서 사실이라면 상당한 발전을 의미합니다. 이는 개발자가 잠재적으로 새로 접하는 웹사이트나 웹 애플리케이션에서 어느 정도 성공적으로 작업을 처리할 수 있는 에이전트를 구축할 수 있음을 의미하며, 모든 단일 대상 플랫폼에 대한 지속적이고 맞춤화된 훈련의 필요성을 극적으로 줄입니다.
이러한 적응성은 Nova Act를 단순한 작업 자동화를 넘어 광범위한 애플리케이션을 위한 잠재적으로 강력한 엔진으로 자리매김하게 합니다. 더 지능적인 웹 스크레이퍼, 더 직관적인 데이터 입력 도구 또는 더 유능한 접근성 도우미를 구동할 수 있습니다.
Amazon은 이미 자체 생태계 내에서 이 기능을 활용하고 있습니다. 음성 비서의 프리미엄 등급인 **Alexa+**는 Nova Act를 사용하여 **자체 주도 웹 탐색(self-directed web navigation)**을 가능하게 합니다. 사용자가 기존 Alexa 기술이나 사용 가능한 API(일반적인 제한 사항)를 통해 완전히 처리할 수 없는 요청을 하면 Nova Act가 잠재적으로 개입하여 관련 웹 페이지를 열고 사이트의 UI와 직접 상호 작용하여 작업을 완료하려고 시도할 수 있습니다. 이는 사전 구축된 통합에 덜 의존하고 개방형 웹을 활용하여 보다 자율적이고 동적으로 기능할 수 있는 AI 비서라는 비전을 향한 실질적인 단계입니다.
앞으로의 길: 장기 AI 전략의 기초 단계
Amazon은 현재 형태의 Nova Act가 훨씬 더 광범위하고 장기적인 임무의 **초기 단계(initial phase)**에 불과하다는 점을 분명히 합니다. 궁극적인 목표는 여러 웹사이트, 애플리케이션 및 세션에 걸쳐 있을 수 있는 점점 더 복잡하고 다단계적인 워크플로우를 관리할 수 있는 고도로 지능적이고 적응 가능하며 신뢰할 수 있는 AI 에이전트를 육성하는 것입니다.
회사의 전략은 단순한 시연이나 제한된 데이터 세트에서의 훈련을 넘어서는 것을 포함합니다. 초점은 다양하고 실제 시나리오(real-world scenarios) 전반에 걸쳐 강화 학습(reinforcement learning) 기술을 사용하는 데 있습니다. 이는 Nova 모델이 작업을 시도하고, 성공과 실패로부터 배우고, 라이브 웹 환경에 내재된 복잡성과 예측 불가능성을 탐색하는 데 점진적으로 숙련도를 구축하도록 훈련하는 것을 의미합니다. 이러한 반복적이고 경험 중심적인 접근 방식은 견고성과 진정한 지능을 구축하는 데 필수적인 것으로 간주됩니다.
Nova Act는 Amazon이 Nova 모델 제품군을 위한 장기 훈련 커리큘럼이라고 설명하는 것에서 중요한 체크포인트(checkpoint) 역할을 합니다. 이는 AI 에이전트의 환경을 근본적으로 재편하여 틈새 도구에서 디지털 생활을 탐색하는 데 없어서는 안 될 파트너로 전환하려는 지속적인 노력과 전략적 야망을 나타냅니다. 현재 모델은 시간이 지남에 따라 더 정교한 기능이 구축될 기반입니다.
미래 공동 창조: 개발자 커뮤니티의 필수적인 역할
이 기술의 가장 혁신적인 애플리케이션은 아직 구상되지 않았음을 인정하면서, Amazon은 Nova Act SDK의 연구 프리뷰를 통해 개발자 커뮤니티를 의도적으로 조기에 참여시키고 있습니다. “에이전트의 가장 가치 있는 사용 사례는 아직 구축되지 않았습니다.”라고 회사는 밝혔습니다. “최고의 개발자와 디자이너가 이를 발견할 것입니다.”
이 출시 전략은 여러 목적을 수행합니다. 혁신적인 빌더가 기술을 직접 경험하고, 그 한계를 넓히고, Amazon 내부 팀이 상상하지 못할 수 있는 방식으로 잠재력을 탐색할 수 있도록 합니다. 또한 중요한 피드백 루프를 구축합니다. 개발자가 SDK를 사용하는 방식, 직면하는 과제, 요청하는 기능을 관찰함으로써 Amazon은 실제 사용 및 실용적인 요구 사항을 기반으로 Nova Act 및 관련 도구를 개선하면서 **신속하게 반복(iterate rapidly)**할 수 있습니다. **신속한 프로토타이핑과 반복적인 피드백(rapid prototyping and iterative feedback)**을 중심으로 한 이 협업적 접근 방식은 웹 네이티브 AI 에이전트의 진정한 잠재력을 발휘하는 가장 빠른 경로로 간주됩니다.
본질적으로 Nova Act는 새로운 모델이나 SDK 그 이상입니다. 개발자에 대한 초대이자 Amazon의 의도 표명입니다. 이는 디지털 세계와의 상호 작용의 많은 부분을 정의하는 복잡하고 동적이며 종종 지저분한 작업에 대해 AI 에이전트를 진정으로 유용하게 만들기 위한 단호한 발걸음을 나타냅니다. 벤치마크를 재고하고, 신뢰성을 우선시하고, 적응성을 육성하고, 협업을 수용함으로써 Amazon은 빌더가 오늘날 AI 도구의 기능을 훨씬 뛰어넘는 자율 솔루션을 만들 수 있도록 지원하는 것을 목표로 합니다. 여정은 이제 막 시작되었지만 방향은 분명합니다. 우리를 대신하여 웹을 탐색하는 더 똑똑하고 더 자율적인 디지털 비서가 있는 미래를 향하여.