Claude 3.7 Sonnet: 코딩 능력의 새로운 기준
최근 2주 전에 출시된 Claude 3.7 Sonnet은 코딩 성능에 대한 기존 벤치마크 기록을 깼습니다. 동시에 Anthropic은 프로그래머를 위한 애플리케이션 개발을 가속화하도록 설계된 명령줄 AI 에이전트인 Claude Code를 공개했습니다. 이러한 모멘텀에 더하여, Anthropic의 Claude 모델을 기본으로 사용하는 AI 기반 코드 편집기인 Cursor는 불과 12개월 만에 연간 반복 수익(ARR) 1억 달러라는 놀라운 수치로 급증했습니다.
Anthropic이 코딩에 의도적으로 집중하는 것은 AI 코딩 에이전트의 혁신적인 잠재력에 대한 기업들의 인식이 높아짐에 따라 이루어졌습니다. 이러한 에이전트는 숙련된 개발자와 코딩 경험이 없는 개인 모두에게 전례 없는 속도와 효율성으로 애플리케이션을 만들 수 있는 능력을 제공합니다. 개발자(비 코더 포함)가 프런트 엔드 애플리케이션을 배포할 수 있도록 지원하는 빠르게 성장하는 회사인 Vercel의 CEO인 Guillermo Rauch는 “Anthropic은 계속해서 최고의 자리를 차지하고 있습니다.”라고 적절하게 말했습니다. 작년에 Vercel이 중요한 코딩 작업에 대한 성능을 철저히 평가한 후 기본 코딩 모델을 OpenAI의 GPT에서 Anthropic의 Claude로 전환하기로 한 결정은 이 점을 강조합니다.
2월 24일에 출시된 Claude 3.7 Sonnet은 거의 모든 코딩 벤치마크에서 선두를 차지했습니다. 에이전트의 소프트웨어 개발 능력을 측정하는 매우 존경받는 SWE-bench 벤치마크에서 70.3%라는 놀라운 점수를 달성했습니다. 이 점수는 가장 가까운 경쟁자인 OpenAI의 o1(48.9%) 및 DeepSeek-R1(49.2%)보다 훨씬 높습니다. 또한 Claude 3.7은 에이전트 작업에서 우수한 성능을 보여줍니다.
이러한 벤치마크 결과는 실제 테스트를 통해 개발자 커뮤니티에서 빠르게 검증되었습니다. 특히 Reddit과 같은 플랫폼에서 Claude 3.7과 Grok 3(Elon Musk의 xAI의 최신 모델)를 비교하는 온라인 토론에서는 코딩 작업에 대해 Anthropic의 모델을 일관되게 선호합니다. 한 최고 댓글 작성자는 “내가 테스트한 바에 따르면 Claude 3.7이 코드를 작성하는 데 가장 적합한 것 같습니다(적어도 나에게는).”라고 요약했습니다. 이번 주 초에 세계를 강타한 새로운 중국 다목적 에이전트 Manus조차도 Open AI의 Deep Research 및 기타 자율 작업보다 낫다고 말했으며 대부분 Claude를 기반으로 구축되었다는 점은 매우 중요합니다.
전략적 초점: Anthropic의 엔터프라이즈 전략
코딩 기능에 대한 Anthropic의 확고한 초점은 우연이 아닙니다. The Information에서 보고한 유출된 예측에 따르면 Anthropic은 2027년까지 345억 달러라는 엄청난 수익을 목표로 하고 있습니다. 이는 현재 수준에서 86배 증가한 수치입니다. 이 예상 수익의 상당 부분(약 67%)은 API 비즈니스에서 발생할 것으로 예상되며, 엔터프라이즈 코딩 애플리케이션이 주요 성장 동력으로 작용합니다. Anthropic은 정확한 수익 수치를 공개하지 않았지만 2024년 마지막 분기에 코딩 수익이 1,000% 급증했다고 보고했습니다. 이러한 재정적 모멘텀에 더하여 Anthropic은 최근 35억 달러의 자금 조달 라운드를 발표했으며 회사의 가치는 615억 달러로 평가되었습니다.
이러한 코딩 중심 전략은 Anthropic 자체의 경제 지수(Economic Index) 결과와 일치합니다. 이 지수에 따르면 Claude에 전달된 쿼리의 상당 부분(37.2%)이 ‘컴퓨터 및 수학’ 범주에 속했습니다. 이러한 쿼리는 주로 코드 수정, 디버깅 및 네트워크 문제 해결과 같은 소프트웨어 엔지니어링 작업을 포함했습니다.
Anthropic의 접근 방식은 경쟁 환경에서 두드러지는데, 경쟁사들은 종종 광범위한 기능으로 엔터프라이즈 및 소비자 시장 모두를 만족시키기 위해 활동의 소용돌이에 휩싸입니다. OpenAI는 초기 소비자 인지도와 채택으로 인해 강력한 선두를 유지하고 있지만 다양한 모델과 기능으로 일반 사용자와 기업 모두에게 서비스를 제공해야 하는 과제에 직면해 있습니다. Google도 마찬가지로 광범위한 제품 포트폴리오를 제공하는 전략을 추구하고 있습니다.
Anthropic의 비교적 절제된 접근 방식은 제품 결정에도 반영됩니다. 소비자 시장 점유율을 추구하기보다는 GitHub 통합, 감사 로그, 사용자 정의 가능한 권한 및 도메인별 보안 제어와 같은 엔터프라이즈급 기능을 우선시했습니다. 6개월 전에 개발자를 위해 500,000 토큰 컨텍스트 창을 도입했는데, 이는 Google이 100만 토큰 창을 비공개 테스터로 제한하기로 한 결정과 극명한 대조를 이룹니다. 이러한 전략적 초점은 기업에서 점점 더 공감대를 얻고 있는 포괄적인 코딩 중심 제품을 제공하게 되었습니다.
최근에 코더가 아닌 사용자가 조직 내에서 AI 생성 애플리케이션을 게시할 수 있도록 하는 기능과 지난주에 향상된 협업 기능(공유 가능한 프롬프트 및 템플릿 포함)을 갖춘 콘솔 업그레이드를 도입한 것은 이러한 추세를 더욱 잘 보여줍니다. 이러한 민주화는 ‘트로이 목마’ 전략을 반영합니다. 처음에는 개발자가 강력한 기반을 구축할 수 있도록 권한을 부여한 다음 광범위한 엔터프라이즈 인력에 대한 액세스를 확장하여 궁극적으로 기업 스위트에 도달합니다.
Claude 실습: 실제 실험
이러한 코딩 에이전트의 실제 기능을 평가하기 위해 기사를 저장할 데이터베이스를 구축하는 데 중점을 둔 실제 실험이 수행되었습니다. Anthropic 앱을 통한 Claude 3.7 Sonnet, Cursor의 코딩 에이전트, Claude Code의 세 가지 고유한 접근 방식이 사용되었습니다.
Anthropic 앱을 통해 Claude 3.7을 직접 활용하면 특히 코딩 경험이 많지 않은 사람에게는 제공된 지침이 놀라울 정도로 통찰력이 있었습니다. 이 모델은 PostgreSQL 데이터베이스를 사용하는 강력한 솔루션부터 Airtable과 같은 더 가벼운 대안에 이르기까지 여러 가지 옵션을 제시했습니다. 가벼운 솔루션을 선택한 Claude는 API에서 기사를 추출하고 커넥터 서비스를 사용하여 Airtable에 통합하는 프로세스를 체계적으로 안내했습니다. 이 프로세스는 주로 인증 문제로 인해 약 2시간이 걸렸지만 기능적인 시스템으로 절정에 달했습니다. 본질적으로 Claude는 모든 코드를 자율적으로 작성하는 대신 원하는 결과를 얻기 위한 포괄적인 청사진을 제공했습니다.
Claude 모델에 대한 기본 의존성을 가진 Cursor는 본격적인 코드 편집기 경험을 제공하고 자동화에 대한 더 큰 경향을 보였습니다. 그러나 각 단계에서 권한이 필요하여 다소 반복적인 워크플로가 발생했습니다.
Claude Code는 터미널 내에서 직접 작동하고 SQLite를 사용하여 RSS 피드에서 기사로 채워진 로컬 데이터베이스를 만드는 다른 접근 방식을 제공했습니다. 이 솔루션은 Airtable 구현에 비해 덜 강력하고 기능이 풍부하지만 최종 목표를 달성하는 데 더 간단하고 안정적인 것으로 입증되었습니다. 이는 관련된 고유한 절충안을 강조하고 특정 프로젝트 요구 사항에 따라 코딩 에이전트를 선택하는 것이 중요함을 강조합니다.
이 실험에서 얻을 수 있는 주요 내용은 비 개발자라도 세 가지 접근 방식을 모두 사용하여 기능적인 데이터베이스 애플리케이션을 구축할 수 있다는 것입니다. 이것은 불과 1년 전에는 상상할 수 없는 일이었습니다. 그리고 특히 세 가지 접근 방식 모두 Claude의 기본 기능에 의존했습니다.
코딩 에이전트 생태계: Cursor 및 그 이상
Anthropic의 성공을 나타내는 가장 설득력 있는 지표는 아마도 AI 코드 편집기인 Cursor의 경이로운 성장일 것입니다. 보고서에 따르면 Cursor는 불과 12개월 만에 360,000명의 사용자를 확보했으며 그 중 40,000명 이상이 유료 고객입니다. 이러한 빠른 성장 궤도는 Cursor를 해당 이정표에 도달한 가장 빠른 SaaS 회사로 자리매김할 가능성이 있습니다.
Cursor의 성공은 본질적으로 Claude와 연결되어 있습니다. AI 에이전트의 독립 개발자인 Red Dragon의 공동 설립자인 Sam Witteveen은 “[Cursor]의 가장 큰 고객은 Cursor라고 생각해야 합니다. [Cursor]의 대부분의 사람들은 이미 Claude Sonnet 모델(3.5 모델)을 사용하고 있었습니다. 그리고 이제 모든 사람이 3.7로 마이그레이션하는 것 같습니다.”라고 말했습니다.
Anthropic과 생태계 간의 관계는 Cursor와 같은 개별 회사를 넘어 확장됩니다. 11월에 Anthropic은 개발자가 Claude 모델과 원활하게 상호 작용하는 도구를 구축할 수 있도록 하는 개방형 표준으로 모델 컨텍스트 프로토콜(MCP)을 도입했습니다. 이 표준은 개발자 커뮤니티 내에서 널리 채택되었습니다.
Witteveen은 이 접근 방식의 중요성을 설명했습니다. “이것을 개방형 프로토콜로 출시함으로써 그들은 ‘이봐, 모두들, 해봐. 이 프로토콜에 맞는 무엇이든 개발할 수 있어. 우리는 이 프로토콜을 지원할 거야.’라고 말하는 것과 같습니다.”
이 전략은 선순환을 만듭니다. 개발자는 Claude를 위해 특별히 도구를 구축하여 기업에 대한 가치 제안을 강화하고, 이는 다시 더 많은 채택을 유도하고 더 많은 개발자를 유치합니다.
경쟁 환경: Microsoft, OpenAI, Google 및 오픈 소스
Anthropic은 집중적인 접근 방식으로 틈새 시장을 개척했지만 경쟁사들은 다양한 성공을 거두며 다양한 전략을 추구하고 있습니다.
Microsoft는 GitHub Copilot을 통해 강력한 입지를 유지하고 있으며 약 2년 만에 130만 명의 유료 사용자와 77,000개 이상의 조직에서 채택되었습니다. Honeywell, State Street, TD Bank Group 및 Levi’s와 같은 저명한 회사가 사용자 중 하나입니다. 이러한 광범위한 채택은 주로 Microsoft의 기존 엔터프라이즈 관계와 OpenAI에 대한 초기 투자 및 Copilot을 구동하기 위한 OpenAI 모델 활용에서 비롯된 선점자 이점 때문입니다.
그러나 Microsoft조차도 Anthropic의 강점을 인정했습니다. 10월에 GitHub Copilot 사용자는 OpenAI 제품에 대한 대안으로 Anthropic의 모델을 선택할 수 있었습니다. 또한 OpenAI의 최근 모델인 o1과 더 새로운 o3(확장된 사고를 통한 추론 강조)는 코딩 또는 에이전트 작업에서 특별한 이점을 보여주지 못했습니다.
Google은 최근 Code Assist를 무료로 제공함으로써 자체적인 움직임을 보였지만 이는 전략적 이니셔티브라기보다는 방어적인 조치로 보입니다.
오픈 소스 운동은 이 환경에서 또 다른 중요한 힘을 나타냅니다. Meta의 Llama 모델은 AT&T, DoorDash 및 Goldman Sachs와 같은 주요 회사가 다양한 애플리케이션에 Llama 기반 모델을 배포하면서 상당한 엔터프라이즈 견인력을 얻었습니다. 오픈 소스 접근 방식은 기업에 폐쇄형 모델이 종종 일치할 수 없는 더 큰 제어, 사용자 정의 옵션 및 비용 이점을 제공합니다.
Anthropic은 이것을 직접적인 위협으로 보는 대신 오픈 소스를 보완하는 위치에 있는 것 같습니다. 엔터프라이즈 고객은 특정 요구 사항에 따라 Claude를 오픈 소스 모델과 함께 활용하여 각 모델의 강점을 극대화하는 하이브리드 접근 방식을 채택할 수 있습니다.
실제로 많은 대규모 엔터프라이즈 회사는 주어진 작업에 가장 적합한 모델을 활용하는 다중 모드 접근 방식을 채택했습니다. 예를 들어 Intuit은 처음에 세금 신고 애플리케이션의 기본값으로 OpenAI에 의존했지만 이후 특정 시나리오에서 우수한 성능으로 인해 Claude로 전환했습니다. 이러한 경험을 통해 Intuit은 모델 간의 원활한 전환을 용이하게 하는 AI 오케스트레이션 프레임워크를 개발했습니다.
그 이후로 대부분의 다른 엔터프라이즈 회사는 유사한 관행을 채택하여 각 특정 사용 사례에 가장 적합한 모델을 사용하고 종종 간단한 API 호출을 통해 모델을 통합했습니다. Llama와 같은 오픈 소스 모델이 어떤 경우에는 적합할 수 있지만 Claude는 계산과 같이 높은 정확도가 필요한 작업에 선호되는 경우가 많습니다.
엔터프라이즈에 미치는 영향: 코딩 에이전트로의 전환 탐색
엔터프라이즈 의사 결정자에게 이 빠르게 진화하는 환경은 기회와 과제를 모두 제시합니다.
보안은 여전히 가장 중요한 관심사이지만 최근 독립 보고서에서는 Claude 3.7 Sonnet을 테스트된 유일한 ‘탈옥 방지’ 모델로 식별하여 현재까지 가장 안전한 모델로 확인했습니다. 이러한 보안 태세는 Google과 Amazon의 지원(및 AWS Bedrock에 통합)과 결합되어 엔터프라이즈 채택에 유리한 위치를 차지합니다.
코딩 에이전트의 확산은 애플리케이션 개발 방식을 변화시킬 뿐만 아니라 프로세스를 민주화하고 있습니다. GitHub에 따르면 18개월 전 엔터프라이즈 회사의 미국 기반 개발자의 상당 부분(92%)이 이미 직장에서 AI 기반 코딩 도구를 활용하고 있었습니다. 이 수치는 그 이후로 크게 증가했을 가능성이 높습니다.
Witteveen은 기술 팀원과 비 기술 팀원 간의 격차 해소를 강조했습니다. “사람들이 코더가 아니기 때문에 겪고 있는 문제는 실제로 많은 용어를 모른다는 것입니다. 그들은 모범 사례를 모릅니다.” AI 코딩 에이전트는 이러한 문제를 점점 더 해결하여 보다 효과적인 협업을 가능하게 합니다.
엔터프라이즈 채택을 위해 Witteveen은 균형 잡힌 접근 방식을 옹호합니다. “현재 보안과 실험의 균형입니다. 분명히 개발자 측면에서 사람들은 이 자료로 실제 앱을 구축하기 시작했습니다.”
AI 코딩 에이전트의 등장은 엔터프라이즈 소프트웨어 개발의 근본적인 변화를 의미합니다. 이러한 도구를 효과적으로 배포하면 개발자를 대체하는 것이 아니라 역할을 변환하여 구현 세부 사항보다는 아키텍처와 혁신에 집중할 수 있습니다.
경쟁사들이 여러 우선 순위를 추구하는 동안 코딩 기능에만 집중하는 Anthropic의 절제된 접근 방식은 상당한 이점을 제공하는 것으로 보입니다. 2025년 말까지 이 기간은 AI 코딩 에이전트가 필수적인 엔터프라이즈 도구가 된 중추적인 순간으로 회고될 수 있으며 Claude가 그 선두에 있습니다.
기술 의사 결정자에게는 이러한 도구를 즉시 실험하기 시작하거나 이미 이러한 도구를 활용하여 개발 주기를 획기적으로 가속화하고 있는 경쟁사에게 뒤처질 위험이 있다는 것이 분명합니다. 이 상황은 기업이 처음에 ‘승인되지 않은’ 장치를 회사 네트워크에서 제한하려고 시도했다가 결국 직원 수요가 압도적으로 증가함에 따라 BYOD 정책을 수용했던 iPhone 혁명 초기를 반영합니다. Honeywell과 같은 일부 회사는 최근 IT에서 승인하지 않은 AI 코딩 도구의 ‘불량’ 사용을 중단하려고 시도했습니다.
스마트 회사는 이미 통제된 실험을 용이하게 하기 위해 안전한 샌드박스 환경을 구축하고 있습니다. 혁신을 촉진하면서 명확한 가드레일을 설정하는 조직은 직원 열정과 이러한 도구가 고유한 요구 사항을 가장 잘 충족할 수 있는 방법에 대한 통찰력의 이점을 모두 얻어 변화에 저항하는 경쟁사보다 앞서 나갈 수 있습니다. 그리고 적어도 현재로서는 Anthropic의 Claude가 이러한 변혁적인 움직임의 주요 수혜자입니다.