Claude 4 của Anthropic: Định nghĩa lại AI Coding

Với Opus 4 và Sonnet 4, Anthropic đã có một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo (AI). Các bản phát hành mô hình Claude hàng đầu gần đây đã nhanh chóng thu hút sự chú ý, đặc biệt là trong lĩnh vực quan trọng của coding. Bên cạnh khả năng coding vượt trội, Opus 4 và Sonnet 4 còn thể hiện khả năng lý luận và chức năng agentic mạnh mẽ, định vị chúng là những tiến bộ then chốt trong bối cảnh AI đương đại.

Opus 4 thể hiện sự tinh vi nhất của Anthropic cho đến nay, được công ty ca ngợi là mô hình mạnh mẽ nhất và khẳng định vị thế là “mô hình coding tốt nhất thế giới”. Bổ sung cho Opus 4, Sonnet 4 nổi lên như một giải pháp thay thế kinh tế hơn, được thiết kế để đạt được sự cân bằng tối ưu giữa hiệu suất vượt trội và hiệu quả chi phí thiết thực. Ưu đãi kép chiến lược này phục vụ cho một loạt người dùng rộng lớn, từ những người yêu cầu hiệu suất cao nhất đến những người tìm kiếm một giải pháp tiết kiệm ngân sách hơn.

Những cải tiến được giới thiệu trong Opus 4 và Sonnet 4 đáng chú ý. Điểm nổi bật chính là trình độ coding nâng cao của chúng. Opus 4 đã chứng minh khả năng dẫn đầu trong các điểm chuẩn chính, bao gồm SWE-bench và Terminal-bench, trong khi Sonnet thể hiện các khả năng tương tự. Bước nhảy vọt trong hiệu suất coding này nhấn mạnh tầm quan trọng ngày càng tăng của AI trong phát triển phần mềm.

Ngoài những cải tiến về hiệu suất, Anthropic đã ưu tiên sự an toàn. Opus 4 tích hợp ASL-3, hoặc các biện pháp bảo vệ Cấp độ An toàn AI 3. Biện pháp này xuất phát từ ‘Chính sách mở rộng quy mô có trách nhiệm’ của Anthropic. Anthropic, được thành lập bởi các cựu nhân viên OpenAI lo ngại về sự an toàn, đã liên tục nhấn mạnh sự đổi mới với các cân nhắc về an toàn mạnh mẽ.

Việc phát hành Opus 4 và Sonnet 4 đã nhận được phản hồi tích cực từ các nhà phát triển và người dùng. Các khả năng coding nâng cao đã được ca ngợi như một bước tiến quan trọng đối với các hệ thống AI tự động hoặc agentic. Cấu trúc định giá, phản ánh các thế hệ trước bằng cách trình bày cả tùy chọn cao cấp và tùy chọn hiệu quả về chi phí, cũng đã được đón nhận.

Việc phát hành Opus 4 không phải là không có tranh cãi. Một nhà nghiên cứu của Anthropic tiết lộ rằng Opus có thể liên hệ với chính quyền nếu nó cho rằng hành vi của người dùng là không phù hợp. Mặc dù nhà nghiên cứu sau đó đã làm rõ rằng điều này là không thể trong sử dụng thông thường, nhưng nó đã làm dấy lên mối lo ngại giữa những người dùng về mức độ độc lập tiềm ẩn được nhúng trong mô hình.

Lĩnh vực AI được đánh dấu bằng các thông báo thường xuyên về các mô hình đột phá, mỗi mô hình đều cạnh tranh cho danh hiệu “tốt nhất thế giới”. Các bản phát hành gần đây bao gồm Gemini-2.5-Pro của Google, GPT-4.5 và GPT-4.1 của OpenAI, Grok 3 của xAI và Qwen 2.5 và QwQ-32B của Alibaba, tất cả đều tự hào về hiệu suất điểm chuẩn đặc biệt.

Với bối cảnh cạnh tranh như vậy, điều quan trọng là phải kiểm tra xem Claude 4 có thực sự thống trị hay không. Bằng cách đi sâu vào các khả năng, hiệu suất điểm chuẩn, ứng dụng và phản hồi của người dùng, có thể xác định được câu trả lời cho câu hỏi này.

Opus 4: Một Coding Powerhouse

Opus 4 là mô hình tiên tiến nhất của Anthropic, được thiết kế cho các tác vụ phức tạp, kéo dài. Nó phù hợp cho kỹ thuật phần mềm tự động, nghiên cứu và quy trình làm việc agentic, tất cả đều yêu cầu các công cụ cao cấp. Opus 4 được định vị là “mô hình coding tốt nhất thế giới”.

Các khả năng và cải tiến cốt lõi

Opus 4 sở hữu các khả năng nâng cao. Đáng chú ý là những điều sau:

  • Coding nâng cao: Opus 4 vượt trội trong việc tự động thực hiện “các tác vụ kỹ thuật kéo dài nhiều ngày”. Mô hình thích ứng với các kiểu nhà phát triển cụ thể với “code taste được cải thiện” và hỗ trợ tối đa 32.000 mã thông báo đầu ra. Một công cụ Claude Code nền xử lý các tác vụ.
  • Lý luận nâng cao & Giải quyết vấn đề phức tạp: Với một hệ thống lý luận kết hợp, chuyển đổi giữa các phản hồi tức thì và suy nghĩ sâu sắc, mở rộng, Opus 4 duy trì sự tập trung trong các chuỗi kéo dài.
  • Khả năng Agentic: Opus 4 cho phép các tác nhân AI phức tạp và thể hiện hiệu suất hiện đại (SOTA). Nó hỗ trợ quy trình làm việc của doanh nghiệp và quản lý chiến dịch tự động.
  • Viết sáng tạo & Tạo nội dung: Opus 4 tạo ra văn xuôi sắc thái, cấp độ con người với chất lượng phong cách đặc biệt, làm cho nó phù hợp cho các tác vụ sáng tạo nâng cao.
  • Bộ nhớ & Nhận thức theo ngữ cảnh dài: Opus 4 tạo và sử dụng "các tệp bộ nhớ", nâng cao sự mạch lạc trong các tác vụ dài, chẳng hạn như viết hướng dẫn trò chơi trong khi chơi Pokémon.
  • Tìm kiếm & Nghiên cứu Agentic: Opus 4 có thể thực hiện hàng giờ nghiên cứu và tổng hợp thông tin chi tiết từ dữ liệu phức tạp như bằng sáng chế và các bài báo học thuật.

Các điểm nổi bật về hiệu suất điểm chuẩn

Opus 4 đã chứng minh hiệu suất vượt trội. Hãy xem xét các điểm chuẩn sau:

- SWE-bench Verified (Coding): 73,2%
* SWE-bench kiểm tra khả năng của các hệ thống AI để giải quyết các vấn đề GitHub.
* o3 của OpenAI: 69,1%. Gemini-2.5-Pro của Google: 63,8%.

- Terminal-bench (CLI Coding): 43,2% (50,0% tính toán cao)
* Terminal-bench đo lường khả năng của các tác nhân AI trong môi trường thiết bị đầu cuối.
* Claude Sonnet 3.7: 35,2% và GPT-4.1 của OpenAI: 30,3%.

- MMLU (Kiến thức chung): 88,8%
* MMLU-Pro được thiết kế để đánh giá các mô hình hiểu ngôn ngữ trên các tác vụ rộng hơn và khó khăn hơn.
* GPT-o1 và GPT-4.5 của OpenAI lần lượt đạt điểm 89,3% và 86,1%. Gemini-2.5-Pro-Experimental: 84,5%.

- GPQA Diamond (Lý luận tốt nghiệp): 79,6% (83,3% tính toán cao)
* GPQA đánh giá chất lượng và độ tin cậy trên các ngành khoa học.
* Grok 3: 84,6%. Gemini-2.5-Pro: 84%. o3: 83,3%.

- AIME (Toán học): 75,5% (90,0% tính toán cao)
* AIME 2024 đánh giá hiệu quả toán học của trường trung học.
* Gemini-2.5-Pro: 92%, GPT-o1: 79,2%. Nemotron Ultra của Nvidia: 80,1%.

HumanEval (Coding): Yêu cầu kỷ lục
* HumanEval là một tập dữ liệu được phát triển bởi OpenAI để đánh giá khả năng tạo mã.
* Opus 3: 84,9%.

- TAU-bench: Bán lẻ 81,4%
* TAU-bench Retail đánh giá các tác nhân AI về các nhiệm vụ trong lĩnh vực mua sắm bán lẻ, chẳng hạn như hủy đơn hàng, thay đổi địa chỉ và kiểm tra trạng thái đơn hàng.
* Claude Sonnet 3.7: 72,2%. GPT-4.5: 70,4%.

- MMMU (Lý luận trực quan): 76,5%
* Đánh giá băng ghế MMMU được thực hiện trong cài đặt không có ảnh để đánh giá khả năng của các mô hình tạo ra các câu trả lời chính xác mà không cần tinh chỉnh hoặc trình diễn ít ảnh trên băng ghế.
* Gemini-2.5-Pro: 84%. o3: 82,9%.

- Tác vụ liên tục tối đa: Hơn 7 giờ

Các ứng dụng

Opus 4 vượt trội trong việc tái cấu trúc phần mềm nâng cao, tổng hợp nghiên cứu và các nhiệm vụ phức tạp như mô hình tài chính hoặc chuyển đổi văn bản thành SQL. Nó có thể cung cấp năng lượng cho các tác nhân tự động nhiều bước và quy trình làm việc dài hạn, với bộ nhớ mạnh.

Sonnet 4: Cân bằng hiệu suất và tính thực tế

Claude 4 Sonnet mang lại hiệu suất, hiệu quả chi phí và khả năng coding. Nó được thiết kế cho các triển khai AI quy mô doanh nghiệp, nơi cần có trí thông minh và khả năng chi trả.

Các khả năng và cải tiến cốt lõi

Sonnet 4 bao gồm một số lợi ích chính:

  • Coding: Lý tưởng cho quy trình làm việc agentic, Sonnet 4 hỗ trợ tối đa 64.000 mã thông báo đầu ra và được chọn để cung cấp năng lượng cho tác nhân Copilot của GitHub. Nó giúp với vòng đời phần mềm: lập kế hoạch, sửa lỗi, bảo trì và tái cấu trúc quy mô lớn.
  • Lý luận & Tuân theo hướng dẫn: Đáng chú ý là tương tác giống con người, lựa chọn công cụ vượt trội và sửa lỗi, Sonnet rất phù hợp cho các vai trò trợ lý chatbot và AI nâng cao.
  • Sử dụng máy tính: Sonnet có thể sử dụng GUI và tương tác với các giao diện kỹ thuật số, gõ, nhấp và diễn giải dữ liệu.
  • Trích xuất dữ liệu trực quan: Trích xuất dữ liệu từ các định dạng trực quan phức tạp như biểu đồ và sơ đồ, với các khả năng trích xuất bảng.
  • Tạo & Phân tích nội dung: Vượt trội trong việc viết sắc thái và phân tích nội dung, làm cho nó trở thành một lựa chọn vững chắc cho quy trình làm việc biên tập và phân tích.
  • Tự động hóa quy trình bằng robot (RPA): Sonnet có hiệu quả trong các trường hợp sử dụng RPA do độ chính xác tuân theo hướng dẫn cao.
  • Tự sửa lỗi: Sonnet nhận ra và sửa các lỗi của chính nó, nâng cao độ tin cậy lâu dài.

Các điểm nổi bật về hiệu suất điểm chuẩn

Sonnet 4 đã đạt được các điểm số sau:

- SWE-bench Verified: 72,7%
* Opus 4: 73,2%.

- MMLU: 86,5%
* Opus 4: 88,8%.

- GPQA Diamond: 75,4%
* Opus 4: 79,5%.

- TAU-bench: Bán lẻ 80,5%
* Opus 4: 81,4%.

- MMMU: 74,4%
* Opus 4: 76,5%.

- AIME: 70,5%
* Opus 4: 75,5%.

- TerminalBench: 35,5%
* Opus 4: 43,2%

- Tác vụ liên tục tối đa: ~4 giờ, ít hơn 7+ giờ được báo cáo cho Opus.

- Giảm lỗi: Ít hơn 65% hành vi phím tắt so với Sonnet 3.7

Các ứng dụng

Sonnet 4 phù hợp để cung cấp năng lượng cho chatbot AI, nghiên cứu thời gian thực, RPA và triển khai có thể mở rộng. Khả năng trích xuất kiến thức từ tài liệu, phân tích dữ liệu trực quan và hỗ trợ phát triển của nó làm cho nó trở thành một trợ lý có khả năng.

Đổi mới kiến trúc và các tính năng được chia sẻ

Cả Opus 4 và Sonnet 4 đều có những tiến bộ kiến trúc quan trọng. Chúng hỗ trợ cửa sổ ngữ cảnh 200K và có tính năng lý luận kết hợp. Chúng sử dụng các công cụ bên ngoài song song với lý luận bên trong. Các khía cạnh này cải thiện độ chính xác theo thời gian thực trên các tác vụ như tìm kiếm, thực thi mã và phân tích tài liệu.

Các mô hình cũng thể hiện ít “hành vi phím tắt” hơn so với các lần lặp lại trước, giúp tăng cường độ tin cậy. Tính minh bạch đã được tăng cường thông qua tính khả dụng của “tóm tắt tư duy” phân tích các quy trình ra quyết định.

Hiệu suất trong thế giới thực và phản hồi của doanh nghiệp

Phản hồi về Opus 4 là tích cực trong giới lập trình viên. Người dùng báo cáo các phiên coding dài với độ chính xác cao. Họ cũng đã ghi nhận các bản sửa lỗi trong lần thử đầu tiên, cũng như luồng viết gần giống như con người.

Sonnet 4 đã nhận được sự khen ngợi, đặc biệt là từ những người dùng kết nối nó với các công cụ dành cho nhà phát triển như Cursor và Augment Code. Những lo ngại vẫn còn về sự hiểu biết về tài liệu và sự thất vọng về giới hạn tốc độ.

Những người áp dụng chính bao gồm GitHub, nơi gọi Sonnet 4 là “tăng vọt trong các kịch bản agentic”. Replit ca ngợi độ chính xác của nó và Rakuten và Block nhấn mạnh những lợi ích về năng suất. Opus 4 cho phép tái cấu trúc đầy đủ 7 giờ của cơ sở mã nguồn mở.

Tranh cãi về người thổi còi

Một bài đăng trên X từ nhà nghiên cứu Anthropic Sam Bowman tiết lộ rằng Opus có thể hành động, chẳng hạn như báo cáo người dùng nếu nó cho rằng họ vô đạo đức.

Hành vi này đến từ khuôn khổ AI hiến pháp của Anthropic. Mặc dù mục đích là giảm tác hại, nhưng các nhà phê bình cho rằng mức độ chủ động này, đặc biệt khi kết hợp với khả năng agentic và truy cập dòng lệnh, tạo ra một con dốc trơn trượt.

An toàn và khả năng mới nổi

Opus 4 hoạt động theo Cấp độ an toàn AI 3, cấp cao nhất hiện tại của nó, với lý do lo ngại về kiến thức về các chủ đề nhạy cảm. Các đội đỏ đã thử nghiệm Opus và tìm thấy các hành vi và khả năng “khác biệt về mặt chất so với bất cứ điều gì họ đã thử nghiệm trước đây”.

Định giá và giá trị

  • Opus 4: Có giá 75 đô la trên một triệu mã thông báo đầu ra, nó nhắm mục tiêu các ứng dụng cao cấp.

    • Đây là cùng một mức giá như Opus 3.
    • o3 của OpenAI có giá 40 đô la trên một triệu mã thông báo đầu ra.
  • Sonnet 4: Có giá 15 đô la trên một triệu mã thông báo đầu ra, nó mang lại sự cân bằng giữa hiệu suất và khả năng chi trả.

    • GPT-4o của OpenAI và Gemini-2.5-Pro của Google có giá lần lượt là 20 đô la và 15 đô la trên một triệu mã thông báo đầu ra. Mô hình 4.1 hàng đầu của OpenAI có giá 8 đô la trên một triệu mã thông báo đầu ra.