Claude 3.7: Tác nhân mã hóa hàng đầu

Claude 3.7 Sonnet: Một Chuẩn Mực Mới Về Khả Năng Lập Trình

Việc phát hành Claude 3.7 Sonnet gần đây, chỉ hai tuần trước, là bằng chứng thuyết phục. Phiên bản mới nhất này đã phá vỡ các kỷ lục hiện có về hiệu suất lập trình. Đồng thời, Anthropic đã tiết lộ Claude Code, một tác nhân AI dòng lệnh được thiết kế để tăng tốc phát triển ứng dụng cho các lập trình viên. Thêm vào đó, Cursor, một trình soạn thảo mã được hỗ trợ bởi AI mặc định sử dụng mô hình Claude của Anthropic, đã tăng vọt lên doanh thu định kỳ hàng năm 100 triệu đô la ấn tượng chỉ trong vòng 12 tháng.

Sự nhấn mạnh có chủ ý của Anthropic vào việc lập trình trùng khớp với sự công nhận ngày càng tăng của các doanh nghiệp về tiềm năng biến đổi của các tác nhân lập trình AI. Những tác nhân này trao quyền cho cả các nhà phát triển có kinh nghiệm và những cá nhân không có chuyên môn viết mã để tạo ra các ứng dụng với tốc độ và hiệu quả chưa từng có. Như Guillermo Rauch, Giám đốc điều hành của Vercel, một công ty đang phát triển nhanh chóng cho phép các nhà phát triển (bao gồm cả những người không viết mã) triển khai các ứng dụng front-end, đã phát biểu một cách thích hợp, ‘Anthropic tiếp tục đứng đầu.’ Quyết định của Vercel vào năm ngoái về việc chuyển đổi mô hình mã hóa chính của họ từ GPT của OpenAI sang Claude của Anthropic, sau khi đánh giá kỹ lưỡng hiệu suất của họ đối với các tác vụ mã hóa quan trọng, nhấn mạnh điểm này.

Claude 3.7 Sonnet, ra mắt vào ngày 24 tháng 2, đã chứng minh được vị trí dẫn đầu trên gần như tất cả các bài kiểm tra lập trình. Nó đạt được 70,3% đáng chú ý trên bài kiểm tra SWE-bench được đánh giá cao, một thước đo khả năng phát triển phần mềm của một tác nhân. Điểm số này vượt xa so với các đối thủ cạnh tranh gần nhất của nó, o1 của OpenAI (48,9%) và DeepSeek-R1 (49,2%). Hơn nữa, Claude 3.7 thể hiện hiệu suất vượt trội trong các tác vụ tác nhân.

Những kết quả kiểm tra này đã được xác nhận nhanh chóng bởi các cộng đồng nhà phát triển thông qua thử nghiệm thực tế. Các cuộc thảo luận trực tuyến, đặc biệt là trên các nền tảng như Reddit, so sánh Claude 3.7 với Grok 3 (mô hình mới nhất từ xAI của Elon Musk), luôn ủng hộ mô hình của Anthropic cho các tác vụ mã hóa. Một người bình luận hàng đầu đã tóm tắt tình cảm: ‘Dựa trên những gì tôi đã thử nghiệm, Claude 3.7 dường như là tốt nhất để viết mã (ít nhất là đối với tôi).’ Điều rất quan trọng cần lưu ý là ngay cả Manus, tác nhân đa năng mới của Trung Quốc đã gây bão trên toàn thế giới vào đầu tuần này, cho biết nó tốt hơn Deep Research của Open AI và các tác vụ tự động khác, phần lớn được xây dựng trên Claude.

Tập Trung Chiến Lược: Bước Đi Vào Doanh Nghiệp Của Anthropic

Sự tập trung không ngừng của Anthropic vào khả năng mã hóa không phải là ngẫu nhiên. Các dự báo bị rò rỉ được báo cáo bởi The Information cho thấy Anthropic đang nhắm mục tiêu doanh thu đáng kinh ngạc 34,5 tỷ đô la vào năm 2027. Con số này thể hiện mức tăng gấp 86 lần so với mức hiện tại của nó. Một phần đáng kể (khoảng 67%) doanh thu dự kiến này dự kiến sẽ bắt nguồn từ hoạt động kinh doanh API, với các ứng dụng mã hóa doanh nghiệp đóng vai trò là động lực tăng trưởng chính. Mặc dù Anthropic không tiết lộ số liệu doanh thu chính xác, nhưng họ đã báo cáo mức tăng trưởng doanh thu mã hóa đáng kinh ngạc 1.000% trong quý cuối cùng của năm 2024. Thêm vào động lực tài chính này, Anthropic gần đây đã công bố vòng tài trợ 3,5 tỷ đô la, định giá công ty ở mức 61,5 tỷ đô la ấn tượng.

Chiến lược tập trung vào mã hóa này phù hợp với những phát hiện của Chỉ số Kinh tế của chính Anthropic. Chỉ số này tiết lộ rằng 37,2% đáng kể các truy vấn hướng đến Claude thuộc danh mục ‘máy tính và toán học’. Những truy vấn này chủ yếu bao gồm các tác vụ kỹ thuật phần mềm như sửa đổi mã, gỡ lỗi và khắc phục sự cố mạng.

Cách tiếp cận của Anthropic nổi bật giữa bối cảnh cạnh tranh, nơi các đối thủ thường bị cuốn vào một vòng xoáy hoạt động, cố gắng phục vụ cả thị trường doanh nghiệp và người tiêu dùng với một loạt các tính năng. OpenAI, trong khi duy trì vị trí dẫn đầu mạnh mẽ nhờ sự công nhận và chấp nhận sớm của người tiêu dùng, phải đối mặt với thách thức phục vụ cả người dùng thông thường và doanh nghiệp với một loạt các mô hình và chức năng đa dạng. Google, tương tự, đang theo đuổi chiến lược cung cấp một danh mục sản phẩm đa dạng.

Cách tiếp cận có kỷ luật tương đối của Anthropic cũng được phản ánh trong các quyết định sản phẩm của mình. Thay vì theo đuổi thị phần người tiêu dùng, công ty đã ưu tiên các tính năng cấp doanh nghiệp như tích hợp GitHub, nhật ký kiểm tra, quyền có thể tùy chỉnh và kiểm soát bảo mật theo miền cụ thể. Sáu tháng trước, nó đã giới thiệu một cửa sổ ngữ cảnh 500.000 token khổng lồ cho các nhà phát triển, một sự tương phản rõ rệt với quyết định của Google giới hạn cửa sổ 1 triệu token của mình cho những người thử nghiệm riêng tư. Sự tập trung chiến lược này đã dẫn đến một sản phẩm toàn diện, tập trung vào mã hóa ngày càng gây được tiếng vang với các doanh nghiệp.

Việc công ty giới thiệu gần đây các tính năng cho phép những người không viết mã xuất bản các ứng dụng do AI tạo ra trong các tổ chức của họ, cùng với việc nâng cấp bảng điều khiển vào tuần trước có các khả năng cộng tác nâng cao (bao gồm các lời nhắc và mẫu có thể chia sẻ), càng minh họa cho xu hướng này. Sự dân chủ hóa này phản ánh một chiến lược ‘Ngựa thành Troy’: ban đầu trao quyền cho các nhà phát triển xây dựng nền tảng vững chắc, sau đó mở rộng quyền truy cập cho lực lượng lao động doanh nghiệp rộng lớn hơn, cuối cùng tiếp cận bộ phận quản lý của công ty.

Thử Nghiệm Thực Tế Với Claude: Một Thử Nghiệm Thực Tế

Để đánh giá khả năng thực tế của các tác nhân mã hóa này, một thử nghiệm thực tế đã được tiến hành, tập trung vào việc xây dựng cơ sở dữ liệu để lưu trữ các bài viết. Ba cách tiếp cận riêng biệt đã được sử dụng: Claude 3.7 Sonnet thông qua ứng dụng của Anthropic, tác nhân mã hóa của Cursor và Claude Code.

Sử dụng Claude 3.7 trực tiếp thông qua ứng dụng của Anthropic, hướng dẫn được cung cấp rất sâu sắc, đặc biệt đối với một người không có nhiều kinh nghiệm viết mã. Mô hình đã đưa ra một số tùy chọn, từ các giải pháp mạnh mẽ sử dụng cơ sở dữ liệu PostgreSQL đến các giải pháp thay thế nhẹ hơn như Airtable. Lựa chọn giải pháp nhẹ, Claude đã hướng dẫn một cách có phương pháp quá trình trích xuất các bài viết từ một API và tích hợp chúng vào Airtable bằng dịch vụ kết nối. Mặc dù quá trình này mất khoảng hai giờ, chủ yếu là do các thách thức xác thực, nhưng nó đã kết thúc bằng một hệ thống hoạt động. Về cơ bản, thay vì tự động viết tất cả mã, Claude đã cung cấp một bản thiết kế toàn diện để đạt được kết quả mong muốn.

Cursor, với sự phụ thuộc mặc định vào các mô hình của Claude, đã trình bày trải nghiệm trình soạn thảo mã đầy đủ và thể hiện xu hướng tự động hóa lớn hơn. Tuy nhiên, nó yêu cầu sự cho phép ở mỗi bước, dẫn đến một quy trình làm việc lặp đi lặp lại.

Claude Code cung cấp một cách tiếp cận khác, hoạt động trực tiếp trong thiết bị đầu cuối và sử dụng SQLite để tạo cơ sở dữ liệu cục bộ chứa các bài viết từ nguồn cấp dữ liệu RSS. Giải pháp này tỏ ra đơn giản và đáng tin cậy hơn trong việc đạt được mục tiêu cuối cùng, mặc dù ít mạnh mẽ và ít tính năng hơn so với việc triển khai Airtable. Điều này làm nổi bật sự đánh đổi vốn có liên quan và nhấn mạnh tầm quan trọng của việc lựa chọn một tác nhân mã hóa dựa trên các yêu cầu dự án cụ thể.

Bài học quan trọng từ thử nghiệm này là ngay cả khi không phải là nhà phát triển, vẫn có thể xây dựng các ứng dụng cơ sở dữ liệu chức năng bằng cả baphương pháp. Điều này gần như không thể tưởng tượng được chỉ một năm trước. Và, đáng chú ý, cả ba cách tiếp cận đều dựa trên khả năng cơ bản của Claude.

Hệ Sinh Thái Tác Nhân Mã Hóa: Cursor và Hơn Thế Nữa

Có lẽ chỉ số thuyết phục nhất về thành công của Anthropic là sự phát triển vượt bậc của Cursor, một trình soạn thảo mã AI. Các báo cáo chỉ ra rằng Cursor đã tích lũy được 360.000 người dùng, với hơn 40.000 trong số đó là khách hàng trả tiền, chỉ trong vòng 12 tháng. Quỹ đạo tăng trưởng nhanh chóng này có khả năng định vị Cursor là công ty SaaS nhanh nhất đạt được cột mốc đó.

Thành công của Cursor gắn liền với Claude. Như Sam Witteveen, đồng sáng lập của Red Dragon (một nhà phát triển độc lập các tác nhân AI), đã quan sát, ‘Bạn phải nghĩ rằng khách hàng số một của họ là Cursor. Hầu hết mọi người trên [Cursor] đã sử dụng mô hình Claude Sonnet - các mô hình 3.5 - rồi. Và bây giờ có vẻ như mọi người đang di chuyển sang 3.7.’

Mối quan hệ giữa Anthropic và hệ sinh thái của nó vượt ra ngoài các công ty riêng lẻ như Cursor. Vào tháng 11, Anthropic đã giới thiệu Model Context Protocol (MCP) của mình như một tiêu chuẩn mở, cho phép các nhà phát triển xây dựng các công cụ tương tác liền mạch với các mô hình Claude. Tiêu chuẩn này đã được chấp nhận rộng rãi trong cộng đồng nhà phát triển.

Witteveen giải thích tầm quan trọng của cách tiếp cận này: ‘Bằng cách khởi chạy giao thức này như một giao thức mở, họ đang nói, ‘Này, mọi người, hãy thử đi. Bạn có thể phát triển bất cứ thứ gì bạn muốn phù hợp với giao thức này. Chúng tôi sẽ hỗ trợ giao thức này.’’

Chiến lược này tạo ra một chu kỳ đạo đức: các nhà phát triển xây dựng các công cụ đặc biệt cho Claude, nâng cao giá trị đề xuất của nó cho các doanh nghiệp, từ đó thúc đẩy việc áp dụng nhiều hơn và thu hút nhiều nhà phát triển hơn.

Bối Cảnh Cạnh Tranh: Microsoft, OpenAI, Google và Mã Nguồn Mở

Trong khi Anthropic đã tạo ra một thị trường ngách với cách tiếp cận tập trung của mình, các đối thủ cạnh tranh đang theo đuổi các chiến lược đa dạng với các mức độ thành công khác nhau.

Microsoft duy trì một chỗ đứng vững chắc thông qua GitHub Copilot của mình, tự hào có 1,3 triệu người dùng trả tiền và được hơn 77.000 tổ chức áp dụng trong khoảng hai năm. Các công ty nổi tiếng như Honeywell, State Street, TD Bank Group và Levi’s nằm trong số những người dùng của nó. Việc áp dụng rộng rãi này phần lớn là do các mối quan hệ doanh nghiệp hiện có của Microsoft và lợi thế của người đi đầu, bắt nguồn từ khoản đầu tư ban đầu của họ vào OpenAI và việc sử dụng các mô hình của OpenAI để cung cấp năng lượng cho Copilot.

Tuy nhiên, ngay cả Microsoft cũng đã thừa nhận những điểm mạnh của Anthropic. Vào tháng 10, họ đã cho phép người dùng GitHub Copilot chọn các mô hình của Anthropic như một giải pháp thay thế cho các sản phẩm của OpenAI. Hơn nữa, các mô hình gần đây của OpenAI, o1 và o3 mới hơn (nhấn mạnh lý luận thông qua tư duy mở rộng), đã không chứng minh được lợi thế cụ thể trong các tác vụ mã hóa hoặc tác nhân.

Google đã thực hiện động thái của riêng mình bằng cách gần đây cung cấp Code Assist miễn phí, nhưng điều này có vẻ giống như một động thái phòng thủ hơn là một sáng kiến chiến lược.

Phong trào mã nguồn mở đại diện cho một lực lượng quan trọng khác trong bối cảnh này. Các mô hình Llama của Meta đã thu hút được sự chú ý đáng kể của doanh nghiệp, với các công ty lớn như AT&T, DoorDash và Goldman Sachs triển khai các mô hình dựa trên Llama cho các ứng dụng khác nhau. Cách tiếp cận mã nguồn mở cung cấp cho các doanh nghiệp quyền kiểm soát, tùy chọn tùy chỉnh và lợi ích chi phí lớn hơn mà các mô hình đóng thường không thể sánh được.

Thay vì xem đây là một mối đe dọa trực tiếp, Anthropic dường như đang định vị mình là bổ sung cho mã nguồn mở. Khách hàng doanh nghiệp có thể tận dụng Claude cùng với các mô hình mã nguồn mở tùy thuộc vào yêu cầu cụ thể của họ, áp dụng một cách tiếp cận lai tối đa hóa thế mạnh của từng loại.

Trên thực tế, nhiều công ty doanh nghiệp quy mô lớn đã áp dụng một cách tiếp cận đa phương thức, sử dụng bất kỳ mô hình nào phù hợp nhất cho một nhiệm vụ nhất định. Ví dụ, Intuit ban đầu dựa vào OpenAI làm mặc định cho các ứng dụng khai thuế của mình nhưng sau đó đã chuyển sang Claude do hiệu suất vượt trội của nó trong một số trường hợp nhất định. Kinh nghiệm này đã khiến Intuit phát triển một khung điều phối AI tạo điều kiện chuyển đổi liền mạch giữa các mô hình.

Hầu hết các công ty doanh nghiệp khác kể từ đó đã áp dụng một phương pháp tương tự, sử dụng mô hình thích hợp nhất cho từng trường hợp sử dụng cụ thể, thường tích hợp các mô hình thông qua các lệnh gọi API đơn giản. Mặc dù một mô hình mã nguồn mở như Llama có thể phù hợp trong một số trường hợp, Claude thường là lựa chọn ưu tiên cho các tác vụ đòi hỏi độ chính xác cao, chẳng hạn như tính toán.

Ý Nghĩa Đối Với Doanh Nghiệp: Điều Hướng Sự Thay Đổi Sang Tác Nhân Mã Hóa

Đối với những người ra quyết định trong doanh nghiệp, bối cảnh phát triển nhanh chóng này mang đến cả cơ hội và thách thức.

Bảo mật vẫn là một mối quan tâm hàng đầu, nhưng một báo cáo độc lập gần đây đã xác định Claude 3.7 Sonnet là mô hình an toàn nhất cho đến nay, là mô hình duy nhất được thử nghiệm chứng minh là ‘chống bẻ khóa’. Tư thế bảo mật này, kết hợp với sự hỗ trợ của Anthropic từ cả Google và Amazon (và tích hợp vào AWS Bedrock), định vị nó một cách thuận lợi để các doanh nghiệp áp dụng.

Sự gia tăng của các tác nhân mã hóa không chỉ đơn thuần là thay đổi cách các ứng dụng được phát triển; nó đang dân chủ hóa quá trình này. Theo GitHub, 92% đáng kể các nhà phát triển có trụ sở tại Hoa Kỳ tại các công ty doanh nghiệp đã sử dụng các công cụ mã hóa được hỗ trợ bởi AI tại nơi làm việc 18 tháng trước. Con số này có thể đã tăng lên đáng kể kể từ đó.

Witteveen nhấn mạnh việc thu hẹp khoảng cách giữa các thành viên trong nhóm kỹ thuật và phi kỹ thuật: ‘Thách thức mà mọi người đang gặp phải [vì] không phải là người viết mã thực sự là họ không biết nhiều về thuật ngữ. Họ không biết các phương pháp hay nhất.’ Các tác nhân mã hóa AI ngày càng giải quyết thách thức này, cho phép cộng tác hiệu quả hơn.

Để các doanh nghiệp áp dụng, Witteveen ủng hộ một cách tiếp cận cân bằng: ‘Đó là sự cân bằng giữa bảo mật và thử nghiệm vào lúc này. Rõ ràng, về phía nhà phát triển, mọi người đang bắt đầu xây dựng các ứng dụng trong thế giới thực với những thứ này.’

Sự xuất hiện của các tác nhân mã hóa AI báo hiệu một sự thay đổi cơ bản trong phát triển phần mềm doanh nghiệp. Khi được triển khai hiệu quả, những công cụ này không thay thế các nhà phát triển mà thay vào đó biến đổi vai trò của họ, cho phép họ tập trung vào kiến trúc và đổi mới thay vì các chi tiết triển khai.

Cách tiếp cận có kỷ luật của Anthropic, tập trung cụ thể vào khả năng mã hóa trong khi các đối thủ cạnh tranh theo đuổi nhiều ưu tiên, dường như đang mang lại những lợi thế đáng kể. Đến cuối năm 2025, giai đoạn này có thể được xem lại như là thời điểm quan trọng khi các tác nhân mã hóa AI trở thành công cụ doanh nghiệp không thể thiếu, với Claude dẫn đầu.

Đối với những người ra quyết định kỹ thuật, mệnh lệnh rất rõ ràng: bắt đầu thử nghiệm với những công cụ này ngay lập tức hoặc có nguy cơ tụt lại phía sau các đối thủ cạnh tranh, những người đã tận dụng chúng để tăng tốc đáng kể chu kỳ phát triển. Tình huống này phản ánh những ngày đầu của cuộc cách mạng iPhone, khi các công ty ban đầu cố gắng hạn chế các thiết bị ‘không được phép’ khỏi mạng công ty của họ, chỉ để cuối cùng chấp nhận các chính sách BYOD khi nhu cầu của nhân viên trở nên quá lớn. Một số công ty, như Honeywell, gần đây cũng đã cố gắng ngăn chặn việc sử dụng ‘bất hợp pháp’ các công cụ mã hóa AI không được bộ phận CNTT chấp thuận.

Các công ty thông minh đã thiết lập các môi trường hộp cát an toàn để tạo điều kiện cho việc thử nghiệm có kiểm soát. Các tổ chức thiết lập các rào cản rõ ràng trong khi thúc đẩy sự đổi mới sẽ gặt hái được lợi ích của cả sự nhiệt tình của nhân viên và những hiểu biết sâu sắc về cách những công cụ này có thể phục vụ tốt nhất nhu cầu riêng của họ, định vị bản thân trước các đối thủ cạnh tranh chống lại sự thay đổi. Và Claude của Anthropic, ít nhất là cho đến hiện tại, là người hưởng lợi chính từ phong trào biến đổi này.