Một sự biến động tiềm tàng đang diễn ra trong lĩnh vực chuyên biệt của trí tuệ nhân tạo được thiết kế riêng cho các tác vụ lập trình. Trong một thời gian dài, các mô hình do Anthropic phát triển, đặc biệt là dòng Claude của họ, thường được coi là những người dẫn đầu trong việc hỗ trợ các nhà phát triển viết, gỡ lỗi và hiểu mã nguồn. Tuy nhiên, những phát triển gần đây cho thấy một đối thủ mới đáng gờm đã bước vào đấu trường: Gemini 2.5 của Google. Các chỉ số ban đầu, bao gồm hiệu suất benchmark và phản hồi ban đầu từ nhà phát triển, chỉ ra rằng phiên bản mới nhất này có khả năng định nghĩa lại các tiêu chuẩn cho hỗ trợ lập trình bằng AI, đặt ra câu hỏi liệu hệ thống phân cấp đã được thiết lập có sắp bị xáo trộn hay không. Sự xuất hiện của Gemini 2.5 Pro Experimental, đặc biệt, đang làm dấy lên cuộc thảo luận và so sánh gay gắt trong cộng đồng nhà phát triển.
Sức mạnh Benchmark: Một lợi thế định lượng?
Các chỉ số khách quan thường cung cấp cái nhìn đầu tiên về khả năng của một mô hình mới, và về mặt này, Gemini 2.5 đã có một màn ra mắt ấn tượng. Một đánh giá đặc biệt liên quan là bảng xếp hạng Aider Polyglot, một benchmark được thiết kế tỉ mỉ để đánh giá trình độ của các mô hình ngôn ngữ lớn (LLMs) trong các tác vụ thực tế là tạo mã mới và sửa đổi các codebase hiện có trên nhiều ngôn ngữ lập trình. Trong đánh giá khắt khe này, phiên bản thử nghiệm của Gemini 2.5 Pro đã đạt được số điểm đáng nể là 72.9%. Con số này đặt nó vượt trội đáng kể so với các đối thủ mạnh, bao gồm Claude 3.7 Sonnet của Anthropic, đạt 64.9%. Nó cũng vượt qua các sản phẩm từ OpenAI, chẳng hạn như mô hình o1 (61.7%) và biến thể cao cấp o3-mini (60.4%). Khoảng cách dẫn đầu như vậy trong một benchmark chuyên về lập trình là một lập luận định lượng mạnh mẽ cho năng lực của Gemini 2.5 trong lĩnh vực này.
Ngoài các đánh giá tập trung vào lập trình, Gemini 2.5 đã thể hiện hiệu suất vượt trội trong các bài kiểm tra rộng hơn về khả năng suy luận và ứng dụng kiến thức. Nó đã giành được vị trí hàng đầu trong benchmark GPQA (Graduate-Level Google-Proof Q&A), một bài kiểm tra nghiêm ngặt thách thức các mô hình AI bằng các câu hỏi phức tạp trải dài trên nhiều lĩnh vực khoa học khác nhau thường gặp ở cấp độ sau đại học. Gemini 2.5 đạt được số điểm 83% trên benchmark này. Hiệu suất này vượt trội so với mô hình o1-Pro của OpenAI, đạt 79%, và Claude 3.7 Sonnet của Anthropic, đạt 77% ngay cả khi sử dụng các kỹ thuật kéo dài thời gian suy nghĩ. Việc liên tục xếp hạng cao trên các benchmark đa dạng, bao gồm cả những benchmark kiểm tra khả năng suy luận chung cùng với các kỹ năng chuyên biệt như lập trình, cho thấy một kiến trúc nền tảng mạnh mẽ và linh hoạt. Sự kết hợp giữa khả năng lập trình chuyên biệt và năng lực trí tuệ rộng lớn này có thể là yếu tố khác biệt chính cho các nhà phát triển đang tìm kiếm một trợ lý AI toàn diện.
Sự hoan nghênh từ nhà phát triển và xác thực trong thế giới thực
Trong khi các benchmark cung cấp những hiểu biết định lượng có giá trị, bài kiểm tra thực sự của một trợ lý lập trình AI nằm ở ứng dụng thực tế của nó bởi các nhà phát triển giải quyết các dự án trong thế giới thực. Các báo cáo và lời chứng thực ban đầu cho thấy Gemini 2.5 không chỉ hoạt động tốt trong các bài kiểm tra có kiểm soát mà còn gây ấn tượng với người dùng trong quy trình làm việc hàng ngày của họ. Mckay Wrigley, một nhà phát triển đang tích cực thử nghiệm với mô hình mới, đã đưa ra một sự chứng thực mạnh mẽ, tuyên bố dứt khoát, “Gemini 2.5 Pro giờ đây dễ dàng là mô hình tốt nhất cho mã nguồn.” Những quan sát của ông vượt ra ngoài việc chỉ tạo mã; ông nhấn mạnh những trường hợp mà mô hình thể hiện điều mà ông gọi là “những tia sáng của sự xuất sắc thực sự.” Hơn nữa, Wrigley chỉ ra một đặc điểm có khả năng quan trọng: mô hình không chỉ mặc định đồng ý với lời nhắc của người dùng mà còn tham gia một cách phê bình hơn, cho thấy một mức độ hiểu biết sâu sắc hơn hoặc khả năng suy luận mô phỏng. Kết luận của ông rất dứt khoát: “Google đã mang đến một người chiến thắng thực sự ở đây.”
Tình cảm tích cực này dường như được chia sẻ bởi những người khác, đặc biệt là khi so sánh trực tiếp với Claude 3.7 Sonnet rất được kính trọng của Anthropic. Nhiều nhà phát triển đang nhận thấy rằng kinh nghiệm thực tế của họ phù hợp với kết quả benchmark ủng hộ Gemini 2.5. Một câu chuyện minh họa xuất hiện từ một người dùng trên Reddit, người đã kể chi tiết về cuộc đấu tranh của họ khi xây dựng một ứng dụng trong vài giờ bằng cách sử dụng Claude 3.7 Sonnet. Kết quả, theo người dùng, phần lớn là mã không hoạt động bị ảnh hưởng bởi các thực hành bảo mật kém, chẳng hạn như nhúng khóa API trực tiếp vào mã (hardcoding). Thất vọng, nhà phát triển đã chuyển sang Gemini 2.5. Họ đã cung cấp toàn bộ codebase bị lỗi do Claude tạo ra làm đầu vào. Gemini 2.5 được cho là không chỉ xác định các lỗi nghiêm trọng và giải thích chúng một cách rõ ràng mà còn tiến hành viết lại toàn bộ ứng dụng, dẫn đến một phiên bản hoạt động và an toàn hơn. Câu chuyện này nhấn mạnh tiềm năng của Gemini 2.5 trong việc xử lý các tác vụ gỡ lỗi và tái cấu trúc phức tạp một cách hiệu quả.
Các bài kiểm tra so sánh sâu hơn đã tập trung vào các khía cạnh khác nhau của phát triển. Trong một trường hợp được ghi lại trên nền tảng xã hội X, một người dùng đã cho Gemini 2.5 đối đầu với Claude 3.7 Sonnet trong một tác vụ trực quan: tái tạo giao diện người dùng (UI) của ChatGPT. Theo đánh giá của người dùng, Gemini 2.5 đã tạo ra một biểu diễn trực quan chính xác hơn về UI mục tiêu so với đối thủ Anthropic của nó. Mặc dù sao chép UI chỉ là một khía cạnh của phát triển, độ chính xác trong các tác vụ như vậy có thể cho thấy sự chú ý tỉ mỉ đến từng chi tiết của mô hình và khả năng chuyển đổi các mô tả hoặc ví dụ phức tạp thành các kết quả hữu hình.
Những cải tiến không chỉ so với các đối thủ cạnh tranh mà còn đại diện cho một bước tiến đáng kể so với các mô hình trước đó của chính Google. Nhà phát triển Alex Mizrahi đã chia sẻ một kinh nghiệm làm nổi bật sự tiến bộ nội bộ này. Ông đã sử dụng Gemini 2.5 và thấy rằng nó có thể nhớ lại khoảng 80-90% cú pháp cho Rell (một ngôn ngữ lập trình cụ thể) hoàn toàn từ cơ sở kiến thức nội bộ của nó. Điều này đánh dấu một bước nhảy vọt đáng kể so với các phiên bản Gemini trước đó, mà theo Mizrahi, đã gặp khó khăn đáng kể với cú pháp Rell ngay cả khi được cung cấp rõ ràng các ví dụ trong lời nhắc. Điều này cho thấy những cải tiến trong dữ liệu đào tạo cơ bản của mô hình và khả năng nhớ lại đối với các ngôn ngữ hoặc cú pháp ít phổ biến hơn.
Lập trình cộng tác và lợi thế ngữ cảnh
Ngoài khả năng tạo mã thô và độ chính xác, phong cách tương tác và khả năng ngữ cảnh của một mô hình AI ảnh hưởng đáng kể đến tiện ích của nó như một đối tác lập trình. Người dùng đang báo cáo cảm giác hợp tác hơn khi làm việc với Gemini 2.5. Nhà phát triển Matthew Berman đã ghi nhận một hành vi khác biệt trên X: “Nó (Gemini 2.5 Pro) hỏi tôi những câu hỏi làm rõ trong quá trình thực hiện, điều mà không có mô hình nào khác đã làm.“ Ông giải thích điều này làm cho sự tương tác “hợp tác hơn nhiều.” Sự tham gia chủ động này—tìm kiếm sự làm rõ thay vì đưa ra giả định—có thể dẫn đến kết quả chính xác hơn, giảm số lần lặp lại và có khả năng ngăn ngừa những hiểu lầm, đặc biệt là trong các tác vụ phức tạp hoặc được xác định mơ hồ thường gặp trong “vibe coding” nơi nhà phát triển có ý tưởng chung nhưng không có đặc tả chính xác.
Một yếu tố kỹ thuật chính góp phần vào ưu thế tiềm năng của Gemini 2.5 trong các kịch bản lập trình phức tạp là cửa sổ ngữ cảnh rộng lớn của nó. Mô hình tự hào hỗ trợ lên đến 1 triệu token đầu vào. Điều này đại diện cho một lợi thế đáng kể so với các đối thủ cạnh tranh hiện tại. Các mô hình hàng đầu của OpenAI, o1 và o3-mini, hiện hỗ trợ cửa sổ ngữ cảnh 250.000 token. Trong khi Anthropic được cho là đang nỗ lực mở rộng cửa sổ ngữ cảnh của mình, có khả năng lên tới 500.000 token, khả năng hiện tại của Gemini 2.5 vượt xa đáng kể những con số này.
Tại sao cửa sổ ngữ cảnh lớn lại quan trọng đối với lập trình? Phát triển phần mềm hiện đại thường liên quan đến việc làm việc với các codebase lớn, nhiều tệp, các phụ thuộc phức tạp và lịch sử thay đổi dài. Một mô hình có cửa sổ ngữ cảnh lớn hơn có thể tiếp nhận và xử lý nhiều thông tin xung quanh này đồng thời. Điều này cho phép nó duy trì tính nhất quán tốt hơn trên các dự án lớn, hiểu các mối quan hệ phức tạp giữa các mô-đun mã khác nhau, theo dõi việc sử dụng biến và định nghĩa hàm trên các tệp, và có khả năng tạo ra mã tích hợp liền mạch hơn vào cấu trúc hiện có mà không yêu cầu nhà phát triển phải liên tục cung cấp thủ công các đoạn ngữ cảnh liên quan. Đối với các tác vụ như tái cấu trúc quy mô lớn, hiểu các hệ thống cũ hoặc phát triển các tính năng chạm đến nhiều phần của ứng dụng, cửa sổ ngữ cảnh một triệu token có thể là yếu tố thay đổi cuộc chơi, giảm lỗi và cải thiện chất lượng cũng như mức độ liên quan của các đóng góp của AI.
Những điểm chưa hoàn hảo còn tồn tại và nhu cầu giám sát
Bất chấp những tiến bộ ấn tượng và phản hồi tích cực, điều quan trọng là phải duy trì quan điểm: Gemini 2.5, đặc biệt là trong tên gọi “Pro Experimental” hiện tại, không phải là một nhà tiên tri lập trình hoàn hảo. Nó vẫn thể hiện một số thách thức cổ điển và những cạm bẫy tiềm ẩn liên quan đến việc sử dụng các mô hình ngôn ngữ lớn để phát triển phần mềm. Yêu cầu cơ bản về sự phán đoán của con người và sự giám sát siêng năng vẫn là tuyệt đối.
Một lĩnh vực quan tâm đáng kể tiếp tục là bảo mật. Nhà phát triển Kaden Bilyeu đã chia sẻ mộttrường hợp trên X nơi Gemini 2.5 cố gắng tạo mã sẽ tạo ra một API phía máy khách để xử lý phản hồi trò chuyện. Cách tiếp cận này vốn không an toàn vì nó chắc chắn sẽ dẫn đến việc lộ hoặc rò rỉ khóa API trong mã phía máy khách, khiến người dùng cuối có thể truy cập được. Điều này nhấn mạnh rằng ngay cả các mô hình tiên tiến cũng có thể thiếu hiểu biết cơ bản về các phương pháp bảo mật tốt nhất, có khả năng giới thiệu các lỗ hổng nghiêm trọng nếu đầu ra của chúng được tin tưởng một cách mù quáng. Các nhà phát triển phải xem xét nghiêm ngặt mã do AI tạo ra, đặc biệt là liên quan đến xác thực, ủy quyền và xử lý dữ liệu.
Hơn nữa, khả năng quản lý hiệu quả các codebase rất lớn của mô hình đã nhận được những đánh giá trái chiều, cho thấy cửa sổ ngữ cảnh ấn tượng của nó có thể không phải lúc nào cũng chuyển đổi hoàn hảo thành hiệu suất thực tế dưới tải nặng. Nhà phát triển Louie Bacaj đã báo cáo những khó khăn đáng kể khi giao nhiệm vụ cho Gemini 2.5 thực hiện các hoạt động trên một codebase bao gồm khoảng 3.500 dòng mã. Bacaj lưu ý rằng mặc dù các cải tiến được cho là của mô hình trong việc xử lý ngữ cảnh và các lệnh gọi API thành công cho thấy ngữ cảnh đã được nhận, nó thường xuyên thất bại trong việc thực hiện các tác vụ được yêu cầu một cách chính xác hoặc toàn diện trong phạm vi dự án lớn hơn này. Điều này cho thấy những hạn chế tiềm ẩn trong việc sử dụng hiệu quả toàn bộ cửa sổ ngữ cảnh cho các tác vụ suy luận hoặc thao tác phức tạp trong mã hiện có đáng kể, hoặc có lẽ là sự không nhất quán trong hiệu suất tùy thuộc vào bản chất cụ thể của mã và tác vụ.
Nhãn “Experimental” gắn liền với phiên bản Gemini 2.5 Pro hiện có cũng rất quan trọng. Nó báo hiệu rằng Google vẫn đang tích cực tinh chỉnh mô hình. Người dùng nên lường trước khả năng không ổn định, sự thay đổi về hiệu suất và những thay đổi liên tục khi Google thu thập phản hồi và lặp lại công nghệ. Mặc dù giai đoạn này cho phép truy cập sớm vào các khả năng tiên tiến, nó cũng có nghĩa là mô hình có thể chưa sở hữu độ tin cậy hoặc sự hoàn thiện đầy đủ như mong đợi của một bản phát hành sản xuất cuối cùng. Việc cải tiến liên tục là có thể xảy ra, nhưng người dùng hiện tại đang tham gia hiệu quả vào một thử nghiệm beta quy mô lớn. Những điểm chưa hoàn hảo này nhấn mạnh vai trò không thể thay thế của nhà phát triển con người trong vòng lặp – không chỉ để bắt lỗi, mà còn cho các quyết định kiến trúc, lập kế hoạch chiến lược và đảm bảo sản phẩm cuối cùng phù hợp với yêu cầu và tiêu chuẩn chất lượng.
Thách thức rộng lớn hơn: Đóng gói sức mạnh vào trải nghiệm
Trong khi Google DeepMind dường như đang đạt được những cột mốc kỹ thuật đáng chú ý với các mô hình như Gemini 2.5, một chủ đề lặp đi lặp lại lại nổi lên: thách thức trong việc chuyển đổi sức mạnh công nghệ thô thành những trải nghiệm người dùng hấp dẫn, dễ tiếp cận và thu hút sự chú ý của thị trường. Có một nhận thức rằng ngay cả khi Google phát triển các khả năng AI có tiềm năng hàng đầu thế giới, đôi khi họ lại gặp khó khăn trong việc đóng gói và trình bày những khả năng này theo cách gây được tiếng vang rộng rãi với người dùng, đặc biệt là so với các đối thủ cạnh tranh như OpenAI.
Vấn đề này đã được nhà đầu tư thiên thần Nikunj Kothari nhấn mạnh, người đã bày tỏ sự thông cảm nhất định đối với đội ngũ Google DeepMind. “Tôi cảm thấy hơi tiếc cho đội ngũ Google DeepMind,” ông nhận xét, quan sát sự tương phản giữa việc ra mắt các mô hình mạnh mẽ và các hiện tượng lan truyền thường được tạo ra bởi các đối thủ cạnh tranh. “Bạn xây dựng một mô hình thay đổi thế giới và mọi người thay vào đó lại đăng những bức ảnh theo phong cách Ghibli,” ông nói thêm, đề cập đến sự ồn ào xung quanh khả năng tạo hình ảnh GPT-4o của OpenAI, vốn nhanh chóng chiếm được trí tưởng tượng của công chúng. Kothari xác định đây là một thách thức dai dẳng đối với Google: sở hữu tài năng kỹ thuật khổng lồ có khả năng xây dựng AI tốt nhất trong lớp, nhưng có khả năng đầu tư dưới mức vào lớp quan trọng của thiết kế sản phẩm và trải nghiệm hướng tới người tiêu dùng. “Tôi cầu xin họ lấy 20% những người tài năng nhất của họ và cho họ quyền tự do xây dựng những trải nghiệm người tiêu dùng đẳng cấp thế giới,” ông kêu gọi.
Tình cảm này mở rộng đến “tính cách” được cảm nhận của các mô hình. Kothari lưu ý rằng phong cách tương tác của Gemini 2.5 cảm thấy “khá cơ bản“ so với các mô hình hàng đầu khác. Yếu tố chủ quan này, mặc dù khó định lượng, ảnh hưởng đến sự tham gia của người dùng và cảm giác hợp tác với AI. Một số người dùng khác cũng lặp lại nhận xét này, cho rằng mặc dù có trình độ kỹ thuật, mô hình có thể thiếu phong cách tương tác hấp dẫn hoặc tinh tế hơn được trau dồi bởi các đối thủ cạnh tranh.
Các vấn đề về khả năng sử dụng thực tế cũng đã xuất hiện. Ví dụ, việc phát hành tính năng tạo hình ảnh gốc trong mô hình Gemini 2.0 Flash đã được ca ngợi về mặt kỹ thuật vì khả năng của nó. Tuy nhiên, nhiều người dùng báo cáo gặp khó khăn chỉ đơn giản là tìm và sử dụng tính năng này. Giao diện người dùng được mô tả là không trực quan, với các tùy chọn bị lồng không cần thiết trong các menu. Sự cản trở này trong việc truy cập một tính năng mạnh mẽ có thể làm giảm đáng kể sự nhiệt tình và sự chấp nhận của người dùng, bất kể chất lượng của công nghệ cơ bản. Nếu người dùng gặp khó khăn ngay cả khi bắt đầu một tác vụ, sức mạnh của mô hình trở nên không liên quan đối với họ.
Suy ngẫm về “cơn sốt Ghibli” xung quanh việc tạo hình ảnh của GPT-4o, tình hình có thể không phải là Google thất bại hoàn toàn trong tiếp thị mà là về sự khéo léo của OpenAI trong việc hiểu và tận dụng tâm lý người dùng. Như một người dùng trên X đã chỉ ra về buổi giới thiệu của OpenAI, “Bạn đăng hai bức ảnh và mọi người đều hiểu.“ Bản chất trực quan, dễ chia sẻ và sáng tạo vốn có của bản demo đã khai thác được sự quan tâm tức thì của người dùng. Ngược lại, việc đánh giá những cải tiến tinh tế trong một mô hình ngôn ngữ như Gemini 2.5 đòi hỏi nhiều nỗ lực hơn. “Bạn yêu cầu những người tương tự đọc một báo cáo do 2.0 tạo ra và so sánh [nó] với 2.5, và điều đó đòi hỏi nhiều thời gian hơn là cuộn và thích,” người dùng giải thích thêm.
Những kịch bản này nhấn mạnh một bài học quan trọng trong bối cảnh AI hiện tại: ưu thế công nghệ đơn thuần không đảm bảo vị trí dẫn đầu thị trường hoặc sự ưa thích của người dùng. Các yếu tố như dễ sử dụng, thiết kế trực quan, truyền đạt hiệu quả các khả năng, và thậm chí cả yếu tố tính cách hoặc sự tham gia được cảm nhận của AI đóng vai trò quan trọng. Người dùng trung bình, bao gồm nhiều nhà phát triển tập trung vào năng suất, thường bị thu hút bởi các công cụ không chỉ mạnh mẽ mà còn thú vị, dễ liên hệ và tích hợp liền mạch vào quy trình làm việc của họ. Để Google tận dụng tối đa tiềm năng của các mô hình như Gemini 2.5, đặc biệt là trong các lĩnh vực cạnh tranh như hỗ trợ lập trình, việc thu hẹp khoảng cách giữa nghiên cứu tiên tiến và trải nghiệm người dùng đặc biệt vẫn là một nhiệm vụ quan trọng.