Gemini 2.5: Giải Phóng Trí Tuệ Vượt Bậc | vi

Tại I/O 2025, Google đã công bố một loạt các bản cập nhật đột phá cho dòng mô hình Gemini 2.5, cùng với một tính năng thử nghiệm sáng tạo được gọi là Deep Think, được thiết kế để tăng cường khả năng suy luận của mô hình 2.5 Pro. Những tiến bộ này đánh dấu một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo, mang đến cho các nhà phát triển cũng như người dùng những mức hiệu suất, hiệu quả và tính linh hoạt chưa từng có.

Mô hình Gemini 2.5 Pro đã nhận được sự hoan nghênh rộng rãi từ các nhà phát triển như là giải pháp hàng đầu cho các tác vụ mã hóa, trong khi mô hình 2.5 Flash được thiết lập để nhận được một bản nâng cấp đáng kể. Hơn nữa, Google đang giới thiệu một loạt các khả năng mới trên các mô hình của mình, bao gồm Deep Think, một chế độ suy luận nâng cao thử nghiệm được thiết kế đặc biệt cho mô hình 2.5 Pro.

Trong một thông báo trước đó, Google đã công bố Gemini 2.5 Pro, mô hình thông minh nhất của mình cho đến nay và đẩy nhanh việc phát hành bản cập nhật I/O để trao quyền cho các nhà phát triển trong việc tạo ra các ứng dụng web đặc biệt. Hôm nay, công ty đang chia sẻ thêm các cải tiến cho dòng mô hình Gemini 2.5, tự hào với những thành tựu đáng chú ý:

Gemini 2.5 Pro đã vượt qua mọi mong đợi, thể hiện hiệu suất vượt trội trên các tiêu chuẩn học thuật. Hiện tại, nó giữ vị trí hàng đầu trên bảng xếp hạng WebDev Arena và LMArena, củng cố vị thế của nó như là mô hình hàng đầu thế giới về hỗ trợ mã hóa và học tập.
Các tính năng mới đang được tích hợp vào cả 2.5 Pro và 2.5 Flash, bao gồm đầu ra âm thanh gốc để có trải nghiệmđàm thoại tự nhiên và hấp dẫn hơn, các biện pháp bảo mật tiên tiến và tích hợp các khả năng sử dụng máy tính của Project Mariner. Mô hình 2.5 Pro sẽ được tăng cường hơn nữa với Deep Think, một chế độ thử nghiệm được thiết kế để cải thiện khả năng suy luận cho các vấn đề toán học và mã hóa phức tạp.
Google vẫn cam kết cải thiện trải nghiệm nhà phát triển thông qua việc kết hợp các bản tóm tắt suy nghĩ trong Gemini API và Vertex AI. Những bản tóm tắt này cung cấp sự minh bạch cao hơn, ngân sách suy nghĩ mở rộng cho 2.5 Pro để đảm bảo kiểm soát lớn hơn và hỗ trợ các công cụ MCP trong Gemini API và SDK để truy cập vào một loạt các công cụ nguồn mở rộng hơn.
Mô hình 2.5 Flash hiện có thể truy cập rộng rãi trong ứng dụng Gemini. Một phiên bản cập nhật sẽ sớm có sẵn trong Google AI Studio cho các nhà phát triển và trong Vertex AI cho các doanh nghiệp, dự kiến vào đầu tháng Sáu, với 2.5 Pro sẽ theo sau ngay sau đó.

Tiến độ đáng kể này là kết quả của sự cống hiến không ngừng nghỉ của các nhóm Google, những người cam kết liên tục cải thiện các công nghệ của mình và triển khai chúng một cách an toàn và có trách nhiệm.

Tiết Lộ Hiệu Suất Vượt Trội của 2.5 Pro

Mô hình 2.5 Pro gần đây đã được cập nhật để trao quyền cho các nhà phát triển trong việc tạo ra các ứng dụng web tương tác và giàu tính năng hơn. Phản hồi tích cực nhận được từ người dùng và nhà phát triển được đánh giá cao và những cải tiến liên tục sẽ tiếp tục được triển khai dựa trên đầu vào của người dùng.

Ngoài hiệu suất vượt trội trên các tiêu chuẩn học thuật, phiên bản mới nhất của 2.5 Pro đã chiếm vị trí hàng đầu trên bảng xếp hạng mã hóa phổ biến, WebDev Arena, với điểm ELO ấn tượng là 1415. Nó cũng dẫn đầu trên tất cả các bảng xếp hạng của LMArena, đánh giá sở thích của con người dựa trên các tiêu chí khác nhau. Hơn nữa, được trang bị cửa sổ ngữ cảnh 1 triệu token, 2.5 Pro mang lại hiệu suất hiện đại trong ngữ cảnh dài và hiểu video.

Bằng cách tích hợp LearnLM, một họ các mô hình được phát triển với sự hợp tác của các chuyên gia giáo dục, 2.5 Pro đã trở thành mô hình hàng đầu cho việc học. Trong các so sánh trực tiếp đánh giá phương pháp sư phạm và hiệu quả của nó, các nhà giáo dục và chuyên gia ưa chuộng Gemini 2.5 Pro hơn các mô hình khác trên một loạt các kịch bản đa dạng. Nó cũng vượt qua các mô hình hàng đầu trên tất cả năm nguyên tắc của khoa học học tập, được sử dụng để xây dựng các hệ thống AI cho việc học. Điều này làm nổi bật hiệu quả của nó trong các bối cảnh giáo dục, cung cấp các chiến lược giảng dạy hiệu quả và phù hợp.

Deep Think: Đẩy Mạnh Giới Hạn của Suy Luận

Google đang tích cực khám phá các giới hạn về khả năng nhận thức của Gemini và bắt đầu thử nghiệm với một chế độ suy luận nâng cao gọi là Deep Think. Chế độ cải tiến này sử dụng các kỹ thuật nghiên cứu tiên tiến, cho phép mô hình đánh giá nhiều giả thuyết trước khi đưa ra phản hồi. Phương pháp này tăng cường các quy trình ra quyết định, cho phép kết quả tinh vi và sắc thái hơn trong các tình huống phức tạp.

Gemini 2.5 Pro Deep Think đã đạt được một điểm số ấn tượng trên USAMO 2025, được công nhận rộng rãi là một trong những tiêu chuẩn toán học thách thức nhất. Nó cũng vượt trội trên LiveCodeBench, một tiêu chuẩn đòi hỏi khắt khe cho mã hóa cấp độ cạnh tranh và đạt được điểm số 84,0% trên MMMU, đánh giá khả năng suy luận đa phương thức. Những kết quả này nhấn mạnh hiệu suất vượt trội của Deep Think trong việc xử lý các tác vụ phức tạp, cho thấy một tương lai đầy hứa hẹn cho việc giải quyết vấn đề AI tiên tiến.

Với việc 2.5 Pro Deep Think đang đẩy mạnh biên giới của những gì có thể, Google đang dành thêm thời gian để tiến hành các đánh giá an toàn kỹ lưỡng và thu thập thêm thông tin đầu vào từ các chuyên gia an toàn. Công ty cũng sẽ cung cấp cho những người thử nghiệm chọn lọc quyền truy cập vào Gemini API để thu thập phản hồi trước khi cung cấp rộng rãi. Phương pháp thận trọng và có chủ ý này nhằm mục đích đảm bảo việc triển khai có trách nhiệm công nghệ AI tiên tiến.

Giới Thiệu 2.5 Flash Nâng Cao

Mô hình 2.5 Flash, nổi tiếng về hiệu quả và tính kinh tế, đã được tinh chỉnh trên nhiều khía cạnh. Nó đã cho thấy sự cải thiện trên các tiêu chuẩn quan trọng về suy luận, đa phương thức, xử lý mã và ngữ cảnh dài, đồng thời trở nên hiệu quả hơn, sử dụng ít hơn từ 20-30% số token trong các đánh giá. Điều này làm nổi bật hiệu suất được tối ưu hóa và quản lý tài nguyên của nó.

5 Flash mới hiện có sẵn để xem trước trong Google AI Studio cho các nhà phát triển, trong Vertex AI cho các ứng dụng doanh nghiệp và trong ứng dụng Gemini cho người dùng nói chung. Nó được lên lịch để cung cấp chung vào đầu tháng Sáu, giúp nó có thể truy cập được cho các môi trường sản xuất.

Các Khả Năng Mới của Gemini 2.5

Các Cải Tiến cho Đầu Ra Âm Thanh Gốc và Live API

Live API giới thiệu một phiên bản xem trước của đầu vào nghe nhìn và hộp thoại đầu ra âm thanh gốc, cho phép người dùng tạo ra các trải nghiệm đàm thoại với Gemini tự nhiên và biểu cảm hơn. Tính năng này cho phép các ứng dụng hấp dẫn và tương tác hơn. Khả năng AI tạo ra các phản hồi âm thanh sống động giúp tăng cường đáng kể sự tương tác của người dùng bằng cách tạo ra một cách giao tiếp trực quan hơn.

Live API cho phép người dùng điều khiển âm điệu, giọng và phong cách nói của mô hình. Ví dụ: mô hình có thể được hướng dẫn để sử dụng giọng điệu kịch tính khi kể một câu chuyện. Nó cũng hỗ trợ sử dụng công cụ, cho phép nó thực hiện các tìm kiếm thay mặt người dùng. Sự linh hoạt trong điều khiển giọng nói và quyền truy cập vào các công cụ bên ngoài làm cho mô hình trở nên cực kỳ linh hoạt và có giá trị trên các kịch bản ứng dụng đa dạng.

Người dùng có thể thử nghiệm với các tính năng ban đầu khác nhau, bao gồm:

Hộp Thoại Cảm Xúc: Mô hình phát hiện cảm xúc trong giọng nói của người dùng và phản hồi tương ứng. Chức năng này thêm các lớp trí tuệ cảm xúc vào AI, làm cho tương tác trở nên cá nhân hóa hơn.
Âm Thanh Chủ Động: Mô hình bỏ qua các cuộc trò chuyện nền và biết khi nào nên phản hồi, giảm thiểu sự gián đoạn và cải thiện độ rõ ràng. Tính năng này nâng cao chất lượng của sự tương tác, cho phép giao tiếp hiệu quả và tập trung hơn.
Suy Nghĩ trong Live API: Mô hình tận dụng các khả năng tư duy của Gemini để hỗ trợ các tác vụ phức tạp hơn. Điều này cho phép phân tích và xem xét sâu hơn khi giải quyết các tác vụ phức tạp, làm cho nó đặc biệt có giá trị trong các lĩnh vực đòi hỏi các giải pháp chính xác và sâu sắc.

Google cũng đang phát hành các bản xem trước mới cho chức năng chuyển văn bản thành giọng nói trong cả 2.5 Pro và 2.5 Flash. Chúng cung cấp hỗ trợ đầu tiên cho nhiều người nói, cho phép chuyển văn bản thành giọng nói với hai giọng nói thông qua đầu ra âm thanh gốc. Tính năng này đặc biệt có giá trị để tạo ra các câu chuyện và hộp thoại hấp dẫn trong các ứng dụng đa phương tiện.

Giống như hộp thoại âm thanh gốc, chuyển văn bản thành giọng nói có tính biểu cảm và có thể nắm bắt các sắc thái tinh tế như thì thầm. Nó hỗ trợ hơn 24 ngôn ngữ và chuyển đổi liền mạch giữa chúng, làm cho nó trở thành một công cụ linh hoạt để giao tiếp toàn cầu. Những sự tinh tế này trong việc sử dụng ngôn ngữ làm phong phú trải nghiệm người dùng, tạo điều kiện cho một quá trình giao tiếp sắc thái và cá nhân hóa hơn.

Khả năng chuyển văn bản thành giọng nói này sẽ khả dụng vào cuối ngày hôm nay trong Gemini API.

Giao Diện Máy Tính Nâng Cao

Google đang giới thiệu các khả năng sử dụng máy tính của Project Mariner vào Gemini API và Vertex AI. Các công ty có tư duy tiến bộ như Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company và Cartwheel đang khám phá tiềm năng của nó. Google đang mong đợi một đợt triển khai rộng rãi hơn để các nhà phát triển thử nghiệm với khả năng này vào mùa hè này, mở đường cho các dự án và giải pháp sáng tạo. Khả năng tích hợp các mô hình AI trực tiếp với các giao diện máy tính dẫn đến các giải pháp quy trình làm việc hợp lý, hiệu quả hơn trên các ngành công nghiệp đa dạng.

Các Biện Pháp Bảo Mật Vượt Trội

Google đã tăng cường đáng kể các biện pháp bảo vệ chống lại các mối đe dọa bảo mật, chẳng hạn như tấn công prompt injection gián tiếp. Điều này bao gồm việc nhúng các hướng dẫnđộc hại vào dữ liệu được truy xuất bởi một mô hình AI. Phương pháp bảo mật mới của Google đã tăng đáng kể tỷ lệ bảo vệ của Gemini chống lại các cuộc tấn công prompt injection gián tiếp trong quá trình sử dụng công cụ, làm cho Gemini 2.5 trở thành họ mô hình an toàn nhất của nó cho đến nay. Khả năng bảo mật nâng cao này đảm bảo cho người dùng về một trải nghiệm an toàn, đáng tin cậy khi áp dụng các giải pháp do AI điều khiển.

Trải Nghiệm Nhà Phát Triển Nâng Cao

Tóm Tắt Suy Nghĩ

Cả 2.5 Pro và Flash hiện sẽ bao gồm tóm tắt suy nghĩ trong Gemini API và trong Vertex AI. Những bản tóm tắt này lấy những suy nghĩ thô của mô hình và sắp xếp chúng thành một định dạng rõ ràng với các tiêu đề, chi tiết chính và thông tin về các hành động mô hình, chẳng hạn như khi chúng sử dụng công cụ. Bằng cách cung cấp thông tin chi tiết về quy trình phân tích của AI, tóm tắt suy nghĩ hỗ trợ trong việc hiểu và gỡ lỗi các vấn đề trong hệ thống AI, cải thiện hiệu quả và thiết kế hệ thống.

Với một định dạng có cấu trúc, hợp lý hơn về quy trình tư duy của mô hình, các nhà phát triển và người dùng sẽ thấy các tương tác với các mô hình Gemini dễ hiểu và gỡ lỗi hơn.

Ngân Sách Tư Duy

Google đã ra mắt 2.5 Flash với ngân sách tư duy để cung cấp cho các nhà phát triển quyền kiểm soát lớn hơn đối với chi phí bằng cách cân bằng độ trễ và chất lượng. Khả năng này hiện được mở rộng sang 2.5 Pro, cung cấp cho bạn các tùy chọn điều chỉnh tốt hơn. Bằng cách kiểm soát các token được sử dụng và tối ưu hóa tài nguyên, các nhà phát triển có thể đạt được sự cân bằng phù hợp giữa chi phí tính toán và hiệu quả giải pháp, làm cho việc triển khai AI vừa tiết kiệm vừa hiệu quả.

Điều này cho phép kiểm soát hoàn toàn số lượng token mà mô hình sử dụng để suy nghĩ trước khi phản hồi, hoặc thậm chí tắt các khả năng tư duy của nó.

Gemini 2.5 Pro với ngân sách sẽ có sẵn rộng rãi để sử dụng trong sản xuất ổn định trong những tuần tới, cùng với mô hình có sẵn rộng rãi.

Hỗ Trợ cho Các Công Cụ MCP

Google đã thêm hỗ trợ SDK gốc cho các định nghĩa Giao thức Ngữ cảnh Mô hình (MCP) trong Gemini API để dễ dàng tích hợp với các công cụ nguồn mở. Các phương pháp triển khai khác nhau, như máy chủ MCP và các công cụ được lưu trữ, được khám phá để giúp người dùng dễ dàng xây dựng các ứng dụng đại lý hơn. Điều này cải thiện môi trường phát triển AI thông qua một loạt các tùy chọn rộng hơn để tích hợp công cụ và cộng tác trên các dự án.

Đổi mới liên tục là chìa khóa trong cam kết không ngừng cải thiện các mô hình và trải nghiệm nhà phát triển, làm cho chúng hiệu quả hơn, hoạt động tốt hơn và đáp ứng phản hồi của nhà phát triển. Tăng gấp đôi về bề rộng và chiều sâu của nghiên cứu cơ bản để đẩy mạnh biên giới về khả năng của Gemini. Sẽ có nhiều điều hơn nữa trong tương lai.

cập nhật lúc 2025-05-22

# Google # Gemini # AGI