Trong lĩnh vực trí tuệ nhân tạo, sự trỗi dậy của các mô hình đa phương thức đang định hình lại cách chúng ta tương tác với công nghệ với tốc độ chưa từng có. Gemini 2.5, mô hình đa phương thức mới nhất của Google, đã đạt được những tiến bộ vượt bậc trong xử lý âm thanh, mang đến cho nhà phát triển và người dùng khả năng tạo và đối thoại bằng âm thanh chưa từng có. Mô hình này không chỉ có thể hiểu và tạo nội dung đa phương thức như văn bản, hình ảnh, âm thanh, video và mã, mà còn đạt được một bước nhảy vọt về chất trong xử lý âm thanh gốc.
Tổng quan về khả năng âm thanh gốc của Gemini 2.5
Gemini được thiết kế từ đầu như một mô hình đa phương thức, có khả năng hiểu và tạo gốc nội dung trên văn bản, hình ảnh, âm thanh, video và mã. Tại hội nghị I/O, chúng tôi đã trình bày cách Gemini 2.5 đạt được những tiến bộ đáng kể trong đối thoại và tạo âm thanh dựa trên AI. Hiện tại, những mô hình này đã được áp dụng trong nhiều sản phẩm và nguyên mẫu trên toàn thế giới, hỗ trợ nhiều ngôn ngữ, mang đến cho người dùng trải nghiệm âm thanh hoàn toàn mới.
Cụ thể hơn, Gemini 2.5 đạt được khả năng xử lý âm thanh vượt trội thông qua một số tính năng chính sau:
Hợp nhất đa phương thức: Gemini 2.5 không chỉ là một mô hình xử lý âm thanh độc lập, nó có thể hợp nhất thông tin âm thanh với thông tin từ các phương thức khác (chẳng hạn như văn bản, hình ảnh), để hiểu và tạo nội dung toàn diện hơn. Sự hợp nhất đa phương thức này cho phép Gemini 2.5 có độ chính xác và khả năng chống chịu cao hơn khi xử lý các tác vụ âm thanh phức tạp.
Công nghệ học sâu: Gemini 2.5 sử dụng các công nghệ học sâu tiên tiến nhất, bao gồm mạng Transformer và cơ chế tự chú ý (self-attention mechanisms). Những công nghệ này cho phép mô hình học các mô hình và mối quan hệ phức tạp trong dữ liệu âm thanh, từ đó tạo ra âm thanh và hội thoại chất lượng cao.
Đào tạo trên tập dữ liệu lớn: Để cải thiện hiệu suất của mô hình, Gemini 2.5 đã sử dụng một tập dữ liệu âm thanh lớn để đào tạo. Các tập dữ liệu này chứa nhiều loại nội dung âm thanh khác nhau, bao gồm giọng nói, âm nhạc, âm thanh môi trường, v.v., để mô hình có thể thích ứng với các tình huống âm thanh khác nhau.
Khả năng tùy biến: Gemini 2.5 cung cấp API và công cụ phong phú, cho phép các nhà phát triển tùy chỉnh hành vi của mô hình theo nhu cầu của riêng họ. Ví dụ: nhà phát triển có thể điều chỉnh kiểu giọng nói, cao độ, tốc độ lời nói của mô hình để tạo ra nội dung âm thanh đáp ứng các yêu cầu cụ thể.
Đối thoại âm thanh thời gian thực: Mở ra một chương mới trong tương tác giữa người và máy
Đối thoại của con người không chỉ là truyền tải thông tin mà còn là một hành vi giao tiếp phức tạp, chứa đựng những yếu tố phi ngôn ngữ, cảm xúc và giọng điệu phong phú. Chức năng đối thoại âm thanh thời gian thực của Gemini 2.5 nhằm mục đích mô phỏng phương thức đối thoại tự nhiên này, làm cho tương tác giữa người và máy trở nên trôi chảy và tự nhiên hơn.
Hội thoại tự nhiên: Tương tác bằng giọng nói trôi chảy và tự nhiên
Gemini 2.5 có thể tạo ra giọng nói chất lượng cao, với chất lượng âm thanh, khả năng biểu đạt và nhịp điệu rất gần với người thật. Ngoài ra, mô hình này có độ trễ cực thấp, có thể thực hiện tương tác bằng giọng nói theo thời gian thực, cho phép người dùng cảm thấy như đang trò chuyện với người thật.
Kiểm soát phong cách: Tùy chỉnh giọng nói cá nhân
Bằng cách sử dụng các gợi ý ngôn ngữ tự nhiên, người dùng có thể kiểm soát phong cách giọng nói của Gemini 2.5, chẳng hạn như thay đổi giọng điệu, điều chỉnh giọng nói hoặc thậm chí bắt chước thì thầm. Chức năng kiểm soát phong cách này cho phép người dùng tùy chỉnh giọng nói theo sở thích của riêng mình, từ đó có được trải nghiệm cá nhân hóa hơn.
Tích hợp công cụ: Hỗ trợ đối thoại thông minh
Gemini 2.5 có thể được tích hợp với các công cụ và chức năng khác, chẳng hạn như Google Search và các công cụ tùy chỉnh của nhà phát triển. Sự tích hợp này cho phép mô hình thu thập thông tin theo thời gian thực trong quá trình đối thoại, từ đó cung cấp sự trợ giúp thiết thực và thông minh hơn.
Nhận biết ngữ cảnh: Phán đoán thông minh thời điểm phát biểu
Gemini 2.5 có thể nhận biết và bỏ qua tiếng ồn xung quanh, hội thoại môi trường và các âm thanh không liên quan khác, chỉ phản hồi khi thích hợp. Khả năng nhận biết ngữ cảnh này đảm bảo rằng mô hình không làm gián đoạn người dùng khi không cần thiết, từ đó mang lại trải nghiệm đối thoại thoải mái hơn.
Hiểu âm thanh và video: Khả năng đối thoại đa phương thức
Gemini 2.5 có thể hiểu thông tin từ luồng âm thanh và video, đồng thời đối thoại với nó. Ví dụ: mô hình có thể phân tích nội dung video và thảo luận với người dùng về cốt truyện, nhân vật và sự kiện trong video.
Hỗ trợ đa ngôn ngữ: Vượt qua rào cản ngôn ngữ
Gemini 2.5 hỗ trợ hơn 24 ngôn ngữ và có thể sử dụng hỗn hợp các ngôn ngữ khác nhau trong cùng một câu. Hỗ trợ đa ngôn ngữ này cho phép mô hình giúp người dùng vượt qua rào cản ngôn ngữ và giao tiếp với mọi người từ khắp nơi trên thế giới.
Đối thoại cảm xúc: Hiểu và phản hồi cảm xúc của người dùng
Gemini 2.5 có thể nhận ra cảm xúc trong giọng nói của người dùng và đưa ra phản hồi phù hợp. Ví dụ: nếu người dùng có vẻ chán nản, mô hình có thể đưa ra lời an ủi hoặc động viên.
Đối thoại tư duy cao cấp: Tương tác thông minh hơn
Khả năng suy luận của Gemini 2.5 có thể tăng cường khả năng đối thoại của nó, từ đó cải thiện hiệu suất tổng thể. Khả năng tư duy cao cấp này cho phép mô hình thực hiện các tương tác mạch lạc và thông minh hơn, đặc biệt là khi xử lý các tác vụ suy luận phức tạp.
Chuyển văn bản thành giọng nói (TTS) có thể kiểm soát: Tạo nội dung âm thanh cá nhân hóa
Sự phát triển của công nghệ chuyển văn bản thành giọng nói (TTS) đang ngày càng phát triển và Gemini 2.5 đã đạt được những tiến bộ đột phá trong TTS, mang đến cho người dùng khả năng kiểm soát chưa từng có. Giờ đây, người dùng có thể tạo nhiều loại nội dung âm thanh khác nhau, từ các đoạn ngắn đến những câu chuyện dài, với khả năng kiểm soát chính xác về phong cách, giọng điệu, biểu cảm cảm xúc và hiệu suất.
Chức năng TTS của Gemini 2.5 có các tính năng sau:
Hiệu suất động: Các mô hình này có thể chuyển đổi văn bản thành âm thanh sống động, được sử dụng để thể hiện nhiều cảm xúc khác nhau, chẳng hạn như thơ, phát thanh tin tức và những câu chuyện hấp dẫn. Chúng cũng có thể thực hiện các cảm xúc cụ thể và tạo ra các giọng điệu theo yêu cầu.
Kiểm soát nhịp điệu và phát âm nâng cao: Người dùng có thể kiểm soát tốc độ lời nói và đảm bảo phát âm chính xác hơn, bao gồm cả cách phát âm của các từ cụ thể.
Tạo hội thoại nhiều người nói: Mô hình này có thể tạo ra "bản tóm tắt âm thanh" cho hai người từ đầu vào văn bản, làm cho nội dung trở nên hấp dẫn hơn thông qua đối thoại.
Hỗ trợ đa ngôn ngữ: Gemini 2.5 có thể dễ dàng tạo nội dung âm thanh đa ngôn ngữ, cung cấp hỗ trợ tương tự cho hơn 24 ngôn ngữ.
Đối với việc tạo giọng nói có thể kiểm soát (TTS), bạn có thể chọn Gemini 2.5 Pro Preview để có được chất lượng tiên tiến nhất với các gợi ý phức tạp hoặc chọn Gemini 2.5 Flash Preview cho các ứng dụng hàng ngày hiệu quả về chi phí. Điều này cho phép các nhà phát triển tạo động các bản âm thanh cho thông báo, câu chuyện, podcast, trò chơi điện tử, …
An toàn và trách nhiệm: Bảo vệ quyền lợi của người dùng
Google rất coi trọng tính an toàn và trách nhiệm của trí tuệ nhân tạo. Trong quá trình phát triển các chức năng âm thanh gốc này, chúng tôi đã chủ động đánh giá các rủi ro tiềm ẩn ở mỗi giai đoạn và sử dụng những gì chúng tôi đã học được để phát triển các chiến lược giảm thiểu. Chúng tôi xác minh các biện pháp này thông qua các đánh giá bảo mật nội bộ và bên ngoài nghiêm ngặt, bao gồm các cuộc diễn tập red team toàn diện để đạt được việc triển khai có trách nhiệm. Ngoài ra, tất cả các đầu ra âm thanh của mô hình của chúng tôi đều được nhúng SynthID (công nghệ Watermark của chúng tôi) để đảm bảo tính minh bạch bằng cách làm cho âm thanh do AI tạo ra có thể nhận dạng được.
Khả năng âm thanh gốc cho nhà phát triển: Xây dựng các ứng dụng phong phú hơn
Chúng tôi giới thiệu đầu ra âm thanh gốc vào mô hình Gemini 2.5, cho phép các nhà phát triển xây dựng các ứng dụng phong phú hơn, tương tác hơn thông qua Google AI Studio hoặc Gemini API trong Vertex AI.
Để bắt đầu khám phá, các nhà phát triển có thể dùng thử đối thoại âm thanh gốc với bản xem trước Gemini 2.5 Flash trong tab phát trực tuyến của Google AI Studio. Bằng cách chọn tạo giọng nói trong tab "Tạo nội dung nghe nhìn" của Google AI Studio, Gemini 2.5 Pro và Flash đều có thể xem trước việc tạo giọng nói có thể kiểm soát (TTS).
Triển vọng ứng dụng của Gemini 2.5
Khả năng xử lý âm thanh của Gemini 2.5 mang đến những triển vọng ứng dụng rộng lớn trong nhiều lĩnh vực:
Trợ lý thông minh: Gemini 2.5 có thể được sử dụng để xây dựng các trợ lý thông minh, tự nhiên hơn, chẳng hạn như trợ lý giọng nói, chatbot, v.v. Các trợ lý này có thể hiểu các lệnh thoại của người dùng và cung cấp các dịch vụ tương ứng, chẳng hạn như truy vấn thông tin, phát nhạc, điều khiển thiết bị nhà thông minh, v.v.
Giáo dục: Gemini 2.5 có thể được sử dụng để phát triển các ứng dụng giáo dục cá nhân hóa, chẳng hạn như ứng dụng học tập bằng giọng nói, ứng dụng học ngôn ngữ, v.v. Các ứng dụng này có thể cung cấp nội dung học tập và phản hồi tùy chỉnh dựa trên tiến độ và khả năng học tập của học sinh, từ đó cải thiện hiệu quả học tập.
Giải trí: Gemini 2.5 có thể được sử dụng để tạo ra trải nghiệm giải trí phong phú hơn, chẳng hạn như trò chơi bằng giọng nói, truyện kể bằng giọng nói, tiểu thuyết bằng giọng nói, v.v. Các ứng dụng này có thể sử dụng khả năng tạo giọng nói của Gemini 2.5 để mang đến cho người dùng trải nghiệm sống động hơn.
Y tế: Gemini 2.5 có thể được sử dụng để hỗ trợ chẩn đoán và điều trị y tế, chẳng hạn như nhận dạng giọng nói có thể được sử dụng để ghi lại kết quả chẩn đoán của bác sĩ, tổng hợp giọng nói có thể được sử dụng để giúp bệnh nhân aphasia giao tiếp.
Thương mại: Gemini 2.5 có thể được sử dụng để cải thiện dịch vụ khách hàng, chẳng hạn như dịch vụ khách hàng bằng giọng nói, tiếp thị bằng giọng nói, v.v. Các ứng dụng này có thể sử dụng khả năng tạo giọng nói của Gemini 2.5 để cung cấp các dịch vụ hiệu quả và cá nhân hóa hơn.
Tóm lại, khả năng xử lý âm thanh của Gemini 2.5 mang đến những cơ hội mới cho lĩnh vực trí tuệ nhân tạo, nó sẽ thay đổi cách chúng ta tương tác với công nghệ và mang lại sự đổi mới và phát triển cho các ngành công nghiệp khác nhau.