Khám phá Gemini: Thế hệ AI tiếp theo của Google
Gemini là bước tiến đầy tham vọng của Google vào thế hệ mô hình AI tiếp theo. Được phát triển thông qua nỗ lực hợp tác của DeepMind và Google Research, các phòng thí nghiệm nghiên cứu AI hàng đầu của Google, Gemini không phải là một thực thể nguyên khối mà là một họ các mô hình, mỗi mô hình được điều chỉnh cho các tác vụ và mức hiệu suất cụ thể. Gia đình này bao gồm:
- Gemini Ultra: Mô hình mạnh mẽ nhất, được thiết kế cho các tác vụ cực kỳ phức tạp đòi hỏi sức mạnh tính toán đáng kể. (Hiện tại chưa ra mắt)
- Gemini Pro: Một mô hình mạnh mẽ, nhỏ hơn Ultra, nhưng có khả năng xử lý nhiều tác vụ khác nhau. Gemini 2.0 Pro, phiên bản mới nhất, hiện là sản phẩm chủ lực của Google.
- Gemini Flash: Phiên bản rút gọn, “tinh chế” của Pro, ưu tiên tốc độ và hiệu quả.
- Gemini Flash-Lite: Phiên bản rút gọn và nhanh hơn một chút của Gemini Flash.
- Gemini Flash Thinking: Một mô hình thể hiện khả năng “suy luận”.
- Gemini Nano: Bao gồm hai mô hình nhỏ gọn, Nano-1 và Nano-2 mạnh hơn một chút, được thiết kế để hoạt động ngoại tuyến trên các thiết bị.
Một đặc điểm nổi bật của tất cả các mô hình Gemini là tính đa phương thức (multimodality) vốn có của chúng. Không giống như các mô hình chỉ được huấn luyện trên dữ liệu văn bản, chẳng hạn như LaMDA của Google, các mô hình Gemini có khả năng xử lý và phân tích các loại dữ liệu đa dạng. Chúng đã được huấn luyện trên một tập dữ liệu khổng lồ bao gồm âm thanh, hình ảnh, video, cơ sở mã và văn bản công khai, độc quyền và được cấp phép bằng nhiều ngôn ngữ.
Tính đa phương thức này cho phép Gemini vượt qua những hạn chế của các mô hình chỉ có văn bản. Trong khi LaMDA bị giới hạn ở đầu vào và đầu ra dựa trên văn bản, các mô hình Gemini, đặc biệt là các phiên bản mới hơn của Flash và Pro, có thể tạo ra hình ảnh và âm thanh cùng với văn bản.
Tuy nhiên, các tác động về đạo đức và pháp lý của việc huấn luyện các mô hình AI trên dữ liệu có sẵn công khai, thường không có sự đồng ý rõ ràng của chủ sở hữu dữ liệu, vẫn là một vấn đề phức tạp. Mặc dù Google cung cấp chính sách bồi thường AI để bảo vệ một số khách hàng Google Cloud khỏi các vụ kiện tiềm ẩn, chính sách này có những hạn chế. Người dùng, đặc biệt là những người có ý định sử dụng Gemini cho mục đích thương mại, nên thận trọng.
Ứng dụng Gemini và Mô hình Gemini: Hiểu rõ sự khác biệt
Điều quan trọng là phải phân biệt giữa các mô hình Gemini và các ứng dụng Gemini có sẵn trên nền tảng web và thiết bị di động (trước đây gọi là Bard).
Các ứng dụng Gemini hoạt động như các máy khách (clients), kết nối với các mô hình Gemini khác nhau và cung cấp giao diện thân thiện với người dùng, giống như chatbot. Chúng đóng vai trò là giao diện người dùng để tương tác với các khả năng AI tạo sinh của Google.
Trên các thiết bị Android, ứng dụng Gemini thay thế ứng dụng Google Assistant. Trên iOS, các ứng dụng Google và Google Search đóng vai trò là máy khách Gemini.
Người dùng Android có thể gọi một lớp phủ Gemini để đặt câu hỏi về nội dung hiển thị trên màn hình của họ, chẳng hạn như video YouTube. Lớp phủ này được kích hoạt bằng cách nhấn và giữ nút nguồn của điện thoại thông minh được hỗ trợ hoặc bằng cách sử dụng lệnh thoại “Hey Google”.
Các ứng dụng Gemini rất linh hoạt, chấp nhận hình ảnh, lệnh thoại và văn bản làm đầu vào. Chúng có thể xử lý các tệp như PDF, được tải lên trực tiếp hoặc nhập từ Google Drive và tạo hình ảnh. Các cuộc trò chuyện được bắt đầu với các ứng dụng Gemini trên thiết bị di động sẽ đồng bộ hóa liền mạch với Gemini trên web, miễn là người dùng đăng nhập vào cùng một Tài khoản Google.
Gemini Advanced: Mở khóa các tính năng AI cao cấp
Các ứng dụng Gemini không phải là cổng duy nhất để tận dụng sức mạnh của các mô hình Gemini. Google đang dần tích hợp các tính năng do Gemini cung cấp vào các ứng dụng và dịch vụ cốt lõi của mình, bao gồm Gmail và Google Docs.
Để khai thác đầy đủ các khả năng này, người dùng thường cần gói Google One AI Premium. Gói này, về mặt kỹ thuật là một thành phần của Google One, có giá 20 đô la mỗi tháng và cấp quyền truy cập vào Gemini trong các ứng dụng Google Workspace như Docs, Maps, Slides, Sheets, Drive và Meet. Nó cũng mở khóa “Gemini Advanced”, cung cấp quyền truy cập vào các mô hình Gemini phức tạp hơn của Google trong các ứng dụng Gemini.
Người dùng Gemini Advanced được hưởng các lợi ích bổ sung, chẳng hạn như quyền truy cập ưu tiên vào các tính năng và mô hình mới, khả năng thực thi và sửa đổi mã Python trực tiếp trong Gemini và giới hạn mở rộng cho NotebookLM, công cụ của Google để chuyển đổi PDF thành podcast do AI tạo. Một bổ sung gần đây cho Gemini Advanced là tính năng bộ nhớ lưu trữ các tùy chọn của người dùng và cho phép Gemini tham chiếu các cuộc trò chuyện trong quá khứ, cung cấp ngữ cảnh cho các tương tác hiện tại.
Một trong những tính năng hấp dẫn nhất dành riêng cho Gemini Advanced là “Deep Research”. Tính năng này tận dụng các mô hình Gemini với khả năng suy luận nâng cao để tạo ra các bản tóm tắt chi tiết. Để đáp lại một câu hỏi, chẳng hạn như “Tôi nên thiết kế lại nhà bếp của mình như thế nào?”, Deep Research xây dựng một kế hoạch nghiên cứu nhiều bước, tìm kiếm trên web và tổng hợp một câu trả lời toàn diện.
Trong Gmail, Gemini nằm trong một bảng điều khiển bên, có khả năng soạn email và tóm tắt các chuỗi tin nhắn. Một bảng điều khiển tương tự xuất hiện trong Docs, hỗ trợ viết, tinh chỉnh và động não nội dung. Trong Slides, Gemini tạo các trang trình bày và hình ảnh tùy chỉnh. Trong Google Sheets, nó hỗ trợ theo dõi, tổ chức dữ liệu và tạo công thức.
Sự hiện diện của Gemini mở rộng đến Google Maps, nơi nó tổng hợp các bài đánh giá về các doanh nghiệp địa phương và đưa ra các đề xuất, chẳng hạn như gợi ý hành trình khi đến thăm một thành phố nước ngoài. Khả năng của chatbot cũng bao gồm Drive, nơi nó có thể tóm tắt các tệp và thư mục và cung cấp thông tin ngắn gọn về các dự án.
Gemini gần đây đã được tích hợp vào trình duyệt Chrome của Google như một công cụ viết AI. Công cụ này có thể được sử dụng để tạo nội dung hoàn toàn mới hoặc viết lại văn bản hiện có, có tính đến ngữ cảnh của trang web hiện tại để cung cấp các đề xuất phù hợp.
Ngoài các ứng dụng cốt lõi này, có thể tìm thấy dấu vết của Gemini trong các sản phẩm cơ sở dữ liệu, công cụ bảo mật đám mây và nền tảng phát triển ứng dụng của Google (bao gồm Firebase và Project IDX). Nó cũng cung cấp sức mạnh cho các tính năng trong các ứng dụng như Google Photos (truy vấn tìm kiếm bằng ngôn ngữ tự nhiên), YouTube (động não ý tưởng video) và Meet (dịch phụ đề).
Code Assist (trước đây là Duet AI for Developers), bộ công cụ hỗ trợ AI của Google để hoàn thành và tạo mã, dựa vào Gemini cho các tác vụ chuyên sâu về tính toán. Tương tự, các sản phẩm bảo mật của Google, chẳng hạn như Gemini in Threat Intelligence, sử dụng Gemini để phân tích mã độc tiềm ẩn và hỗ trợ tìm kiếm bằng ngôn ngữ tự nhiên cho các mối đe dọa và dấu hiệu xâm phạm.
Gemini Extensions và Gems: Điều chỉnh trải nghiệm AI
Người dùng Gemini Advanced có khả năng tạo “Gems”, các chatbot tùy chỉnh được cung cấp bởi các mô hình Gemini, có thể truy cập trên cả nền tảng máy tính để bàn và thiết bị di động. Gems có thể được tạo từ các mô tả ngôn ngữ tự nhiên, chẳng hạn như “Bạn là huấn luyện viên chạy bộ của tôi. Hãy cho tôi một kế hoạch chạy bộ hàng ngày” và có thể được chia sẻ với những người dùng khác hoặc giữ riêng tư.
Các ứng dụng Gemini có thể tích hợp với các dịch vụ khác nhau của Google thông qua “Gemini extensions”. Các tiện ích mở rộng này cho phép Gemini tương tác với Drive, Gmail, YouTube và các dịch vụ khác, cho phép nó trả lời các truy vấn như “Bạn có thể tóm tắt ba email cuối cùng của tôi không?”.
Gemini Live: Tham gia vào các cuộc trò chuyện thoại chuyên sâu
“Gemini Live” mang đến trải nghiệm sống động, cho phép người dùng tham gia vào các cuộc trò chuyện thoại chi tiết với Gemini. Tính năng này có sẵn trong các ứng dụng Gemini trên thiết bị di động và trên Pixel Buds Pro 2, nơi có thể truy cập ngay cả khi điện thoại bị khóa.
Với Gemini Live, người dùng có thể ngắt lời Gemini khi nó đang nói để đặt câu hỏi làm rõ và chatbot thích ứng với các kiểu giọng nói trong thời gian thực. Live cũng được thiết kế để hoạt động như một huấn luyện viên ảo, hỗ trợ chuẩn bị sự kiện, động não và các nhiệm vụ khác. Ví dụ: Live có thể gợi ý các kỹ năng cần làm nổi bật trong một cuộc phỏng vấn xin việc và cung cấp các mẹo nói trước công chúng.
Gemini for Teens: Trải nghiệm AI phù hợp cho học sinh
Google cung cấp trải nghiệm Gemini chuyên biệt phù hợp cho học sinh tuổi teen.
Phiên bản Gemini tập trung vào thanh thiếu niên này kết hợp “các chính sách và biện pháp bảo vệ bổ sung”, bao gồm quy trình giới thiệu tùy chỉnh và hướng dẫn về kiến thức AI. Ngoài những sửa đổi này, nó rất giống với trải nghiệm Gemini tiêu chuẩn, bao gồm tính năng “kiểm tra kép” xác minh tính chính xác của các câu trả lời của Gemini bằng cách tham khảo chéo thông tin trên web.
Khám phá khả năng của các mô hình Gemini
Bản chất đa phương thức của các mô hình Gemini cho phép chúng thực hiện một loạt các tác vụ, từ phiên âm giọng nói đến chú thích hình ảnh và video theo thời gian thực. Nhiều khả năng này đã được tích hợp vào các sản phẩm của Google, với những tiến bộ hơn nữa được hứa hẹn trong tương lai gần.
Tuy nhiên, điều quan trọng là phải thừa nhận rằng Google, giống như các đối thủ cạnh tranh của mình, vẫn chưa giải quyết đầy đủ một số thách thức vốn có liên quan đến công nghệ AI tạo sinh, chẳng hạn như thành kiến được mã hóa và xu hướng ngụy tạo thông tin (ảo giác). Những hạn chế này cần được xem xét khi đánh giá việc sử dụng Gemini, đặc biệt là đối với các ứng dụng quan trọng.
Sức mạnh của Gemini Pro
Google khẳng định rằng mô hình Pro mới nhất của mình, Gemini 2.0 Pro, đại diện cho sản phẩm tiên tiến nhất của hãng để viết mã và xử lý các câu hỏi phức tạp. 2.0 Pro vượt trội hơn so với phiên bản tiền nhiệm, Gemini 1.5 Pro, trong các bài kiểm tra đánh giá về lập trình, suy luận, toán học và độ chính xác thực tế.
Trong nền tảng Vertex AI của Google, các nhà phát triển có thể tùy chỉnh Gemini Pro cho các ngữ cảnh và trường hợp sử dụng cụ thể thông qua tinh chỉnh (fine-tuning) hoặc “nền tảng” (grounding). Ví dụ: Pro (cùng với các mô hình Gemini khác) có thể được hướng dẫn sử dụng dữ liệu từ các nhà cung cấp bên thứ ba như Moody’s, Thomson Reuters, ZoomInfo và MSCI, hoặc lấy thông tin từ các tập dữ liệu của công ty hoặc Google Search thay vì cơ sở kiến thức rộng hơn của nó. Gemini Pro cũng có thể được kết nối với các API bên ngoài, của bên thứ ba để thực hiện các hành động cụ thể, chẳng hạn như tự động hóa quy trình làm việc back-office.
Nền tảng AI Studio của Google cung cấp các mẫu để tạo các câu hỏi trò chuyện có cấu trúc với Pro. Các nhà phát triển có thể kiểm soát phạm vi sáng tạo của mô hình, cung cấp các ví dụ để hướng dẫn giọng điệu và phong cách, đồng thời tinh chỉnh cài đặt an toàn của Pro.
Gemini Flash: Hiệu quả nhẹ nhàng và khả năng suy luận của Gemini Flash Thinking
Gemini 2.0 Flash, có khả năng sử dụng tìm kiếm Google và các API bên ngoài khác. Mặc dù nhỏ hơn, nó vượt trội hơn một số mô hình 1.5 lớn hơn trên các bài kiểm tra đánh giá về mã hóa và phân tích hình ảnh. Là một dẫn xuất của Gemini Pro, Flash được thiết kế để đạt hiệu quả, nhắm mục tiêu các tác vụ AI tạo sinh hẹp, tần suất cao.
Google nhấn mạnh tính phù hợp của Flash cho các ứng dụng như tóm tắt, ứng dụng trò chuyện, chú thích hình ảnh và video, và trích xuất dữ liệu từ các tài liệu và bảng dài. Trong khi đó, Gemini 2.0 Flash-Lite, một phiên bản nhỏ gọn hơn của Flash, vượt trội hơn Gemini 1.5 Flash về hiệu suất trong khi vẫn duy trì cùng mức giá và tốc độ, theo Google.
Vào tháng 12 năm trước, Google đã giới thiệu một biến thể “suy nghĩ” của Gemini 2.0 Flash, được trang bị khả năng “suy luận”. Mô hình AI này mất vài giây để giải quyết vấn đề ngược lại trước khi đưa ra câu trả lời, có khả năng nâng cao độ tin cậy của nó.
Gemini Nano: Sức mạnh AI trên thiết bị
Gemini Nano là một phiên bản Gemini cực kỳ nhỏ gọn, được thiết kế để hoạt động trực tiếp trên các thiết bị tương thích, loại bỏ nhu cầu gửi tác vụ đến một máy chủ từ xa. Hiện tại, Nano cung cấp sức mạnh cho một số tính năng trên Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 và Samsung Galaxy S24, bao gồm Summarize in Recorder và Smart Reply in Gboard.
Ứng dụng Recorder, cho phép người dùng ghi âm và phiên âm âm thanh, kết hợp tính năng tóm tắt do Gemini cung cấp cho các cuộc trò chuyện, phỏng vấn, thuyết trình và các đoạn âm thanh khác đã ghi. Các bản tóm tắt này được tạo ngay cả khi không có kết nối mạng và vì lợi ích của quyền riêng tư, không có dữ liệu nào rời khỏi thiết bị của người dùng trong quá trình này.
Nano cũng tìm thấy vị trí của mình trong Gboard, bàn phím thay thế của Google, nơi nó cung cấp sức mạnh cho Smart Reply. Tính năng này gợi ý các câu trả lời trong các ứng dụng nhắn tin như WhatsApp, hợp lý hóa các cuộc trò chuyện.
Một phiên bản Android trong tương lai dự kiến sẽ tận dụng Nano để cảnh báo người dùng về các trò lừa đảo tiềm ẩn trong các cuộc gọi điện thoại. Ứng dụng thời tiết mới trên điện thoại Pixel sử dụng Gemini Nano để tạo các báo cáo thời tiết được cá nhân hóa. Ngoài ra, TalkBack, dịch vụ trợ năng của Google, sử dụng Nano để tạo mô tả bằng âm thanh về các đối tượng cho người dùng khiếm thị.
Gemini Ultra: Chờ đợi sự trở lại
Gemini Ultra đã tương đối vắng bóng trong thời gian gần đây. Mô hình này hiện không khả dụng trong các ứng dụng Gemini, cũng như không được liệt kê trên trang giá API Gemini của Google. Tuy nhiên, điều này không loại trừ khả năng Google giới thiệu lại Ultra trong tương lai.
Cấu trúc giá cho các mô hình Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash và 2.0 Flash-Lite có thể truy cập thông qua Gemini API của Google để phát triển các ứng dụng và dịch vụ. Chúng hoạt động trên cơ sở trả tiền theo mức sử dụng. Giá cơ bản, không bao gồm các tiện ích bổ sung, kể từ ngày 22 tháng 2 năm 2025, như sau:
- Gemini 1.5 Pro: 1,25 đô la cho mỗi 1 triệu token đầu vào (đối với câu hỏi lên đến 128K token) hoặc 2,50 đô la cho mỗi 1 triệu token đầu vào (đối với câu hỏi dài hơn 128K token); 5 đô la cho mỗi 1 triệu token đầu ra (đối với câu hỏi lên đến 128K token) hoặc 10 đô la cho mỗi 1 triệu token đầu ra (đối với câu hỏi dài hơn 128K token)
- Gemini 1.5 Flash: 7,5 xu cho mỗi 1 triệu token đầu vào (đối với câu hỏi lên đến 128K token), 15 xu cho mỗi 1 triệu token đầu vào (đối với câu hỏi dài hơn 128K token), 30 xu cho mỗi 1 triệu token đầu ra (đối với câu hỏi lên đến 128K token), 60 xu cho mỗi 1 triệu token đầu ra (đối với câu hỏi dài hơn 128K token)
- Gemini 2.0 Flash: 10 xu cho mỗi 1 triệu token đầu vào, 40 xu cho mỗi 1 triệu token đầu ra. Đối với âm thanh, 70 xu cho mỗi 1 triệu token đầu vào.
- Gemini 2.0 Flash-Lite: 7,5 xu cho mỗi 1 triệu token đầu vào, 30 xu cho mỗi 1 triệu token đầu ra.
Token đại diện cho các đơn vị dữ liệu thô được chia nhỏ, chẳng hạn như các âm tiết “fan”, “tas” và “tic” trong từ “fantastic”. Một triệu token tương đương với khoảng 750.000 từ. “Đầu vào” đề cập đến các token được đưa vào mô hình, trong khi “đầu ra” biểu thị các token được tạo bởi mô hình.
Giá cho 2.0 Pro vẫn chưa được công bố và Nano vẫn đang trong giai đoạn truy cập sớm.
Khả năng Gemini xuất hiện trên iPhone
Khả năng tích hợp Gemini với iPhone là một khả năng rõ ràng.
Apple đã chỉ ra rằng họ đang tham gia vào các cuộc thảo luận để có khả năng sử dụng Gemini và các mô hình bên thứ ba khác cho các tính năng khác nhau trong bộ Apple Intelligence của mình. Sau bài phát biểu tại WWDC 2024, Phó chủ tịch cấp cao của Apple, Craig Federighi, đã xác nhận kế hoạch hợp tác với các mô hình, bao gồm cả Gemini, nhưng không tiết lộ thêm chi tiết cụ thể.