Gemini thay Assistant: 'Hey, Google' hay 'Hey, Gemini'?

Nền tảng công nghệ dưới chân hàng triệu người dùng điện thoại thông minh đang trải qua một cơn địa chấn đáng kể. Google, kiến trúc sư của phần lớn thói quen kỹ thuật số hàng ngày của chúng ta, đang dàn dựng một thay đổi cơ bản trong cách chúng ta tương tác với trí tuệ được kích hoạt bằng giọng nói của mình. Google Assistant quen thuộc và đã phục vụ lâu năm dự kiến sẽ nghỉ hưu, được định sẵn để loại bỏ hoàn toàn trên thiết bị di động vào cuối năm 2025, với các nền tảng khác dự kiến sẽ theo sau. Thay thế vào đó là Gemini, sản phẩm trí tuệ nhân tạo tiên tiến hơn của Google. Quá trình chuyển đổi này đại diện cho nhiều hơn là một bản cập nhật phần mềm đơn giản; đó là một sự thay đổi mô hình cho những người dùng đã đan cài Google Assistant vào cuộc sống của họ, dựa vào nó cho mọi thứ từ đặt hẹn giờ đến trả lời các truy vấn phức tạp. Tuy nhiên, sự phát triển tiềm năng thú vị này hiện đang bị sa lầy trong tình trạng hoang mang khó hiểu, phần lớn xuất phát từ sự thiếu rõ ràng rõ rệt của Google về yếu tố quan trọng khởi tạo tương tác: cụm từ kích hoạt, hay ‘hotword’. Sự mơ hồ xung quanh việc liệu người dùng sẽ tiếp tục nói ‘Hey, Google’ hay áp dụng lệnh mới ‘Hey, Gemini’ đang tạo ra sự xích mích và không chắc chắn không cần thiết trong một giai đoạn đòi hỏi sự thích ứng suôn sẻ.

Để một quá trình chuyển đổi tầm cỡ này thành công, giao tiếp rõ ràng và cách tiếp cận lấy người dùng làm trung tâm là tối quan trọng. Cốt lõi của sự hoang mang hiện tại nằm ở sự lựa chọn đơn giản, nhưng có tác động sâu sắc, về từ ngữ được sử dụng để triệu hồi AI. Một mặt, việc chuyển sang ‘Hey, Gemini’ mang lại một logic không thể phủ nhận. Nó định vị thương hiệu rõ ràng cho dịch vụ mới, không để lại chỗ cho sự nghi ngờ về trí tuệ nào đang được gọi. Điều này phù hợp với các thông lệ phát triển sản phẩm tiêu chuẩn, nơi một tên mới biểu thị một khả năng mới. Nó vẽ một đường ranh giới rõ ràng, báo hiệu sự kết thúc của kỷ nguyên Assistant và bình minh của Gemini. Một động thái như vậy sẽ nhấn mạnh cam kết của Google đối với AI tiên tiến của mình và khuyến khích người dùng tương tác trực tiếp với hệ thống mới, thúc đẩy sự quen thuộc với chính thương hiệu Gemini. Nó đại diện cho một chiến lược hướng tới tương lai, thúc đẩy người dùng hướng tới tương lai dự định của hệ sinh thái AI của Google.

Ngược lại, quán tính của thói quen đưa ra một lập luận thuyết phục cho việc giữ lại lệnh ‘Hey, Google’ đã được thiết lập. Cụm từ này đã là cửa ngõ vào trợ lý giọng nói của Google từ năm 2016, trở nên ăn sâu vào các kiểu hành vi của một lượng lớn người dùng. Đối với những người tương tác với Assistant nhiều lần mỗi ngày, việc huấn luyện lại trí nhớ cơ bắp bằng lời nói này sẽ, tốt nhất là, khó xử và, tệ nhất là, gây gián đoạn một cách khó chịu. Sự quen thuộc của ‘Hey, Google’ mang lại một cầu nối thoải mái trong giai đoạn thay đổi công nghệ đáng kể. Nếu mục tiêu chính của Google là đảm bảo sự gián đoạn ít nhất có thể và duy trì sự tương tác của người dùng trong quá trình chuyển đổi, việc gắn bó với cụm từ đã biết dường như là con đường ít kháng cự nhất. Nó thừa nhận mối quan hệ hiện có của người dùng với các dịch vụ giọng nói của Google và có khả năng giúp họ dễ dàng chuyển sang trải nghiệm Gemini mà không cần thêm gánh nặng nhận thức về việc học một lệnh mới ngay lập tức. Cách tiếp cận này ưu tiên tính liên tục và sự thoải mái của người dùng hơn là việc đổi thương hiệu ngay lập tức.

Thời điểm quan trọng mà Google dường như đang chùn bước là đưa ra lựa chọn dứt khoát và truyền đạt nó một cách hiệu quả. Tình trạng lấp lửng hiện tại, nơi người dùng phải đoán xem một cụm từ sẽ thay thế cụm từ kia hay cả hai sẽ cùng tồn tại, chỉ làm vẩn đục thêm tình hình. Tính nhất quán là chìa khóa trong thiết kế giao diện người dùng và tương tác giọng nói cũng không ngoại lệ. Một hệ thống hai hotword, mặc dù có thể khả thi về mặt kỹ thuật, nhưng lại tiềm ẩn những phức tạp và sự nhầm lẫn cho người dùng. Cụm từ nào kích hoạt chức năng cụ thể nào? Liệu việc nói cụm từ cũ có thể vô tình triệu hồi AI mới, có khả năng phức tạp hơn cho một tác vụ đơn giản không? Google hoàn toàn phải chọn một cụm từ kích hoạt chính, duy nhất cho Gemini và trình bày rõ ràng quyết định này cho người dùng của mình, cung cấp hướng dẫn và hỗ trợ đầy đủ cho sự thay đổi, bất kể nó đi theo hướng nào. Việc tinh giản quy trình giới thiệu Gemini phụ thuộc đáng kể vào việc giải quyết điểm tương tác cơ bản này.

Giải mã sự im lặng của Google về một lựa chọn quan trọng

Sự miễn cưỡng của Google trong việc công khai camkết một chiến lược hotword cụ thể là điều khó hiểu, đặc biệt là với tầm quan trọng của yếu tố này trong trải nghiệm người dùng. Mặc dù cụm từ kích hoạt ‘Hey, Google’ đã phục vụ mục đích của nó trong nhiều năm, nhưng nó không phải là không có những người chỉ trích. Một sự khó chịu phổ biến xoay quanh việc sử dụng ‘Hey’, một từ thường được sử dụng trong cuộc trò chuyện hàng ngày, dẫn đến nhiều trường hợp kích hoạt ngẫu nhiên. Lựa chọn thay thế ‘Ok, Google’, mặc dù cũng hoạt động, nhưng cũng gặp phải các vấn đề tương tự về việc kích hoạt không chủ ý. Tuy nhiên, những phiền toái nhỏ này thường bị lu mờ bởi sức mạnh tuyệt đối của thói quen được hình thành trong gần một thập kỷ. Cụm từ này, bất chấp mọi sai sót, đã trở thành đồng nghĩa với việc truy cập trí tuệ giọng nói của Google.

Do đó, việc phá vỡ hành vi ăn sâu này đòi hỏi sự cân nhắc cẩn thận và quan trọng hơn là giao tiếp minh bạch. Đối với đội quân người dùng tích hợp sâu vào hệ sinh thái Google - điều khiển các thiết bị nhà thông minh, quản lý lịch trình, tìm kiếm thông tin - việc thay đổi lệnh cơ bản không phải là chuyện nhỏ. Điều này đặc biệt đúng đối với những cá nhân có thể không thực sự nhiệt tình với việc chuyển sang một AI phức tạp hơn như Gemini ngay từ đầu. Họ có thể coi sự thay đổi này là sự phiền phức không cần thiết áp đặt lên họ.

Từ góc độ người dùng, việc duy trì ‘Hey, Google’ làm cụm từ kích hoạt cho Gemini dường như là con đường hợp lý và ít gây gián đoạn nhất. Nếu chiến lược của Google liên quan đến việc chạy song song Google Assistant và Gemini, mỗi cái phục vụ các nhu cầu khác nhau (có lẽ Assistant cho các câu trả lời nhanh, thực tế và điều khiển thiết bị, và Gemini cho các tác vụ sáng tạo và các cuộc trò chuyện phức tạp), thì việc sử dụng các hotword riêng biệt sẽ hoàn toàn hợp lý. Nó sẽ cho phép người dùng lựa chọn một cách có ý thức công cụ phù hợp cho nhiệm vụ hiện tại. Tuy nhiên, ý định đã nêu của Google là thay thế hoàn toàn Assistant, chứ không phải bổ sung nó. Với mục tiêu này, ưu tiên nên là tạo điều kiện cho việc di chuyển suôn sẻ nhất có thể cho cơ sở người dùng hiện tại. Việc buộc thay đổi cụm từ kích hoạt sẽ thêm một rào cản không cần thiết vào quá trình này.

Ngược lại, việc áp dụng ‘Hey, Gemini’ sẽ củng cố mạnh mẽ thông điệp rằng Gemini đại diện cho một khởi đầu mới, một thực thể riêng biệt và có năng lực hơn so với người tiền nhiệm của nó. Đó là một động thái táo bạo báo hiệu rõ ràng định hướng chiến lược của Google và thúc đẩy người dùng đón nhận tương lai phát triển AI của mình. Mặc dù cách tiếp cận này đòi hỏi một giai đoạn điều chỉnh và có thể gây khó chịu ban đầu khi người dùng thích nghi, nhưng cuối cùng nó phục vụ các mục tiêu xây dựng thương hiệu dài hạn của Google và có thể đẩy nhanh việc áp dụng và công nhận Gemini là giao diện AI chính. Nó tránh được sự nhầm lẫn tiềm ẩn khi sử dụng một lệnh cũ cho một dịch vụ hoàn toàn mới. Tuy nhiên, sự thành công của chiến lược này phụ thuộc vào việc thực hiện. Google không chỉ phải chọn con đường này mà còn phải quản lý quá trình chuyển đổi một cách chủ động, giáo dục người dùng và đặt ra những kỳ vọng rõ ràng. Yếu tố quan trọng, bất kể lựa chọn cuối cùng là gì, vẫn là tính quyết đoán. Sự mơ hồ hiện tại cho thấy sự do dự, điều này làm suy yếu niềm tin của người dùng. Thật không may, các manh mối kỹ thuật gần đây gợi ý rằng Google có thể đang cân nhắc một con đường phức tạp hơn.

Làm sáng tỏ các manh mối: Khả năng về Hotword kép

Những hiểu biết thu thập được từ các chuỗi mã trong các phiên bản beta gần đây của ứng dụng Google đã đưa ra những cái nhìn thoáng qua hấp dẫn, mặc dù khó hiểu, về tương lai tiềm năng của việc kích hoạt bằng giọng nói. Mặc dù việc giải thích mã thô đòi hỏi sự thận trọng, nhưng các tham chiếu lặp đi lặp lại cho thấy Google đang tích cực khám phá các kịch bản liên quan đến cả hai cụm từ kích hoạt. Các dòng cụ thể đề cập đến lệnh ‘Hey, Google’ kế thừa cùng với các trình giữ chỗ rõ ràng dành cho một hotword mới, được cho là ‘Gemini’.

Một dòng mã đặc biệt tiết lộ cho thấy rằng hệ thống (có lẽ là Gemini) sẽ được cấu hình để lắng nghe ‘Hey Google’, ‘Hey [Hotword mới]’ và thậm chí cả các cụm từ nhanh cho các hành động phổ biến như dừng báo thức hoặc hẹn giờ. Cách giải thích này chỉ ra một kịch bản mà người dùng có thể sử dụng một trong hai cụm từ để gọi Gemini. Bề ngoài, điều này có vẻ như là một nỗ lực để xoa dịu cả những người dùng đã quen với lệnh cũ và những người sẵn sàng đón nhận thương hiệu mới. Nó có thể được xem như một chiến lược chuyển tiếp, cho phép người dùng thích nghi theo tốc độ của riêng họ. Tuy nhiên, cách tiếp cận này đầy rẫy nguy hiểm. Việc thiếu sự phân biệt rõ ràng có thể dẫn đến sự nhầm lẫn đáng kể cho người dùng. Hãy tưởng tượng một người dùng có ý định thực hiện một tác vụ đơn giản mà họ liên kết với Assistant cũ, nói ‘Hey, Google’, chỉ để nhận được phong cách phản hồi đàm thoại hơn, và có khả năng kém trực tiếp hơn của Gemini. Sự không nhất quán này có thể dễ dàng dẫn đến sự thất vọng, đặc biệt đối với những người dùng không theo dõi chặt chẽ các phát triển công nghệ hoặc chưa chuẩn bị đầy đủ cho việc chuyển đổi.

Tuy nhiên, câu chuyện được trình bày bởi mã trở nên phức tạp hơn nữa ở phần sau. Một đoạn mã khác dường như phân biệt các chức năng liên quan đến từng cụm từ, nói điều gì đó tương tự như: bật ‘Hey [Hotword mới]’ để tham gia vào các cuộc trò chuyện với Gemini Live, trong khi sử dụng ‘Hey Google’ vẫn dành cho các hành động nhanh và truy xuất thông tin qua giọng nói. Điều này giới thiệu khả năng phân chia chức năng, trong đó hotword được chọn sẽ xác định loại tương tác hoặc thậm chí có thể là hệ thống cơ bản nào phản hồi. Liệu ‘giọng nói’ trong ngữ cảnh này có thể đề cập đến một phiên bản rút gọn của Gemini, hoặc thậm chí là tàn dư của logic Assistant, được thiết kế chỉ dành cho các tác vụ nhanh chóng, tiện dụng, trong khi trải nghiệm Gemini đầy đủ yêu cầu cụm từ mới?

Sự phân đôi tiềm năng này đặt ra thêm nhiều câu hỏi. Những hạn chế hiện tại của Gemini, đặc biệt là trong việc cung cấp loại câu trả lời nhanh chóng, ngắn gọn và thực hiện các lệnh đơn giản mà Assistant đã xuất sắc, đã được ghi nhận rõ ràng. Mặc dù mạnh mẽ cho các tác vụ phức tạp, đôi khi nó có thể cảm thấy cồng kềnh đối với các yêu cầu cơ bản. Việc giới thiệu hai đường dẫn kích hoạt riêng biệt - một cho cuộc trò chuyện, một cho lệnh - có vẻ như là một cách để cung cấp những gì tốt nhất của cả hai thế giới. Người dùng có thể chọn mô hình tương tác phù hợp nhất với nhu cầu tức thời của họ. Tuy nhiên, việc quản lý hai hệ thống tương tác giọng nói song song trên một thiết bị có nguy cơ tạo ra trải nghiệm người dùng vụng về và không trực quan. Nó làm phức tạp mô hình tinh thần mà người dùng cần để vận hành thiết bị của họ một cách hiệu quả.

Một cách giải thích lạc quan hơn là những tham chiếu mã này đại diện cho một giai đoạn chuyển tiếp, tạm thời. Khi Google di chuyển thiết bị và cơ sở hạ tầng đám mây của người dùng từ Assistant sang Gemini, ban đầu nó có thể hỗ trợ cả hai hotword để tránh việc cắt đứt đột ngột. Hệ thống có thể định tuyến nội bộ các lệnh ‘Hey, Google’ thông qua một lớp tương thích mô phỏng hành vi của Assistant bằng cách sử dụng backend của Gemini, trong khi ‘Hey, Gemini’ truy cập các khả năng gốc, đầy đủ. Cuối cùng, hỗ trợ cho cụm từ cũ hơn có thể bị loại bỏ sau khi quá trình chuyển đổi hoàn tất và người dùng đã có thời gian để thích nghi. Mặc dù hợp lý, điều này vẫn để lại câu hỏi cuối cùng chưa được trả lời: trạng thái ổn định, cuối cùng sẽ là gì? Việc thiếu một lộ trình rõ ràng từ Google về giai đoạn chuyển tiếp này, nếu nó tồn tại, chỉ làm tăng thêm sự không chắc chắn đang επικρατούσα.

Sự cấp thiết của sự rõ ràng trong quá trình chuyển đổi Hotword

Cuối cùng, sự lựa chọn cụ thể giữa ‘Hey, Google’ và ‘Hey, Gemini’ có thể ít quan trọng hơn cách thức mà Google quản lý sự thay đổi. Từ quan điểm cá nhân thuần túy, việc chuyển sang ‘Hey, Gemini’ có một số sức hấp dẫn. Từ ‘Gemini’ ít có khả năng được nói ra trong cuộc trò chuyện thông thường hơn là ‘Google’, có khả năng làm giảm tần suất của những lần kích hoạt ngẫu nhiên khó chịu gây khó khăn cho hệ thống hiện tại. Với bằng chứng và mong muốn có thể của Google trong việc quảng bá thương hiệu AI mới của mình, việc chuyển sang ‘Hey, Gemini’ dường như là kết quả dài hạn có khả năng xảy ra hơn, mặc dù sự chắc chắn vẫn còn khó nắm bắt.

Con đường bất lợi nhất mà Google có thể đi là duy trì hai hotword riêng biệt vô thời hạn, hoặc thực hiện một sự phân chia chức năng được giải thích kém giữa chúng. Điều này chắc chắn sẽ gieo rắc sự nhầm lẫn và thất vọng trong cơ sở người dùng rộng lớn của mình. Gemini, bất chấp những tiến bộ và sự tích hợp vào một số công cụ AI ấn tượng được dự kiến trong tương lai gần, vẫn là một công nghệ đang phát triển. Nó sở hữu những điểm yếu đã biết và các lĩnh vực mà nó chưa sánh được với hiệu quả hợp lý của Assistant sắp ra đi đối với một số tác vụ nhất định. Bản chất đàm thoại của nó đôi khi có thể dài dòng khi cần một câu trả lời đơn giản, và độ tin cậy của nó trong việc thực hiện các lệnh nhà thông minh cơ bản hoặc đặt hẹn giờ nhanh đôi khi có thể chập chờn.

Với những điểm chưa hoàn hảo này, việc đảm bảo trải nghiệm người dùng ban đầu với Gemini tích cực và không có ma sát nhất có thể là rất quan trọng. Người dùng có thể khoan dung hơn với những thiếu sót đôi khi của AI nếu quá trình tương tác với nó đơn giản và trực quan. Một phương pháp kích hoạt khó hiểu hoặc không nhất quán sẽ thêm một lớp ma sát không cần thiết có thể làm người dùng khó chịu với toàn bộ trải nghiệm Gemini trước khi họ có cơ hội đánh giá cao điểm mạnh của nó. Việc thiết lập một hotword duy nhất, rõ ràng và được áp dụng nhất quán được cho là một trong những bước đơn giản nhưng có tác động mạnh mẽ nhất mà Google có thể thực hiện để làm dịu quá trình chuyển đổi này. Nó loại bỏ sự mơ hồ và cung cấp cho người dùng một nền tảng ổn định để xây dựng thói quen tương tác mới của họ. Do đó, câu hỏi còn bỏ ngỏ là tại sao Google lại tỏ ra dè dặt và dường như khó hiểu về việc làm rõ quyết định cơ bản này cho những người dùng phụ thuộc vào dịch vụ của mình mỗi ngày. Một lập trường quyết đoán về hotword không chỉ là một chi tiết kỹ thuật; đó là một khía cạnh quan trọng của chiến lược quản lý và giao tiếp người dùng trong một thời điểm then chốt đối với tham vọng AI của Google.