Gemini trên Chrome: Cái nhìn về tương lai của Google

Việc tích hợp Gemini của Google vào Chrome đánh dấu một bước dường như là sơ bộ hướng tới một kỷ nguyên agentic hơn cho gã khổng lồ công nghệ này. Tính năng mới này nhúng trợ lý AI trực tiếp vào trình duyệt của bạn, cho phép nó "nhìn thấy" hoạt động trực tuyến của bạn và cung cấp các bản tóm tắt và câu trả lời liên quan đến nội dung trên màn hình của bạn.

Một buổi sáng với Gemini trong Chrome

Thử nghiệm của tôi với Gemini trong Chrome, sự tích hợp mới lạ này, đã chiếm trọn buổi sáng của tôi. Thay vì điều hướng đến ứng dụng web chuyên dụng của chatbot, chỉ cần nhấp vào biểu tượng Gemini mới, được đặt thuận tiện ở góc trên bên phải của Chrome, sẽ bắt đầu cuộc trò chuyện. Đặc điểm xác định của sự tích hợp này nằm ở khả năng của trình duyệt "nhìn thấy" nội dung hiển thị trên màn hình của bạn khi bạn điều hướng trên web.

Sự tích hợp này khiến tôi cảm thấy như một bước tiến ban đầu trong tầm nhìn lớn của Google về việc tạo ra một AI agentic hơn. Tôi thường thấy mình khao khát các chức năng vượt xa khả năng hiện tại của nó. Hiện tại, quyền truy cập vào phiên bản truy cập sớm của Gemini trong Chrome bị hạn chế đối với những người đăng ký AI Pro hoặc AI Ultra, sử dụng phiên bản Beta, Dev hoặc Canary của Chrome.

Khám phá ban đầu của tôi bao gồm việc sử dụng Gemini để tóm tắt các bài viết trên The Verge. Nó cũng mở rộng để khám phá các tin tức liên quan đến trò chơi trên trang chủ, nơi AI đã nêu bật một cách thích hợp việc Nintendo bổ sung các trò chơi Game Boy mới vào dịch vụ Switch Online của mình, bộ phim chuyển thể Elden Ring sắp tới và bản cập nhật Steam Deck quan trọng của Valve.

Trường nhìn của Gemini được giới hạn trong những gì được hiển thị trực tiếp trên mỗi trang web. Nếu bạn muốn tóm tắt một thành phần cụ thể trên một trang, chẳng hạn như phần bình luận của The Verge, nó phải được mở rộng trước khi chatbot cung cấp phản hồi. Ngoài ra, Gemini có thể theo dõi bạn qua nhiều tab, nhưng chỉ thu thập thông tin từ một tab tại một thời điểm.

Đối với những người không thích gõ, Gemini trong Chrome cung cấp tính năng "Trực tiếp", có thể truy cập thông qua một nút ở góc dưới bên phải của hộp thoại. Kích hoạt tính năng này cho phép bạn đặt câu hỏi bằng lời nói, với Gemini trả lời bằng âm thanh.

Tôi thấy điều này đặc biệt hữu ích khi xem video trên YouTube. Khi tôi đang xem, ví dụ, một video sửa sang phòng tắm, tôi đã hỏi, "Anh ấy đang sử dụng công cụ gì?" Gemini trả lời: "Có vẻ như anh ấy đang sử dụng súng bắn đinh để cố định một số mảnh gỗ lại với nhau." Trong một video khác, Gemini đã xác định chính xác một tụ điện trên bo mạch chủ, cùng với nhíp và dụng cụ khí nóng mà YouTuber đã sử dụng để tháo nó ra. Nó cũng có khả năng cung cấp các bản tóm tắt về video và thông tin về các phần bạn đã bỏ qua, tuy nhiên, tôi phát hiện ra rằng điều này không phải lúc nào cũng đúng nếu một video không có các chương được gắn nhãn.

Một trong những trường hợp sử dụng nhiều nhất cho sự tích hợp này là Gemini lấy công thức từ video YouTube, có nghĩa là tôi không phải tự viết công thức hoặc tìm kiếm liên kết trong phần mô tả. Nó cũng trở nên hữu ích khi tôi yêu cầu nó chỉ ra những chiếc túi chống nước trên trang tìm kiếm của Amazon.

Sự không nhất quán và hạn chế

Tuy nhiên, hiệu suất của Gemini không phải là không có những điểm không nhất quán. Khi được hỏi về vị trí của MrBeast trong một video giới thiệu chuyến khám phá các thành phố Maya cổ đại của anh ấy, bao gồm Chichén Itzá, AI đã trả lời: "Tôi không có quyền truy cập vào thông tin thời gian thực, vì vậy tôi không thể xác định vị trí chính xác hiện tại của MrBeast." Sau khi diễn đạt lại câu hỏi, nó đã trích dẫn chính xác vị trí được đề cập trong phần mô tả của video: Mexico. Trong một dịp khác, khi tìm kiếm một liên kết để mua kìm cụ thể có trong video, Gemini đã nhắc lại việc thiếu quyền truy cập vào thông tin thời gian thực, bao gồm danh sách sản phẩm hoặc hàng tồn kho của cửa hàng. Mặc dù có hạn chế này, nó đã sẵn sàng cung cấp các liên kết đến các sản phẩm thay thế theo yêu cầu.

Đôi khi, độ dài của các phản hồi của Gemini dường như không cân xứng với không gian hạn chế do cửa sổ bật lên trong Chrome cung cấp. Mặc dù cửa sổ có thể được mở rộng, nhưng nó xâm phạm đáng kể vào không gian màn hình vốn đã hạn chế của MacBook Air 13 inch của tôi. Một điểm thu hút chính của AI nằm ở khả năng đẩy nhanh các tác vụ bằng cách cung cấp các câu trả lời ngắn gọn và phù hợp, một lời hứa mà Gemini không phải lúc nào cũng thực hiện được trừ khi được nhắc nhở rõ ràng. Hơn nữa, những câu hỏi theo dõi lặp đi lặp lại của AI, hỏi liệu tôi có muốn biết thêm thông tin về một chủ đề cụ thể hay không, trở nên hơi mệt mỏi.

Con đường dẫn đến một AI agentic

Bất chấp những thiếu sót này, thật dễ dàng để hình dung Google mở rộng việc sử dụng Gemini vượt ra ngoài những câu hỏi và câu trả lời đơn giản. Google muốn AI của mình trở nên "agentic", có nghĩa là nó có thể thực hiện các tác vụ thay mặt bạn và Gemini trong Chrome dường như sẵn sàng một ngày nào đó áp dụng những loại tính năng này. Sau khi yêu cầu Gemini tóm tắt thực đơn của một nhà hàng, chẳng hạn, tôi thậm chí đã nghĩ đến việc yêu cầu nó đặt hàng mang đi - một nhiệm vụ agentic mà nó chưa thể thực hiện được. Trong tương lai, tôi thậm chí còn thấy nó hữu ích khi yêu cầu nó đánh dấu các trang liên quan đến nghiên cứu du lịch cho tôi, hoặc thậm chí tìm và lưu video YouTube về các công thức nấu ăn khác nhau vào danh sách Xem sau của tôi.

Google dường như đang tiến tới hiện thực hóa tầm nhìn này với "Chế độ đại lý" của Dự án Mariner dự kiến ​​cho ứng dụng Gemini. Tính năng này sẽ cho phép AI xử lý tối đa 10 tác vụ đồng thời và độc lập tìm kiếm trên web, có khả năng mở đường cho việc kết hợp các khả năng này vào Gemini trong Chrome trong tương lai. Điều này sẽ dẫn đến việc Gemini tham gia nhiều hơn vào các tìm kiếm trên web và giúp dễ dàng tổ chức các tác vụ và truy vấn hơn.

Các ứng dụng tiềm năng trong tương lai

Khả năng ứng dụng Gemini trong tương lai trong Chrome là rất lớn và hấp dẫn. Hãy tưởng tượng một kịch bản trong đó AI tích hợp liền mạch với trải nghiệm mua sắm trực tuyến của bạn, chủ động xác định các ưu đãi tốt nhất, so sánh giá giữa các nhà bán lẻ khác nhau và thậm chí hoàn tất giao dịch mua thay mặt bạn, đồng thời tuân thủ các tùy chọn và ngân sách được xác định trước của bạn. Mức độ tích hợp này sẽ biến mua sắm trực tuyến từ một công việc vặt có khả năng tẻ nhạt thành một quy trình hợp lý và hiệu quả.

Hơn nữa, hãy xem xét tiềm năng của Gemini để cách mạng hóa nghiên cứu trực tuyến. Thay vì sàng lọc thủ công vô số bài viết và trang web, bạn có thể chỉ cần giao nhiệm vụ cho Gemini thu thập thông tin về một chủ đề cụ thể, chỉ định độ sâu phân tích mong muốn, các nguồn ưa thích và định dạng bạn muốn thông tin được trình bày. Sau đó, Gemini có thể biên soạn một báo cáo toàn diện, hoàn chỉnh với các trích dẫn và tóm tắt, giúp bạn tiết kiệm vô số giờ nghiên cứu tẻ nhạt.

Trong lĩnh vực năng suất, Gemini có thể trở thành trợ lý cá nhân tối thượng của bạn, quản lý lịch trình của bạn, ưu tiên các nhiệm vụ của bạn và thậm chí soạn thảo email và bài thuyết trình dựa trên hướng dẫn của bạn. Hãy tưởng tượng việc đọc chính tả những suy nghĩ và ý tưởng của bạn cho Gemini, sau đó sẽ biến chúng thành một bản trình bày chuyên nghiệp và trau chuốt, hoàn chỉnh với dữ liệu và hình ảnh trực quan có liên quan. Điều này sẽ giải phóng bạn khỏi nhiệm vụ tốn thời gian là tạo các bài thuyết trình từ đầu, cho phép bạn tập trung vào các khía cạnh chiến lược hơn trong công việc của mình.

Đối với sinh viên, Gemini có thể đóng vai trò là một nguồn học tập vô giá, cung cấp辅导个性 hóa, trả lời câu hỏi và thậm chí hỗ trợ các bài tập nghiên cứu. Chỉ cần tưởng tượng việc có thể yêu cầu Gemini giải thích một khái niệm phức tạp bằng những thuật ngữ đơn giản hoặc cung cấp các ví dụ và hình minh họa để giúp bạn hiểu rõ hơn về tài liệu. Điều này sẽ làm cho việc học trở nên hấp dẫn và hiệu quả hơn, đồng thời trao quyền cho sinh viên kiểm soát nền giáo dục của riêng mình.

Giải quyết các mối quan tâm và thách thức

Tuy nhiên, việc tích hợp AI vào cuộc sống hàng ngày của chúng ta cũng làm dấy lên những lo ngại chính đáng cần được giải quyết chủ động. Một trong những mối quan tâm cấp bách nhất là khả năng thiên vị trong các thuật toán AI. Nếu dữ liệu được sử dụng để đào tạo các thuật toán này phản ánh những thành kiến ​​xã hội hiện có, thì AI có thể duy trì và thậm chí khuếch đại những thành kiến ​​này. Điều quan trọng là phải đảm bảo rằng các thuật toán AI được đào tạo trên các bộ dữ liệu đa dạng và đại diện, đồng thời chúng được kiểm tra thường xuyên để tìm kiếm sự thiên vị.

Một mối quan tâm khác là khả năng mất việc làm do tự động hóa AI gây ra. Khi AI ngày càng có khả năng thực hiện các tác vụ trước đây do con người thực hiện, có nguy cơ nhiều công việc sẽ bị loại bỏ. Để giảm thiểu rủi ro này, điều cần thiết là phải đầu tư vào các chương trình giáo dục và đào tạo trang bị cho người lao động những kỹ năng cần thiết để phát triển trong thời đại AI. Điều này bao gồm việc nuôi dưỡng các kỹ năng như tư duy phản biện, giải quyết vấn đề và sáng tạo, những kỹ năng khó để AI sao chép.

Cuối cùng, có những cân nhắc về đạo đức xung quanh việc sử dụng AI, đặc biệt là trong các lĩnh vực như quyền riêng tư và bảo mật. Điều quan trọng là phải thiết lập các hướng dẫn và quy định rõ ràng chi phối việc phát triển và triển khai AI, đảm bảo rằng nó được sử dụng một cách có trách nhiệm và đạo đức. Điều này bao gồm việc bảo vệ quyền riêng tư của các cá nhân, ngăn chặn việc sử dụng sai mục đích AI cho các mục đích độc hại và đảm bảo rằng các hệ thống AI minh bạch và có trách nhiệm giải trình.

Tương lai của tích hợp AI

Gemini của Google trong Chrome là một bước tiến đầy hứa hẹn hướng tới trải nghiệm duyệt web tích hợp và thông minh hơn. Mặc dù việc triển khai hiện tại có những hạn chế, nhưng nó cung cấp một cái nhìn thoáng qua về tiềm năng của AI để thay đổi cách chúng ta tương tác với web. Khi công nghệ AI tiếp tục phát triển, chúng ta có thể mong đợi sẽ thấy nhiều tích hợp liền mạch và tinh vi hơn của AI vào cuộc sống hàng ngày của mình. Điều quan trọng là phải giải quyết các thách thức về đạo đức và xã hội liên quan đến AI một cách chủ động, đảm bảo rằng nó được sử dụng để mang lại lợi ích cho nhân loại nói chung.

Sự phát triển của tích hợp AI trong các trình duyệt như Chrome cũng đòi hỏi phải đánh giá lại các tiêu chuẩn web và giao thức bảo mật hiện có. Khi AI có được khả năng diễn giải và tương tác sâu hơn với nội dung web, các lỗ hổng mới có thể xuất hiện có thể bị những kẻ độc hại khai thác. Do đó, điều quan trọng là các nhà phát triển trình duyệt và các chuyên gia bảo mật phải hợp tác để phát triển các biện pháp bảo mật mới có thể bảo vệ người dùng khỏi những mối đe dọa mới nổi này. Điều này bao gồm việc tăng cường khả năng phòng thủ chống lại các cuộc tấn công lừa đảo, phần mềm độc hại và các hình thức gian lận trực tuyến khác.

Hơn nữa, việc ngày càng dựa vào AI trong các trình duyệt cũng có thể dẫn đến việc tạo ra các hình thức phân chia kỹ thuật số mới. Các cá nhân thiếu truy cập vào internet tốc độ cao hoặc các thiết bị máy tính tiên tiến có thể gặp bất lợi, vì họ sẽ không thể sử dụng đầy đủ các khả năng của các trình duyệt do AI cung cấp. Để giải quyết vấn đề này, điều cần thiết là phải đầu tư vào các cải tiến cơ sở hạ tầng và các chương trình xóa mù chữ kỹ thuật số có thể đảm bảo rằng mọi người đều có cơ hội hưởng lợi từ những tiến bộ trong công nghệ AI.

Ngoài ra, việc tích hợp AI vào các trình duyệt cũng có thể có tác động đáng kể đến ngành quảng cáo. Khi AI ngày càng hiểu rõ hơn về sở thích và hành vi của người dùng, nó có thể được sử dụng để phân phối quảng cáo được nhắm mục tiêu và cá nhân hóa hơn. Mặc dù điều này có thể dẫn đến trải nghiệm quảng cáo phù hợp và hấp dẫn hơn, nhưng nó cũng làm dấy lên những lo ngại về quyền riêng tư và bảo mật dữ liệu. Điều quan trọng là các nhà quản lý và các bên liên quan trong ngành phải thiết lập các hướng dẫn và quy định rõ ràng chi phối việc sử dụng AI trong quảng cáo, đảm bảo rằng quyền riêng tư của người dùng được bảo vệ và dữ liệu được sử dụng một cách có trách nhiệm.