Sự xuất hiện của chế độ camera của Gemini Live đánh dấu một bước tiến quan trọng trong sự phát triển của trí tuệ nhân tạo, mang một phần hữu hình của tương lai trực tiếp đến trong tầm tay của chúng ta. Trong khi những người dùng đầu tiên với các thiết bị Pixel 9 và Samsung Galaxy S25 đã được tận hưởng tính năng đổi mới này trong một thời gian, thông báo gần đây của Google tại hội nghị I/O của họ mở rộng quyền truy cập đến một đối tượng rộng hơn nhiều, bao gồm cả người dùng Android và iOS. Sự phát triển này đặc biệt thú vị đối với chủ sở hữu iPhone, những người hiện có thể trải nghiệm một trong những chức năng AI hấp dẫn nhất hiện có, đặc biệt là xem xét rằng chế độ camera ban đầu đã được triển khai cho những người dùng Android khác vào tháng Tư.
Khám Phá Sức Mạnh Thị Giác: Cách Chế Độ Camera Của Gemini Hoạt Động
Về cốt lõi, chế độ camera của Gemini Live cấp cho AI khả năng “nhìn thấy”, cho phép nó nhận diện và xác định các đối tượng được đặt trong trường nhìn của camera. Đây không chỉ là một mánh lới quảng cáo hời hợt; đó là một công cụ mạnh mẽ cho phép người dùng tương tác với môi trường xung quanh của họ một cách trực quan và giàu thông tin hơn.
Ngoài việc nhận diện đối tượng đơn giản, Gemini còn có thể trả lời các câu hỏi về các mục đã xác định, cung cấp ngữ cảnh và thông tin chi tiết theo yêu cầu. Hơn nữa, người dùng có thể chia sẻ màn hình của họ với Gemini, cho phép AI phân tích và xác định các yếu tố được hiển thị trên màn hình điện thoại của họ. Để bắt đầu một phiên trực tiếp với chế độ camera, người dùng chỉ cần bật chế độ xem camera trực tiếp, cho phép họ tham gia vào một cuộc trò chuyện với chatbot về bất cứ điều gì camera ghi lại.
Ấn Tượng Đầu Tiên: Lái Thử Với Gemini Live
Trong giai đoạn thử nghiệm ban đầu của tôi với Gemini Live trên Pixel 9 Pro XL, tôi đã vô cùng ấn tượng bởi khả năng của nó. Một trải nghiệm đặc biệt đáng nhớ liên quan đến việc yêu cầu Gemini định vị chiếc kéo thất lạc của tôi.
AI đã trả lời với độ chính xác đáng kể: “Tôi vừa phát hiện ra chiếc kéo của bạn trên bàn, ngay bên cạnh gói hồ trăn màu xanh lá cây. Bạn có thấy chúng không?”
Tôi rất ngạc nhiên, Gemini đã đúng. Chiếc kéo nằm chính xác ở nơi nó chỉ ra, mặc dù thực tế là tôi chỉ lướt nhanh camera trước mặt chúng trong một phiên trực tiếp kéo dài 15 phút, nơi tôi về cơ bản đang cho chatbot AI tham quan căn hộ của mình.
Bị hấp dẫn bởi thành công ban đầu này, tôi háo hức khám phá thêm chế độ camera. Trong một thử nghiệm khác, mở rộng hơn, tôi đã kích hoạt tính năng này và bắt đầu đi bộ quanh căn hộ của mình, nhắc Gemini xác định các đối tượng mà nó nhìn thấy. Nó đã nhận ra chính xác nhiều vật phẩm khác nhau, bao gồm trái cây, ChapStick và các đồ vật hàng ngày khác. Tuy nhiên, việc khám phá lại chiếc kéo của tôi vẫn là minh chứng nổi bật nhất về khả năng của nó.
Thực tế là Gemini đã xác định được chiếc kéo mà không cần bất kỳ lời nhắc trước nào là đặc biệt ấn tượng. AI đã lặng lẽ nhận ra chúng tại một thời điểm nào đó trong suốt phiên và nhớ lại chính xác vị trí của chúng với độ chính xác đáng kể. Trải nghiệm này thực sự giống như một cái nhìn thoáng qua về tương lai, thúc đẩy tôi tiến hành điều tra thêm về tiềm năng của nó.
Lấy Cảm Hứng: Tầm Nhìn Của Google Về AI Video Trực Tiếp
Thử nghiệm của tôi với tính năng camera của Gemini Live phản ánh bản demo do Google giới thiệu vào mùa hè năm ngoái, bản demo này đã đưa ra cái nhìn đầu tiên về các khả năng AI video trực tiếp này. Bản demo có Gemini nhắc nhở người dùng nơi họ đã để kính của mình, một kỳ tích dường như quá tốt để trở thành sự thật. Tuy nhiên, như tôi đã phát hiện ra, mức độ chính xác này thực sự có thể đạt được.
Gemini Live có khả năng nhận ra nhiều thứ hơn là chỉ các vật dụng gia đình. Google tuyên bố rằng nó có thể hỗ trợ người dùng điều hướng các ga tàu đông đúc hoặc xác định các loại nhân trong bánh ngọt. Nó cũng có thể cung cấp thông tin chi tiết sâu sắc hơn về các tác phẩm nghệ thuật, chẳng hạn như nguồn gốc của nó và liệu nó có phải là một tác phẩm phiên bản giới hạn hay không.
Chức năng này vượt xa chức năng của Google Lens thông thường. Bạn có thể trò chuyện với AI, điều này mang tính trò chuyện hơn nhiều so với Google Assistant.
Google cũng đã phát hành một video trên YouTube trình bày tính năng này và hiện nó có trang riêng trên Google Store.
Để bắt đầu, hãy khởi động Gemini, bật camera và bắt đầu nói chuyện.
Gemini Live xây dựng dựa trên Project Astra của Google, ban đầu được trình bày vào năm ngoái và có lẽ là tính năng “chúng ta đang ở trong tương lai” lớn nhất của công ty, một bước tiếp theo thử nghiệm cho các khả năng AI tạo sinh, vượt ra ngoài việc chỉ nhập hoặc thậm chí nói các lời nhắc vào một chatbot như ChatGPT, Claude hoặc Gemini.
Các công ty AI liên tục cải thiện khả năng của các công cụ AI, từ tạo video đến sức mạnh xử lý cơ bản. Visual Intelligence của Apple, mà nhà sản xuất iPhone đã phát hành ở phiên bản beta vào năm ngoái, có thể so sánh với Gemini Live.
Gemini Live có tiềm năng cách mạng hóa cách chúng ta kết nối với môi trường bằng cách hợp nhất môi trường kỹ thuật số và vật lý của chúng ta khi chúng ta chỉ cần giữ camera trước bất cứ thứ gì.
Đưa Gemini Live Vào Thử Nghiệm: Các Tình Huống Trong Thế Giới Thực
Lần đầu tiên tôi sử dụng nó, Gemini đã nhận ra chính xác một bộ sưu tập trò chơi rất cụ thể về một con thỏ nhồi bông trong tầm nhìn của camera của tôi. Lần thứ hai, tôi cho một người bạn xem nó trong một phòng trưng bày nghệ thuật. Nó ngay lập tức nhận ra con rùa trên thánh giá (đừng hỏi tôi) và xác định và dịch các chữ kanji ngay bên cạnh nó, khiến cả hai chúng tôi ớn lạnh và hơi rùng mình. Theo một cách tích cực, tôi tin vậy.
Tôi bắt đầu xem xét cách tôi có thể kiểm tra căng thẳng chức năng. Khi tôi cố gắng quay màn hình nó đang hoạt động, nó liên tục không thành công. Điều gì sẽ xảy ra nếu tôi đi chệch khỏi con đường thông thường? Tôi là một người hâm mộ lớn của thể loại kinh dị (phim, loạt phim truyền hình và trò chơi điện tử) và sở hữu rất nhiều bộ sưu tập, đồ trang sức và các vật phẩm khác. Nó sẽ hoạt động tốt như thế nào với những vật phẩm khó hiểu hơn, chẳng hạn như bộ sưu tập theo chủ đề kinh dị của tôi?
Đầu tiên, tôi phải nói rằng Gemini có thể vừa đáng kinh ngạc một cách khó tin vừa gây khó chịu một cách đáng kinh ngạc trong cùng một vòng câu hỏi. Tôi có khoảng 11 đối tượng mà tôi muốn Gemini xác định và phiên trực tiếp càng kéo dài thì nó càng trở nên tồi tệ hơn, vì vậy tôi phải giới hạn phiên chỉ còn một hoặc hai đối tượng. Theo ý kiến của tôi, Gemini đã cố gắng sử dụng thông tin theo ngữ cảnh từ các vật phẩm đã được nhận dạng trước đó để đoán các vật phẩm mới, điều này có ý nghĩa ở một mức độ nào đó, nhưng cuối cùng không mang lại lợi ích gì cho tôi cũng như nó.
Đôi khi, Gemini khá chính xác, đưa ra câu trả lời đúng một cách dễ dàng và không gây nhầm lẫn, mặc dù điều này xảy ra thường xuyên hơn với những đối tượng gần đây hoặc phổ biến hơn. Tôi đã ngạc nhiên, ví dụ, khi nó ngay lập tức suy luận rằng một trong những đối tượng thử nghiệm của tôi không chỉ đến từ Destiny 2 mà còn là một phiên bản giới hạn từ một sự kiện theo mùa từ năm trước.
Gemini thường hoàn toàn đi chệch hướng, đòi hỏi tôi phải cung cấp thêm gợi ý để đến gần câu trả lời đúng. Đôi khi, có vẻ như Gemini đang sử dụng ngữ cảnh từ các phiên trực tiếp trước đây của tôi để tạo ra các phản hồi, xác định nhiều đối tượng là đến từ Silent Hill khi chúng không phải như vậy. Tôi có một tủ trưng bày dành riêng cho loạt trò chơi, vì vậy tôi có thể hiểu tại sao nó muốn nhanh chóng tham gia vào lĩnh vực đó.
Tiết Lộ Những Khiếm Khuyết: Lỗi Và Điểm Kỳ Quặc Trong Hệ Thống
Gemini đôi khi có thể bị lỗi hoàn toàn. Đôi khi, Gemini xác định sai một trong các đối tượng là một nhân vật hư cấu từ trò chơi Silent Hill: f chưa phát hành, rõ ràng là kết hợp các phần của các tựa game khác nhau thành một thứ chưa từng tồn tại. Khi Gemini đưa ra câu trả lời không chính xác, và tôi đã sửa nó và đưa ra một gợi ý gần hơn về câu trả lời—hoặc chỉ đơn giản là đưa ra câu trả lời—chỉ để nó lặp lại câu trả lời không chính xác như thể đó là một phỏng đoán mới, đó là lỗi nhất quán khác mà tôi gặp phải. Khi điều đó xảy ra, tôi sẽ đóng phiên và bắt đầu một phiên mới, điều này không phải lúc nào cũng hữu ích.
Một kỹ thuật tôi phát hiện ra là một số cuộc thảo luận hiệu quả hơn những cuộc thảo luận khác. Nếu tôi xem qua danh sách cuộc trò chuyện Gemini của mình, nhấn vào một cuộc trò chuyện cũ đã nhận đúng một mục cụ thể và sau đó phát trực tiếp lại từ cuộc trò chuyện đó, thì nó sẽ có thể xác định các mục mà không gặp bất kỳ vấn đề gì. Mặc dù điều này không phải lúc nào cũng bất ngờ, nhưng thật thú vị khi lưu ý rằng một số cuộc đối thoại hoạt động tốt hơn những cuộc đối thoại khác, ngay cả khi sử dụng cùng một ngôn ngữ.
Google đã không trả lời các câu hỏi của tôi để biết thêm thông tin về cách Gemini Live hoạt động.
Tôi muốn Gemini trả lời thành công những câu hỏi đầy thách thức, đôi khi rất cụ thể của mình, vì vậy tôi đã đưa ra rất nhiều gợi ý để giúp nó làm như vậy. Những cú huých đã tỏ ra hữu ích, nhưng không phải lúc nào cũng vậy.
Một Công Nghệ Biến Đổi: Tác Động Tiềm Năng Của Gemini Live
Gemini Live thể hiện một sự thay đổi mô hình trong cách chúng ta tương tác với môi trường xung quanh, kết hợp liền mạch giữa thế giới kỹ thuật số và vật lý thông qua ống kính máy ảnh của chúng ta. Mặc dù công nghệ này vẫn còn ở giai đoạn sơ khai, nhưng các ứng dụng tiềm năng của nó rất rộng lớn và mang tính chuyển đổi.
Hãy tưởng tượng việc sử dụng Gemini Live để:
- Điều hướng môi trường xa lạ: Chỉ cần hướng camera của bạn vào các biển báo đường phố hoặc địa danh, và Gemini sẽ cung cấp hướng dẫn và thông tin theo thời gian thực.
- Tìm hiểu về các hiện vật lịch sử: Khi tham quan bảo tàng, hãy sử dụng Gemini để xác định và cung cấp ngữ cảnh cho các tác phẩm nghệ thuật và đồ vật lịch sử.
- Nấu các công thức phức tạp: Yêu cầu Gemini hướng dẫn bạn qua từng bước của công thức, xác định các thành phần và đề xuất các kỹ thuật thay thế.
- Chẩn đoán các sự cố gia đình đơn giản: Hướng camera của bạn vào một thiết bị bị trục trặc, và Gemini sẽ cung cấp các mẹo khắc phục sự cố và các giải pháp tiềm năng.
Đây chỉ là một vài ví dụ về vô số cách mà Gemini Live có thể nâng cao cuộc sống hàng ngày của chúng ta. Khi công nghệ tiếp tục phát triển và cải thiện, tiềm năng cách mạng hóa cách chúng ta tương tác với thế giới xung quanh là thực sự vô hạn.
Việc tích hợp Gemini Live vào các thiết bị iOS tiếp tục mở rộng phạm vi và khả năng tiếp cận của nó, mang sức mạnh của tầm nhìn do AI cung cấp đến một đối tượng rộng hơn. Khi công nghệ AI tiếp tục tiến bộ với tốc độ theo cấp số nhân, các tính năng như Gemini Live cung cấp một cái nhìn thoáng qua về một tương lai nơi các thiết bị của chúng ta không chỉ là công cụ để liên lạc và giải trí mà còn là những người bạn đồng hành thông minh có thể giúp chúng ta điều hướng, hiểu và tương tác với thế giới xung quanh chúng ta theo những cách mới và có ý nghĩa.