Tốc độ đổi mới không ngừng của trí tuệ nhân tạo (AI) tiếp tục định hình lại bối cảnh công nghệ, đặc biệt là trong lĩnh vực cạnh tranh khốc liệt về khả năng của điện thoại thông minh. Trong một động thái nhấn mạnh sự năng động này, Google đã bắt đầu trang bị cho trợ lý AI của mình, Gemini, các tính năng diễn giải hình ảnh tinh vi trên một số thiết bị Android nhất định. Sự phát triển này diễn ra ngay sau khi Apple công bố bộ AI đầy tham vọng của riêng mình, được đặt tên là ‘Apple Intelligence’, một phần trong số đó đang đối mặt với sự chậm trễ ra mắt, cho thấy Google có thể đang giành được lợi thế sớm trong việc triển khai AI thế hệ tiếp theo, nhận biết ngữ cảnh trực tiếp đến tay người dùng.
Gemini Học Cách Nhìn và Chia Sẻ: Xem Xét Kỹ Hơn Các Khả Năng Mới
Google đã xác nhận việc bắt đầu triển khai các chức năng nâng cao của Gemini, đặc biệt là tích hợp đầu vào camera và khả năng chia sẻ màn hình. Các tính năng tiên tiến này ban đầu có thể truy cập được đối với những người đăng ký Gemini Advanced và gói Google One AI Premium, định vị chúng như những dịch vụ cao cấp trong hệ sinh thái của Google. Sự đổi mới cốt lõi nằm ở việc trao quyền cho Gemini xử lý và hiểu thông tin hình ảnh trong thời gian thực, từ màn hình của thiết bị hoặc qua ống kính camera của nó.
Hãy tưởng tượng bạn hướng camera điện thoại vào một vật thể trong thế giới thực – có thể là một phần cứng lạ, một loại cây bạn muốn xác định, hoặc các chi tiết kiến trúc trên một tòa nhà. Với bản cập nhật mới, Gemini đặt mục tiêu vượt xa việc nhận dạng đơn giản, một nhiệm vụ đã được các công cụ như Google Lens xử lý một cách thành thạo. Mục tiêu là cho phép tương tác đàm thoại dựa trên những gì AI ‘nhìn thấy’. Tài liệu quảng cáo của chính Google minh họa tiềm năng này với một kịch bản trong đó người dùng đang mua gạch lát phòng tắm. Gemini, truy cập nguồn cấp dữ liệu camera trực tiếp, có thể thảo luận về bảng màu, đề xuất các kiểu bổ sung, hoặc thậm chí so sánh các mẫu hoa văn, cung cấp hướng dẫn tương tác dựa trên ngữ cảnh hình ảnh. Mô hình tương tác này vượt xa đáng kể so với phân tích hình ảnh tĩnh để hướng tới một vai trò giống trợ lý, năng động hơn.
Tương tự, tính năng chia sẻ màn hình hứa hẹn một lớp hỗ trợ theo ngữ cảnh mới. Người dùng có thể ‘cho’ Gemini xem những gì hiện đang hiển thị trên màn hình điện thoại của họ một cách hiệu quả. Điều này có thể bao gồm từ việc tìm kiếm trợ giúp điều hướng giao diện ứng dụng phức tạp, nhận lời khuyên về việc soạn thảo email hiển thị trên màn hình, đến khắc phục sự cố kỹ thuật bằng cách cho phép Gemini đánh giá tình hình bằng hình ảnh. Thay vì chỉ dựa vào mô tả bằng lời nói, người dùng có thể cung cấp đầu vào hình ảnh trực tiếp, có khả năng dẫn đến sự hỗ trợ chính xác và hiệu quả hơn từ AI. Nó biến AI từ một người nhận thụ động các lệnh văn bản hoặc giọng nói thành một người quan sát tích cực môi trường kỹ thuật số của người dùng.
Những khả năng này tận dụng sức mạnh của AI đa phương thức (multimodal AI), được thiết kế để xử lý và hiểu thông tin từ nhiều loại đầu vào đồng thời – trong trường hợp này là văn bản, giọng nói và quan trọng là thị giác. Việc đưa công nghệ phức tạp này trực tiếp vào trải nghiệm điện thoại thông minh thể hiện một bước tiến đáng kể, nhằm mục đích làm cho trợ lý AI trở nên trực quan hơn và tích hợp sâu hơn vào các tác vụ hàng ngày. Các ứng dụng tiềm năng là rất lớn, có lẽ chỉ bị giới hạn bởi sự hiểu biết ngày càng phát triển của AI và trí tưởng tượng của người dùng. Từ hỗ trợ giáo dục, nơi Gemini có thể giúp phân tích sơ đồ trên màn hình, đến các cải tiến về khả năng truy cập, khả năng AI ‘nhìn thấy’ và phản ứng mở ra vô số khả năng.
Điều Hướng Việc Ra Mắt Dần Dần: Ai Được Truy Cập và Khi Nào?
Mặc dù Google đã chính thức xác nhận rằng việc triển khai đang được tiến hành, việc truy cập các tính năng tiên tiến này vẫn chưa phải là trải nghiệm phổ biến, ngay cả đối với những người đăng ký trả phí đủ điều kiện. Báo cáo từ những người dùng đã kích hoạt thành công chức năng camera và chia sẻ màn hình vẫn còn lẻ tẻ, vẽ nên một bức tranh về việc triển khai được quản lý cẩn thận, theo từng giai đoạn thay vì ra mắt quy mô lớn, đồng thời. Cách tiếp cận có đo lường này là phổ biến trong ngành công nghệ, đặc biệt đối với các bản cập nhật tính năng quan trọng liên quan đến các mô hình AI phức tạp.
Điều thú vị là, một số xác nhận sớm nhất về việc các tính năng đang hoạt động không chỉ đến từ người dùng các thiết bị Pixel của chính Google, mà còn từ những cá nhân sử dụng phần cứng từ các nhà sản xuất khác, chẳng hạn như Xiaomi. Điều này cho thấy việc triển khai ban đầu không bị giới hạn nghiêm ngặt bởi thương hiệu thiết bị, mặc dù tính khả dụng và tối ưu hóa lâu dài có thể khác nhau trong hệ sinh thái Android. Thực tế là ngay cả những người trả tiền rõ ràng cho các cấp AI cao cấp cũng đang trải qua thời gian truy cập khác nhau làm nổi bật sự phức tạp liên quan đến việc phân phối các bản cập nhật như vậy trên các cấu hình phần cứng và phần mềm đa dạng trên toàn cầu.
Một số yếu tố có khả năng góp phần vào chiến lược phát hành dần dần này. Thứ nhất, nó cho phép Google theo dõi tải máy chủ và các tác động hiệu suất trong thời gian thực. Việc xử lý nguồn cấp dữ liệu video trực tiếp và nội dung màn hình thông qua các mô hình AI tinh vi đòi hỏi nhiều tài nguyên tính toán và yêu cầu cơ sở hạ tầng phụ trợ đáng kể. Việc triển khai theo từng giai đoạn giúp ngăn ngừa quá tải hệ thống và đảm bảo trải nghiệm mượt mà hơn cho những người dùng đầu tiên. Thứ hai, nó cung cấp cơ hội cho Google thu thập dữ liệu sử dụng thực tế quan trọng và phản hồi của người dùng từ một nhóm nhỏ hơn, được kiểm soát trước khi cung cấp rộng rãi các tính năng. Vòng phản hồi này là vô giá để xác định lỗi, tinh chỉnh giao diện người dùng và cải thiện hiệu suất của AI dựa trên các mẫu tương tác thực tế. Cuối cùng, tính khả dụng theo khu vực, hỗ trợ ngôn ngữ và các cân nhắc về quy định cũng có thể ảnh hưởng đến lịch trình triển khai ở các thị trường khác nhau.
Mặc dù việc truy cập ban đầu có thể cảm thấy chậm đối với những người dùng háo hức, nó phản ánh một cách tiếp cận thực dụng để triển khai công nghệ mới mạnh mẽ. Người dùng tiềm năng, đặc biệt là những người sử dụng thiết bị Pixel hoặc Samsung Galaxy cao cấp, nên theo dõi ứng dụng Gemini của họ để cập nhật trong những tuần tới, hiểu rằng có thể cần kiên nhẫn trước khi các tính năng hình ảnh được kích hoạt trên thiết bị cụ thể của họ. Lịch trình chính xác và danh sách đầy đủ các thiết bị được hỗ trợ ban đầu vẫn chưa được Google chỉ định, tạo thêm yếu tố mong đợi cho quá trình này.
Góc Nhìn Từ Apple: Visual Intelligence và Lịch Trình Theo Giai Đoạn
Bối cảnh mà Google đang triển khai các cải tiến hình ảnh của Gemini chắc chắn là sự kiện ra mắt gần đây của Apple Intelligence tại Hội nghị các nhà phát triển toàn cầu (WWDC) của công ty. Bộ tính năng AI toàn diện của Apple hứa hẹn tích hợp sâu trên iOS, iPadOS và macOS, nhấn mạnh vào xử lý trên thiết bị để đảm bảo quyền riêng tư và tốc độ, với khả năng chuyển tải lên đám mây liền mạch cho các tác vụ phức tạp hơn thông qua ‘Private Cloud Compute’. Một thành phần quan trọng của bộ này là ‘Visual Intelligence’, được thiết kế để hiểu và hành động dựa trên nội dung trong ảnh và video.
Tuy nhiên, cách tiếp cận của Apple dường như khác biệt so với việc triển khai Gemini hiện tại của Google, cả về khả năng và chiến lược triển khai. Mặc dù Visual Intelligence sẽ cho phép người dùng xác định các đối tượng và văn bản trong hình ảnh và có khả năng thực hiện các hành động dựa trên thông tin đó (như gọi một số điện thoại được chụp trong ảnh), các mô tả ban đầu cho thấy một hệ thống ít tập trung hơn vào tương tác đàm thoại, thời gian thực dựa trên nguồn cấp dữ liệu camera trực tiếp hoặc nội dung màn hình, tương tự như những gì Gemini hiện đang cung cấp. Trọng tâm của Apple dường như hướng nhiều hơn vào việc tận dụng thư viện ảnh hiện có của người dùng và nội dung trên thiết bị thay vì hoạt động như một trợ lý hình ảnh trực tiếp cho thế giới bên ngoài hoặc ngữ cảnh màn hình hiện tại theo cách tương tác tương tự.
Hơn nữa, chính Apple đã thừa nhận rằng không phải tất cả các tính năng Apple Intelligence đã công bố sẽ có sẵn tại lần ra mắt ban đầu vào mùa thu này. Một số khả năng tham vọng hơn được dự kiến phát hành sau đó, có khả năng kéo dài sang năm 2025. Mặc dù chi tiết cụ thể về các yếu tố hình ảnh nào có thể bị trì hoãn chưa hoàn toàn rõ ràng, việc triển khai theo giai đoạn này trái ngược với việc Google tung ra các tính năng hình ảnh tiên tiến của mình ngay bây giờ, mặc dù cho một nhóm chọn lọc. Sự khác biệt về thời gian này đã làm dấy lên suy đoán về sự sẵn sàng tương đối và các ưu tiên chiến lược của hai gã khổng lồ công nghệ. Các báo cáo về những thay đổi nhân sự cấp cao trong các bộ phận Siri và AI của Apple càng củng cố thêm câu chuyện về những điều chỉnh nội bộ tiềm năng khi công ty điều hướng sự phức tạp của việc triển khai tầm nhìn AI của mình.
Cách tiếp cận thận trọng truyền thống của Apple, nhấn mạnh mạnh mẽ vào quyền riêng tư của người dùng và tích hợp hệ sinh thái chặt chẽ, thường dẫn đến chu kỳ phát triển dài hơn so với các đối thủ cạnh tranh có thể ưu tiên lặp lại nhanh hơn và các giải pháp dựa trên đám mây. Việc phụ thuộc vào xử lý mạnh mẽ trên thiết bị cho nhiều tính năng Apple Intelligence cũng đặt ra những thách thức kỹ thuật đáng kể, đòi hỏi các mô hình được tối ưu hóa cao và phần cứng có khả năng (ban đầu giới hạn ở các thiết bị có chip A17 Pro và chip dòng M). Mặc dù chiến lược này mang lại lợi ích về quyền riêng tư hấp dẫn, nó có thể vốn dĩ dẫn đến việc giới thiệu chậm hơn các tính năng AI tiên tiến nhất, đòi hỏi nhiều tài nguyên tính toán so với cách tiếp cận tập trung vào đám mây nhiều hơn của Google với Gemini Advanced. Cuộc đua không chỉ về khả năng, mà còn về con đường được chọn để triển khai và những khác biệt triết học cơ bản liên quan đến xử lý dữ liệu và quyền riêng tư của người dùng.
Từ Trình Diễn Phòng Lab Đến Thực Tế Trong Túi: Hành Trình Của AI Thị Giác
Việc đưa khả năng hiểu biết hình ảnh vào các trợ lý AI chính thống như Gemini không phải là một hiện tượng xảy ra trong một sớm một chiều. Nó đại diện cho đỉnh cao của nhiều năm nghiên cứu và phát triển trong lĩnh vực thị giác máy tính và AI đa phương thức. Đối với Google, mầm mống của những khả năng này đã hiển hiện trong các dự án và trình diễn công nghệ trước đó. Đáng chú ý, ‘Project Astra’, được giới thiệu trong một hội nghị nhà phát triển Google I/O trước đây, đã cung cấp một cái nhìn hấp dẫn về tương lai của AI tương tác.
Project Astra đã trình diễn một trợ lý AI có khả năng nhận thức môi trường xung quanh thông qua camera, ghi nhớ vị trí của các đối tượng và tham gia vào cuộc trò chuyện bằng giọng nói về môi trường hình ảnh trong thời gian thực. Mặc dù được trình bày như một khái niệm hướng tới tương lai, các công nghệ cốt lõi – hiểu nguồn cấp dữ liệu video trực tiếp, xác định đối tượng theo ngữ cảnh và tích hợp dữ liệu hình ảnh đó vào một khung AI đàm thoại – chính là nền tảng cho các tính năng mới đang được triển khai cho Gemini. Hồi tưởng của tác giả về việc chứng kiến Astra nhấn mạnh rằng mặc dù bản demo có thể không có vẻ mang tính cách mạng ngay lập tức vào thời điểm đó, khả năng của Google trong việc chuyển đổi công nghệ phức tạp đó thành một tính năng hướng tới người dùng trong một khung thời gian tương đối ngắn là đáng chú ý.
Hành trình này từ một bản demo công nghệ được kiểm soát đến một tính năng đang được triển khai (dù là dần dần) trên điện thoại thông minh của người tiêu dùng nhấn mạnh sự trưởng thành nhanh chóng của các mô hình AI đa phương thức. Việc phát triển AI có thể kết hợp liền mạch đầu vào hình ảnh với hiểu biết ngôn ngữ đòi hỏi phải vượt qua những rào cản kỹ thuật đáng kể. AI không chỉ phải xác định chính xác các đối tượng mà còn phải hiểu mối quan hệ, ngữ cảnh và sự liên quan của chúng đối với truy vấn của người dùng hoặc cuộc trò chuyện đang diễn ra. Việc xử lý thông tin này gần như trong thời gian thực, đặc biệt là từ một luồng video trực tiếp, đòi hỏi sức mạnh tính toán đáng kể và các thuật toán được tối ưu hóa cao.
Sự đầu tư lâu dài của Google vào nghiên cứu AI, thể hiện rõ trong các sản phẩm như Google Search, Google Photos (với khả năng nhận dạng đối tượng) và Google Lens, đã cung cấp một nền tảng vững chắc. Gemini đại diện cho sự tích hợp và phát triển của những khả năng riêng biệt này thành một AI đàm thoại thống nhất và mạnh mẽ hơn. Việc đưa khả năng ‘nhìn’ trực tiếp vào giao diện chính của Gemini, thay vì giữ nó giới hạn trong một ứng dụng riêng biệt như Lens, báo hiệu ý định của Google là biến khả năng hiểu biết hình ảnh thành một phần cốt lõi trong bản sắc của trợ lý AI của mình. Nó phản ánh một đặt cược chiến lược rằng người dùng sẽ ngày càng mong đợi những người bạn đồng hành AI của họ nhận thức và tương tác với thế giới giống như con người – thông qua nhiều giác quan. Quá trình chuyển đổi từ lời hứa khái niệm của Project Astra sang các tính năng hữu hình của Gemini đánh dấu một cột mốc quan trọng trong quá trình tiến hóa này.
Bài Kiểm Tra Quan Trọng: Tính Hữu Dụng Thực Tế và Đề Xuất AI Cao Cấp
Cuối cùng, sự thành công của các khả năng hình ảnh mới của Gemini – và thực sự, của bất kỳ tính năng AI tiên tiến nào – phụ thuộc vào một yếu tố đơn giản nhưng quan trọng: tính hữu dụng trong thế giới thực. Liệu người dùng có thấy những tính năng này thực sự hữu ích, hấp dẫn hoặc đủ giải trí để tích hợp chúng vào thói quen hàng ngày của họ không? Sự mới lạ của một AI có thể ‘nhìn thấy’ ban đầu có thể thu hút sự chú ý, nhưng việc sử dụng bền vững phụ thuộc vào việc nó có giải quyết được các vấn đề thực tế hoặc mang lại lợi ích hữu hình hiệu quả hơn các phương pháp hiện có hay không.
Quyết định của Google về việc gộp các tính năng này vào các gói đăng ký cao cấp (Gemini Advanced / Google One AI Premium) tạo thêm một lớp thách thức cho việc áp dụng. Người dùng phải nhận thấy đủ giá trị trong các tính năng hình ảnh tiên tiến này và các tính năng AI cao cấp khác để biện minh cho chi phí định kỳ. Điều này trái ngược với các tính năng cuối cùng có thể trở thành tiêu chuẩn hoặc được cung cấp như một phần của trải nghiệm hệ điều hành cơ bản, như mô hình thường thấy của Apple. Rào cản đăng ký có nghĩa là khả năng thị giác của Gemini phải chứng tỏ vượt trội hơn các lựa chọn thay thế miễn phí hoặc cung cấp các chức năng độc đáo không có ở nơi khác. Liệu lời khuyên mua gạch của Gemini có thực sự hữu ích hơn một nhân viên cửa hàng hiểu biết hoặc một tìm kiếm hình ảnh nhanh chóng không? Liệu việc khắc phục sự cố qua chia sẻ màn hình có tốt hơn đáng kể so với các công cụ hỗ trợ từ xa hiện có hoặc chỉ đơn giản là mô tả vấn đề không?
Chứng minh tính hữu dụng này là tối quan trọng. Nếu người dùng thấy các tương tác hình ảnh vụng về, không chính xác hoặc đơn giản là không đủ hấp dẫn so với giá tiền, việc áp dụng có thể sẽ chỉ giới hạn ở những người đam mê công nghệ và những người dùng đầu tiên. Tuy nhiên, nếu Google chứng minh thành công các trường hợp sử dụng rõ ràng nơi khả năng hiểu biết hình ảnh của Gemini giúp tiết kiệm thời gian, đơn giản hóa các tác vụ phức tạp hoặc cung cấp hỗ trợ sâu sắc độc đáo, nó có thể tạo ra một lợi thế đáng kể. Điều này không chỉ xác thực chiến lược AI của Google mà còn gây áp lực lên các đối thủ cạnh tranh như Apple để đẩy nhanh việc triển khai và nâng cao khả năng của các dịch vụ AI hình ảnh của riêng họ.
Các hàm ý cạnh tranh là đáng kể. Một trợ lý AI có thể kết hợp liền mạch đầu vào hình ảnh với cuộc trò chuyện mang lại một mô hình tương tác phong phú hơn về cơ bản. Nếu Google thực hiện tốt và người dùng đón nhận nó, nó có thể định nghĩa lại kỳ vọng đối với các trợ lý AI di động, thúc đẩy toàn bộ ngành công nghiệp tiến lên. Nó cũng có thể đóng vai trò là một yếu tố khác biệt mạnh mẽ cho nền tảng Android, đặc biệt đối với những người dùng đã đầu tư vào hệ sinh thái của Google. Ngược lại, một sự đón nhận thờ ơ có thể củng cố nhận thức rằng các tính năng AI tiên tiến như vậy vẫn đang tìm kiếm một ứng dụng đột phá ngoài các mục đích sử dụng thích hợp, có khả năng xác thực các cách tiếp cận chậm hơn, tích hợp hơn như của Apple. Những tháng tới, khi các tính năng này đến tay nhiều người dùng hơn, sẽ rất quan trọng trong việc xác định liệu tầm nhìn mới của Gemini có chuyển thành cái nhìn sâu sắc thực sự về thị trường và lòng trung thành của người dùng hay không.
Con Đường Phía Trước: Sự Tiến Hóa Liên Tục Trong Đấu Trường AI Di Động
Việc triển khai các tính năng hình ảnh của Gemini đánh dấu một bước quan trọng nữa trong quá trình phát triển không ngừng của trí tuệ nhân tạo di động, nhưng nó còn lâu mới là đích đến cuối cùng. Sự cạnh tranh giữa Google, Apple và các công ty lớn khác đảm bảo rằng tốc độ đổi mới sẽ vẫn nhanh chóng, với các khả năng có thể mở rộng nhanh chóng trong tương lai gần. Đối với Google, nhiệm vụ trước mắt bao gồm việc tinh chỉnh hiệu suất và độ tin cậy của các tính năng camera và chia sẻ màn hình hiện tại dựa trên các mẫu sử dụng thực tế. Mở rộng hỗ trợ ngôn ngữ, cải thiện hiểu biết theo ngữ cảnh và có khả năng mở rộng khả năng tương thích thiết bị sẽ là những bước quan trọng tiếp theo. Chúng ta cũng có thể thấy sự tích hợp sâu hơn với các dịch vụ khác của Google, cho phép Gemini tận dụng thông tin hình ảnh kết hợp với Maps, Photos hoặc kết quả Shopping theo những cách thậm chí còn tinh vi hơn.
Trong khi đó, Apple sẽ tập trung vào việc cung cấp các tính năng Apple Intelligence đã công bố, bao gồm Visual Intelligence, theo lịch trình riêng của mình. Sau khi ra mắt, chúng ta có thể mong đợi Apple nhấn mạnh những lợi thế về quyền riêng tư của việc xử lý trên thiết bị và sự tích hợp liền mạch trong hệ sinh thái của mình. Các phiên bản trong tương lai có thể sẽ chứng kiến Apple mở rộng khả năng của Visual Intelligence, có khả năng thu hẹp khoảng cách với các khả năng tương tác, thời gian thực hơn được Google trình diễn, nhưng có khả năng tuân thủ các nguyên tắc cốt lõi về quyền riêng tư và tích hợp. Sự tương tác giữa xử lý trên thiết bị và đám mây sẽ tiếp tục là một đặc điểm xác định chiến lược của Apple.
Ngoài hai gã khổng lồ này, ngành công nghiệp rộng lớn hơn sẽ phản ứng và thích ứng. Các nhà sản xuất điện thoại thông minh và nhà phát triển AI khác có thể sẽ đẩy nhanh nỗ lực của họ trong lĩnh vực AI đa phương thức, tìm cách cung cấp các tính năng cạnh tranh. Chúng ta có thể thấy sự chuyên môn hóa ngày càng tăng, với một số trợ lý AI vượt trội trong các tác vụ hình ảnh cụ thể như dịch thuật, khả năng truy cập hoặc hỗ trợ sáng tạo. Việc phát triển các mô hình AI cơ bản sẽ tiếp tục, dẫn đến độ chính xác được cải thiện, thời gian phản hồi nhanh hơn và hiểu biết sâu sắc hơn về các sắc thái hình ảnh.
Cuối cùng, quỹ đạo của AI di động sẽ được định hình bởi nhu cầu và sự chấp nhận của người dùng. Khi người dùng trở nên quen thuộc hơn với việc tương tác với AI có thể nhận thức thế giới hình ảnh, kỳ vọng sẽ tăng lên. Thách thức đối với các nhà phát triển sẽ là vượt ra ngoài các tính năng mới lạ và cung cấp các công cụ AI không chỉ ấn tượng về mặt công nghệ mà còn thực sự nâng cao năng suất, sự sáng tạo và cuộc sống hàng ngày. Cuộc đua tạo ra trợ lý AI hữu ích nhất, trực quan nhất và đáng tin cậy nhất đang diễn ra sôi nổi, và việc tích hợp thị giác đang chứng tỏ là một chiến trường quan trọng trong quá trình chuyển đổi công nghệ đang diễn ra này. Trọng tâm phải luôn là mang lại giá trị hữu hình, đảm bảo rằng khi AI có được sức mạnh để nhìn thấy, người dùng sẽ nhận được những lợi ích ý nghĩa.