Khả năng xóa Watermark đáng chú ý của Gemini AI của Google
Các tính năng ‘thử nghiệm’ mới nhất của Google trong mô hình AI Gemini 2.0 Flash đang được triển khai cho nhiều nhà phát triển hơn và một số khả năng đang được khám phá đang gây ngạc nhiên. Trong số này có khả năng rõ ràng của mô hình là chỉnh sửa liền mạch các watermark khỏi ảnh.
Tạo và chỉnh sửa ảnh gốc
Mô hình AI nhẹ, trên thiết bị này hiện tự hào có khả năng tạo ảnh gốc, một tính năng vượt xa việc tạo ảnh đơn giản từ lời nhắc văn bản. Nó cho phép chỉnh sửa ảnh đàm thoại, cung cấp cho người dùng một cách tương tác và trực quan hơn để sửa đổi ảnh. Cuối tuần qua, người dùng đã phát hiện ra một khả năng đặc biệt đáng chú ý: độ chính xác của AI trong việc xóa watermark.
Một công cụ xóa Watermark khéo léo
Mặc dù các công cụ như Watermark Remover.io đã tồn tại để loại bỏ các dấu hiệu từ các công ty như Shutterstock và trong khi nhóm nghiên cứu của Google đã phát triển một thuật toán xóa watermark vào năm 2017 để minh họa sự cần thiết của các biện pháp bảo mật mạnh mẽ hơn, Gemini 2.0 Flash dường như vượt trội hơn những công cụ này ở một số khía cạnh. Một số công cụ AI, chẳng hạn như GPT-4o của OpenAI, chủ động từ chối các yêu cầu xóa watermark. Tuy nhiên, Gemini 2.0 Flash dường như vượt trội trong việc xóa ngay cả các watermark phức tạp, như những watermark được Getty Images sử dụng và điền thông minh vào hình ảnh bên dưới.
Điều quan trọng cần lưu ý là sau khi xóa watermark ban đầu, Gemini 2.0 Flash sẽ thêm dấu SynthID, về cơ bản thay thế thông báo bản quyền bằng chỉ định ‘đã chỉnh sửa bằng AI’. Tuy nhiên, khả năng xóa ngay cả những dấu do AI tạo ra này vẫn tồn tại, như được chứng minh bằng các công cụ như tính năng xóa đối tượng của Samsung.
Mối quan tâm và cân nhắc
Ngoài việc xóa watermark, người dùng cũng nhận thấy rằng Gemini 2.0 Flash dường như có thể kết hợp những hình ảnh dễ nhận biết của những cá nhân thực, chẳng hạn như Elon Musk, vào ảnh. Đây là một khả năng mà mô hình Gemini đầy đủ hạn chế.
Các tính năng liên quan đến hình ảnh của Flash hiện chỉ có thể truy cập được đối với các nhà phát triển thông qua AI Studio. Tính khả dụng hạn chế này có nghĩa là việc thiếu các biện pháp bảo vệ rõ ràng vẫn chưa được mở để sử dụng rộng rãi hoặc có khả năng lạm dụng. Các câu hỏi đã được đặt ra với Google liên quan đến sự tồn tại của các biện pháp bảo vệ để ngăn chặn các hành động như xóa watermark, nhưng vẫn chưa có phản hồi.
Tìm hiểu sâu hơn về ý nghĩa
Khả năng của Gemini 2.0 Flash để xóa watermark một cách hiệu quả, ngay cả những watermark phức tạp, đặt ra một số ý nghĩa quan trọng.
Bản quyền và Sở hữu trí tuệ
Việc dễ dàng xóa watermark đặt ra thách thức đối với việc bảo vệ tài liệu có bản quyền. Watermark đóng vai trò như một biện pháp ngăn chặn rõ ràng đối với việc sử dụng trái phép và là một dấu hiệu rõ ràng về quyền sở hữu. Nếu những dấu hiệu này có thể dễ dàng bị xóa, nó có thể khuyến khích việc vi phạm quyền sở hữu trí tuệ.
Đạo đức của thao tác ảnh được hỗ trợ bởi AI
Sự phát triển của các công cụ AI có khả năng thao tác hình ảnh tinh vi như vậy mang đến những cân nhắc về đạo đức. Mặc dù những công cụ này có thể được sử dụng cho các mục đích hợp pháp, chẳng hạn như khôi phục ảnh cũ hoặc xóa các đối tượng không mong muốn, nhưng không thể phủ nhận khả năng lạm dụng. Khả năng thay đổi hình ảnh một cách thuyết phục, bao gồm cả việc xóa các chỉ báo bản quyền, làm dấy lên lo ngại về việc lan truyền thông tin sai lệch và khả năng thao túng độc hại.
Sự cần thiết của các kỹ thuật Watermark mạnh mẽ
Sự xuất hiện của các mô hình AI như Gemini 2.0 Flash nhấn mạnh nhu cầu cấp thiết về các kỹ thuật watermark mạnh mẽ hơn. Các watermark truyền thống, thường dễ bị xóa, có thể không còn đủ trong thời đại AI tiên tiến. Các nhà nghiên cứu và nhà phát triển hiện đang phải đối mặt với thách thức tạo ra các phương pháp watermark vừa có khả năng chống lại các nỗ lực xóa bỏ bằng AI vừa không gây khó chịu về mặt hình ảnh.
Vai trò của AI trong việc tự kiểm soát
Việc Gemini 2.0 Flash thêm dấu SynthID sau khi xóa watermark là một sự phát triển thú vị. Nó gợi ý một vai trò tiềm năng của AI trong việc tự kiểm soát, thừa nhận những thay đổi mà nó thực hiện đối với hình ảnh. Tuy nhiên, việc dễ dàng xóa ngay cả những dấu do AI tạo ra này nhấn mạnh thách thức đang diễn ra trong việc đảm bảo tính minh bạch và trách nhiệm giải trình trong thao tác hình ảnh do AI điều khiển.
Mở rộng về các khía cạnh kỹ thuật
Hãy đi sâu hơn vào một số khía cạnh kỹ thuật của Gemini 2.0 Flash và khả năng xóa watermark của nó.
Mô hình AI trên thiết bị
Việc chỉ định Gemini 2.0 Flash là ‘mô hình AI cục bộ nhẹ trên thiết bị’ là rất quan trọng. Điều này có nghĩa là quá trình xử lý cần thiết cho các chức năng của nó, bao gồm tạo và chỉnh sửa hình ảnh, diễn ra trực tiếp trên thiết bị của người dùng, thay vì dựa vào máy chủ từ xa hoặc cơ sở hạ tầng dựa trên đám mây. Cách tiếp cận này mang lại một số lợi thế:
- Quyền riêng tư: Xử lý dữ liệu cục bộ làm giảm nhu cầu truyền thông tin nhạy cảm tiềm ẩn đến máy chủ bên ngoài, tăng cường quyền riêng tư của người dùng.
- Tốc độ và Khả năng phản hồi: Xử lý trên thiết bị có thể dẫn đến thời gian phản hồi nhanh hơn và trải nghiệm người dùng liền mạch hơn, vì không có độ trễ liên quan đến giao tiếp mạng.
- Chức năng ngoại tuyến: Khả năng hoạt động mà không cần kết nối internet là một lợi ích chính của các mô hình AI trên thiết bị.
Tạo ảnh gốc
Khả năng ‘tạo ảnh gốc’ của Gemini 2.0 Flash là một bước tiến vượt xa việc tạo ảnh đơn giản từ lời nhắc văn bản. Nó gợi ý sự tích hợp sâu hơn của việc hiểu và thao tác hình ảnh trong mô hình. Điều này cho phép chỉnh sửa sắc thái và tương tác hơn, trong đó người dùng có thể tham gia vào một ‘cuộc trò chuyện’ với AI để tinh chỉnh và sửa đổi hình ảnh.
Chỉnh sửa ảnh đàm thoại
Khái niệm ‘chỉnh sửa ảnh đàm thoại’ đặc biệt hấp dẫn. Nó ngụ ý sự thay đổi từ các công cụ chỉnh sửa hình ảnh truyền thống, thường dựa vào các điều chỉnh và lựa chọn thủ công, sang một cách tiếp cận trực quan và tương tác hơn. Người dùng có thể mô tả những thay đổi mong muốn bằng ngôn ngữ tự nhiên và mô hình AI diễn giải những hướng dẫn này để thực hiện các sửa đổi tương ứng.
Thuật toán xóa Watermark
Mặc dù các chi tiết cụ thể của thuật toán xóa watermark được Gemini 2.0 Flash sử dụng chưa được tiết lộ công khai, nhưng nó có thể dựa trên các kỹ thuật học sâu tiên tiến. Các kỹ thuật này liên quan đến việc đào tạo mạng nơ-ron trên các tập dữ liệu hình ảnh khổng lồ, cho phép chúng xác định và loại bỏ các mẫu, bao gồm cả watermark, với độ chính xác đáng kể.
Điền vào hình ảnh
Khả năng của AI để ‘điền vào hình ảnh’ sau khi xóa watermark là rất quan trọng để đạt được kết quả liền mạch. Điều này đòi hỏi mô hình phải hiểu ngữ cảnh của hình ảnh xung quanh và tạo ra nội dung hợp lý để thay thế khu vực trước đây bị watermark chiếm giữ. Đây là một nhiệm vụ phức tạp dựa trên khả năng của AI trong việc diễn giải ngữ nghĩa hình ảnh và tạo ra các kết cấu và mẫu thực tế.
Bối cảnh rộng hơn của AI trong thao tác hình ảnh
Khả năng của Gemini 2.0 Flash là một phần của xu hướng rộng lớn hơn của các công cụ thao tác hình ảnh được hỗ trợ bởi AI ngày càng tinh vi.
Generative Adversarial Networks (GANs)
GAN đã đóng một vai trò quan trọng trong việc thúc đẩy tạo và thao tác hình ảnh. Các mạng này bao gồm hai thành phần: một bộ tạo, tạo ra hình ảnh mới và một bộ phân biệt, đánh giá tính chân thực của hình ảnh được tạo. Thông qua một quá trình đối nghịch, bộ tạo học cách tạo ra những hình ảnh ngày càng chân thực có thể đánh lừa bộ phân biệt.
DeepFakes và Phương tiện tổng hợp
Sự gia tăng của ‘deepfake’ và các hình thức phương tiện tổng hợp khác đã làm dấy lên lo ngại về khả năng AI được sử dụng để tạo ra hình ảnh và video thuyết phục nhưng hoàn toàn bịa đặt. Công nghệ này có ý nghĩa đối với mọi thứ, từ thông tin sai lệch chính trị đến quyền riêng tư cá nhân.
Cuộc chạy đua vũ trang giữa Sáng tạo và Phát hiện
Khi AI trở nên thành thạo hơn trong việc tạo và thao tác hình ảnh, có một ‘cuộc chạy đua vũ trang’ đang diễn ra giữa những người phát triển các công cụ này và những người làm việc để phát hiện và chống lại tác động của chúng. Điều này bao gồm các nỗ lực phát triển các kỹ thuật watermark mạnh mẽ hơn, cũng như các phương pháp dựa trên AI để xác định hình ảnh và video bị thao túng.
Tương lai của chỉnh sửa ảnh
Khả năng của Gemini 2.0 Flash cung cấp một cái nhìn thoáng qua về tương lai của chỉnh sửa ảnh. Khi các mô hình AI trở nên mạnh mẽ hơn và được tích hợp vào các thiết bị của chúng ta, chúng ta có thể mong đợi được thấy các công cụ ngày càng trực quan và tinh vi làm mờ ranh giới giữa thực tế và thao tác nhân tạo. Điều này đặt ra cả những khả năng thú vị và những thách thức đáng kể cho tương lai của phương tiện truyền thông hình ảnh.
Các tính năng này đang thử nghiệm và chỉ dành cho các nhà phát triển, và không chắc chắn liệu nó có sẵn cho công chúng hay không.