Google's Gemini AI 展現驚人去浮水印能力

原生圖像生成與編輯

這款輕量級、可在裝置上運行的 AI 模型,現在擁有原生圖像生成功能,這項功能不僅僅是根據文字提示產生圖像。它還允許對話式圖像編輯,為使用者提供更具互動性和直覺性的方式來修改圖片。上週末,使用者發現了一項特別值得注意的功能:AI 在去除浮水印方面的精確性。

熟練的浮水印去除工具

雖然像 Watermark Remover.io 這樣的工具已經存在,可用於消除來自 Shutterstock 等公司的標記,而且 Google 自己的研究團隊在 2017 年開發了一種浮水印去除演算法,以說明對更強大安全措施的需求,但 Gemini 2.0 Flash 在某些方面似乎超越了這些工具。一些 AI 工具,例如 OpenAI 的 GPT-4o,會主動拒絕去除浮水印的請求。然而,Gemini 2.0 Flash 似乎擅長去除複雜的浮水印,例如 Getty Images 使用的浮水印,並智慧地填充底層圖像。

值得注意的是,在移除原始浮水印後,Gemini 2.0 Flash 會添加一個 SynthID 標記,基本上是用「經 AI 編輯」的標記取代版權聲明。然而,正如 Samsung 的物件擦除功能所展示的那樣,即使是這些 AI 生成的標記也有可能被移除。

疑慮與考量

除了去除浮水印之外,使用者還觀察到 Gemini 2.0 Flash 顯然可以將可識別的真實人物圖像(例如 Elon Musk)納入照片中。這是完整版 Gemini 模型所限制的功能。

Flash 的圖像相關功能目前僅供開發者透過 AI Studio 使用。這種有限的可用性意味著明顯缺乏的安全措施尚未開放給廣泛使用或潛在的濫用。已經向 Google 提出了關於是否存在防止浮水印去除等行為的保護措施的問題,但尚未收到回應。

深入探討其影響

Gemini 2.0 Flash 有效去除浮水印(甚至是複雜浮水印)的能力,引發了幾個重要的影響。

版權與智慧財產權

浮水印可以如此輕易地被移除,這對受版權保護的資料構成了挑戰。浮水印可作為防止未經授權使用的明顯威懾,並清楚地表明所有權。如果這些標記可以毫不費力地被擦除,則可能會鼓勵侵犯智慧財產權的行為。

AI 輔助圖像處理的倫理

開發能夠進行如此複雜圖像處理的 AI 工具,帶來了倫理考量。雖然這些工具可用於合法目的,例如修復舊照片或移除不需要的物件,但濫用的可能性是不可否認的。令人信服地更改圖像(包括移除版權標記)的能力,引發了人們對錯誤訊息傳播和惡意操縱可能性的擔憂。

對強大浮水印技術的需求

像 Gemini 2.0 Flash 這樣的 AI 模型的出現,突顯了對更強大浮水印技術的迫切需求。傳統的浮水印通常很容易被移除,在進階 AI 時代可能不再足夠。研究人員和開發人員現在面臨的挑戰是,創造既能抵抗 AI 驅動的移除嘗試,又在視覺上不引人注目的浮水印方法。

AI 在自我監管中的角色

Gemini 2.0 Flash 在移除浮水印後會添加 SynthID 標記,這是一個有趣的發展。它暗示了 AI 在自我監管方面的潛在作用,承認它對圖像所做的更改。然而,即使是這些 AI 生成的標記也很容易被移除,這突顯了在 AI 驅動的圖像處理中確保透明度和問責制的持續挑戰。

擴展技術層面

讓我們更深入地探討 Gemini 2.0 Flash 的一些技術層面及其去除浮水印的能力。

裝置端 AI 模型

將 Gemini 2.0 Flash 指定為「輕量級本地化裝置端 AI 模型」非常重要。這意味著其功能(包括圖像生成和編輯)所需的處理直接在使用者裝置上進行,而不是依賴遠端伺服器或雲端基礎架構。這種方法提供了幾個優點:

  • 隱私: 在本地處理資料可減少將潛在敏感資訊傳輸到外部伺服器的需求,從而增強使用者隱私。
  • 速度和回應能力: 裝置端處理可以縮短回應時間並提供更流暢的使用者體驗,因為沒有與網路通訊相關的延遲。
  • 離線功能: 無需網際網路連線即可操作的能力是裝置端 AI 模型的一個關鍵優勢。

原生圖像生成

Gemini 2.0 Flash 的「原生圖像生成」功能超越了單純從文字提示生成圖像。它表明模型中更深入地整合了圖像理解和處理。這允許更細緻和互動的編輯,使用者可以與 AI 進行「對話」以細化和修改圖像。

對話式圖像編輯

「對話式圖像編輯」的概念特別有趣。它意味著從傳統的圖像編輯工具(通常依賴手動調整和選擇)轉向更直覺和互動的方法。使用者可以潛在地用自然語言描述所需的更改,AI 模型會解釋這些指令以進行相應的修改。

浮水印移除演算法

雖然 Gemini 2.0 Flash 使用的浮水印移除演算法的具體細節尚未公開,但它很可能基於進階的深度學習技術。這些技術涉及在大量圖像資料集上訓練神經網路,使其能夠以驚人的準確性識別和移除模式,包括浮水印。

填充圖像

AI 在移除浮水印後「填充圖像」的能力對於實現無縫結果至關重要。這要求模型理解周圍圖像的上下文並生成合理的內容來替換先前被浮水印佔據的區域。這是一項複雜的任務,依賴於 AI 解釋圖像語義並生成逼真紋理和圖案的能力。

AI 在圖像處理中的更廣泛背景

Gemini 2.0 Flash 的功能是日益複雜的 AI 驅動圖像處理工具這一更廣泛趨勢的一部分。

生成對抗網路 (GANs)

GAN 在推進圖像生成和處理方面發揮了重要作用。這些網路由兩個元件組成:生成器(用於建立新圖像)和判別器(用於評估生成圖像的真實性)。透過對抗過程,生成器學會產生越來越逼真的圖像,可以欺騙判別器。

DeepFakes 和合成媒體

「DeepFakes」和其他形式的合成媒體的興起,引發了人們對 AI 可能被用於建立令人信服但完全捏造的圖像和影片的擔憂。這項技術對從政治假訊息到個人隱私的各個方面都有影響。

創造與偵測之間的軍備競賽

隨著 AI 越來越擅長建立和處理圖像,開發這些工具的人與致力於偵測和抵消其影響的人之間正在進行一場「軍備競賽」。這包括努力開發更強大的浮水印技術,以及基於 AI 的方法來識別被操縱的圖像和影片。

圖像編輯的未來

Gemini 2.0 Flash 的功能讓我們得以一窺圖像編輯的未來。隨著 AI 模型變得越來越強大並整合到我們的裝置中,我們可以期待看到越來越直覺和複雜的工具,模糊現實與人工操縱之間的界限。這為視覺媒體的未來帶來了令人興奮的可能性和重大挑戰。
這些功能是實驗性的,僅供開發人員使用,目前尚不確定是否或何時會向公眾開放。