Google AI突破:用文字指令輕鬆編輯圖片

影像操控的新紀元

不同於許多現有的 AI 影像工具主要專注於從頭生成全新影像,Gemini 2.0 Flash 的獨特之處在於它能夠理解和修改現有的照片。這個系統對照片內容的理解程度之高,使它可以根據對話式的指令進行特定的修改,同時保留原始影像的本質。

這項非凡的成就歸功於 Gemini 2.0 的原生多模態特性。它可以同時無縫處理文本和圖像。該模型巧妙地將圖像轉換為 ‘tokens’ – 與其用於文本處理的基本單位相同。這使得它能夠使用與理解語言相同的神經路徑來操縱視覺內容。這種統一的方法消除了對處理不同媒體類型需要單獨的、專門的模型的需求,從而簡化了整個過程。

Google 在其官方公告中表示:’Gemini 2.0 Flash 利用多模態輸入、增強的推理和自然語言理解來創建圖像。’ ‘想像一下,使用 Gemini 2.0 Flash 來講述一個故事,它會用圖片來說明,並保持角色和場景的一致性。提供反饋,模型將調整故事或修改其繪圖風格。’

這種方法使 Google 有別於 OpenAI 等競爭對手。雖然 ChatGPT 可以使用 Dall-E 3 生成圖像並根據自然語言理解對其創作進行迭代,但它依賴於一個單獨的 AI 模型來實現這一點。本質上,ChatGPT 精心編排了 GPT-V(視覺)、GPT-4o(語言)和 Dall-E 3(圖像生成)之間的複雜交互。然而,OpenAI 預計將在未來的 GPT-5 中實現一個單一的、包羅萬象的模型。

在北京人工智能研究院的研究人員開發的 OmniGen 中存在一個類似的概念,它屬於開源領域。其創建者設想’通過任意多模態指令直接生成各種圖像,而無需額外的插件或操作,類似於 GPT 在語言生成中的功能。’

OmniGen 具有對象更改、場景合併和美學調整等功能。然而,與新的 Gemini 相比,它的用戶友好性要差得多,操作分辨率較低,需要更複雜的命令,並且最終缺乏 Google 產品的強大功能。儘管如此,對於某些用戶來說,它提供了一個引人注目的開源替代方案。

Gemini 2.0 Flash 實測

為了真正掌握 Gemini 2.0 Flash 的能力和局限性,進行了一系列實踐測試,探索了各種編輯場景。結果顯示出令人印象深刻的優勢和一些有待改進的領域。

精準修改真實主體

在修改真實主體時,該模型表現出卓越的連貫性。例如,在自拍測試中,增加肌肉線條的要求產生了預期的結果。雖然發生了輕微的面部變化,但整體的可識別性得到了保持。

至關重要的是,照片中的其他元素基本上沒有受到影響,這表明 AI 能夠僅專注於指定的修改。這種有針對性的編輯能力與典型的生成方法形成鮮明對比,後者通常會重建整個圖像,可能會引入不必要的更改。

同樣重要的是要注意模型的內置保護措施。它始終拒絕編輯兒童照片並避免處理任何與裸露相關的內容,這反映了 Google 對負責任的 AI 開發的承諾。對於希望探索更具風險的圖像處理的用戶,OmniGen 可能是一個更合適的選擇。

掌握風格轉換

Gemini 2.0 Flash 在風格轉換方面表現出非凡的天賦。將唐納德·特朗普的照片轉換為日本漫畫風格的要求在幾次嘗試後成功實現了重新構想。

該模型熟練地處理各種風格轉換,將照片轉換為繪圖、油畫或幾乎任何可以想像的藝術風格。用戶可以通過調整溫度設置和切換各種濾鏡來微調結果。然而,值得注意的是,較高的溫度設置往往會產生不太忠實於原始圖像的轉換。

當要求與特定藝術家相關的風格時,會出現一個顯著的限制。涉及達芬奇、米開朗基羅、波提切利或梵高等藝術家風格的測試導致 AI 複製了這些大師的實際畫作,而不是將他們獨特的技術應用於源圖像。

通過一些提示的改進和幾次迭代,可以獲得可用的、儘管平庸的結果。通常,提示所需的藝術風格而不是特定的藝術家更有效。

元素操控的藝術

對於實際的編輯任務,Gemini 2.0 Flash 確實表現出色。它可以熟練地處理圖像修復和對象操作,根據要求無縫刪除特定對象或向構圖添加新元素。在一項測試中,AI 被提示用一隻巨大的橡皮雞代替籃球,產生了一個幽默但符合上下文的結果。

雖然偶爾可能會發生對主體的輕微改動,但這些通常可以使用標準的數位編輯工具在幾秒鐘內輕鬆糾正。

也許最具爭議的是,該模型展示了刪除版權保護的能力——這一功能在 X 等平台上引發了廣泛的討論。當呈現包含水印的圖像並指示消除所有字母、徽標和水印時,Gemini 生成了一個乾淨的圖像,幾乎與未加水印的原始圖像無法區分。

駕馭視角變化

Gemini 最令人印象深刻的技術方面之一是它能夠改變視角——這是主流擴散模型通常難以實現的壯舉。AI 可以從不同的角度重新構想場景,儘管結果本質上是新的創作,而不是原始圖像的精確轉換。

雖然視角轉換不會產生完美的結果——畢竟,模型是從一個新的視角概念化整個圖像——但它們代表了 AI 基於二維輸入理解三維空間的重大進步。

在指示模型操作背景時,正確的措辭至關重要。它通常傾向於修改整張圖片,導致構圖截然不同。

例如,在一項測試中,Gemini 被要求更改照片的背景,將一個坐著的機器人放在埃及,而不是它原來的位置。該指令明確指出不要更改主體。然而,該模型難以準確處理此特定任務,而是提供了一個以金字塔為特色的全新構圖,一個機器人站立著,但不是作為主要焦點。

另一個觀察到的限制是,雖然模型可以對單個圖像進行多次迭代,但細節的質量往往會隨著每次連續迭代而下降。因此,在執行大量編輯時,必須注意潛在的質量下降。

開發人員目前可以通過 Google AI Studio 和 Gemini API 在所有支持的地區訪問此實驗模型。它也可以在 Hugging Face 上使用,供不想與 Google 分享其信息的用戶使用。

總之,Google 的這項新產品似乎是一顆隱藏的寶石,就像 NotebookLM 一樣。它實現了其他模型無法實現的功能,並且具有良好的熟練程度,但它仍然相對不為人知。對於那些想要嘗試生成式 AI 在圖像編輯中的潛力並在此過程中獲得一些創意樂趣的用戶來說,這無疑是值得探索的。只需用簡單的語言描述所需的更改,就可以為休閒用戶和專業人士打開一個充滿可能性的世界,這標誌著圖像處理民主化向前邁出了重要一步。這項技術有可能重塑我們與視覺內容互動的方式,使每個人都能使用先進的編輯技術,無論他們的技術技能如何。其影響是巨大的,從個人照片增強到專業設計工作流程,甚至到創造全新形式的視覺藝術。隨著技術的不斷發展,見證它對創意領域的影響將會非常有趣。