AI驅動的圖像編輯領域正迅速發展,Google和OpenAI等科技巨頭不斷突破可能性界限。最近,Google Gemini推出了一項新的圖像編輯功能,承諾使用者能夠對圖像進行特定修改,同時保持原始圖像的完整性。這項功能直接與ChatGPT的圖像編輯功能競爭,後者也允許使用者使用文字提示來修改圖像。
雖然ChatGPT提供了一個選取工具以進行精確編輯,但Gemini強調其能在不大幅改變整體圖像的情況下,做出所要求的更改。這引出了一個重要的問題:當提示AI模型進行修改時,它們在多大程度上真正堅持原始圖像?
為了調查這一點,我進行了一項非正式測試,讓Gemini和ChatGPT在一系列圖像編輯挑戰中相互競爭。目的是評估它們在僅僅做出所要求的更改時的準確性和效率,而不會無意中改變圖像的其他方面。
測試設定:巴黎咖啡館場景
為了確保公平的競爭環境,我首先使用ChatGPT生成了一張基礎圖像。該圖像描繪了一位女士在巴黎一家戶外咖啡館享用咖啡,身穿時尚外套和太陽眼鏡。這作為後續編輯提示的基礎,以便直接比較這兩個AI模型。
從這個起點開始,我讓Gemini和ChatGPT都經歷了三個不同的編輯提示,仔細評估每個平台在多大程度上有效地執行了所要求的修改,同時保留了原始圖像。
第一回合:更換服裝
第一個挑戰相對簡單:我指示這兩個AI聊天機器人「將她的服裝換成一件鮮豔、休閒的夏日洋裝,並移除太陽眼鏡。」
Gemini和ChatGPT都成功地完成了提示,為這位女士提供了一件新的夏日洋裝並移除了她的太陽眼鏡。然而,仔細觀察後發現它們的方法存在細微但顯著的差異。
Gemini展現了卓越的堅持原始圖像的能力。這些更改主要僅限於服裝和眼鏡,對其他元素的修改最少。
另一方面,ChatGPT引入了幾個額外的修改。她的表情、髮型以及杯子、盤子和桌子的大小都經歷了輕微的調整。雖然這些變化並不明顯,但它們表明了一種超出提示範圍而偏離原始圖像的趨勢。
此外,Gemini在處理請求方面證明速度明顯更快。它在大約20到30秒內完成了編輯,而ChatGPT儘管擁有強大的引擎,卻花了幾分鐘才生成修改後的圖像。
第二回合:添加一隻狗狗夥伴
在第二輪中,我決定在場景中引入另一個角色:一隻吉娃娃。我提示這兩個AI聊天機器人「添加一隻坐在她旁邊的吉娃娃,深情地仰望著她。」
ChatGPT的回應是將一隻可愛的小狗放在了這位女士的膝蓋上。然而,該圖像也包括許多意外的變化。這位女士的頭髮變長了,她的笑容變得更燦爛了,而且她的碎花洋裝也進行了微妙的修改。背景中的貨車也神秘地消失了。
Gemini再次擅長於保留原始圖像的完整性。它成功地在女士旁邊添加了一隻吉娃娃,保持了場景的整體連貫性。雖然Gemini對狗的渲染可能缺乏ChatGPT的一些真實感,但它在做出所要求的更改而不引入無關的修改方面的能力值得稱讚。
第三回合:巴黎地標
在最後一輪中,我旨在將一個典型的巴黎元素融入圖像中:艾菲爾鐵塔。我要求Gemini和ChatGPT「將艾菲爾鐵塔顯著地放置在背景中。」
這項任務要求AI模型無縫地整合一個重要的建築元素,調整背景,並保持適當的比例和透視。
Gemini策略性地移除了女士左側的一棟建築,為艾菲爾鐵塔創造了空間。鐵塔看起來有點小,但似乎並沒有完全不合時宜。重要的是,圖像的其餘部分與原始圖像保持一致。
然而,ChatGPT的嘗試卻未能成功。艾菲爾鐵塔呈現為一個形狀怪異的微型作品,與現有的背景格格不入。這位女士的洋裝和頭髮再次經歷了變化,而且這隻狗似乎也變瘦了。產生的圖像讓人感覺脫節,並且明顯偏離了原始圖像。
最終結論:Gemini的精準優勢
這些測試的結果突顯了Gemini和ChatGPT的圖像編輯功能之間的明顯區別。Gemini始終展現出卓越的能力,可以在做出有針對性的更改的同時,保留原始圖像的完整性。它的編輯快速、準確,並且很大程度上僅限於所要求的特定修改。
ChatGPT雖然能夠生成高品質的圖像,但表現出一種引入意外修改的趨勢,超出提示的範圍而偏離原始圖像。這通常導致圖像讓人感覺不一致且缺乏凝聚力。
然而,重要的是要注意,ChatGPT提供了一個突出顯示工具,允許使用者選擇特定的編輯區域,這可能會提高其精確度。該工具需要額外的時間和精力,但對於實現更有針對性的結果可能是必要的。
圖像品質考量
雖然Gemini在精確度和速度方面表現出色,但ChatGPT通常產生具有更高整體品質的圖像。然而,這種優勢取決於ChatGPT能否在第一次嘗試時準確地解釋和執行編輯提示。如果需要多次迭代才能達到所需的結果,那麼Gemini提供的時間節省可能會超過ChatGPT卓越的圖像品質。
最終想法
在AI驅動的圖像編輯領域,Google Gemini和ChatGPT都提供了獨特的優勢和劣勢。Gemini以其速度、準確性以及堅持原始圖像的能力而脫穎而出。另一方面,ChatGPT擁有更高的整體圖像品質,但可能需要更多的耐心和精確度才能實現有針對性的編輯。
最終,Gemini和ChatGPT之間的選擇取決於使用者的特定需求和優先順序。對於快速而精確的編輯,Gemini是明顯的贏家。然而,對於那些優先考慮圖像品質並願意投入更多時間和精力的人來說,ChatGPT仍然是一個可行的選擇。
隨著AI技術的不斷發展,Gemini和ChatGPT都可能會繼續提高其圖像編輯功能,模糊它們各自優勢和劣勢之間的界線。AI驅動的圖像編輯的未來有望成為一個令人興奮和變革的旅程,使使用者能夠以前所未有的輕鬆和精確度創建和修改圖像。
擴展Gemini的優勢
Gemini保持原始圖像完整性的能力源於其複雜的演算法,這些演算法旨在最大程度地減少意外的修改。這對於希望進行特定更改而不破壞圖像的整體美感或構圖的使用者而言尤其重要。
此外,Gemini的速度優勢允許快速實驗和迭代。使用者可以快速測試不同的編輯提示並評估結果,而無需等待幾分鐘才能處理每個修改。這可以顯著簡化創意工作流程,並使使用者能夠探索更廣泛的可能性。
深入了解ChatGPT的功能
儘管ChatGPT有引入意外更改的趨勢,但其圖像編輯功能不容忽視。其強大的引擎和複雜的演算法使其能夠生成具有卓越細節和真實感的圖像。這對於從頭開始創建圖像或對現有圖像進行重大修改的使用者而言尤其有價值。
此外,ChatGPT的突出顯示工具提供了一定程度的控制,這是Gemini所不具備的。透過選擇特定的編輯區域,使用者可以精確地鎖定他們的修改,並最大程度地降低意外更改的風險。然而,這種方法需要更多的時間和精力,並且可能不適合尋找快速簡便編輯的使用者。
AI圖像編輯的未來
AI驅動的圖像編輯領域仍處於早期階段,未來具有巨大的成長和創新潛力。隨著AI演算法變得越來越複雜,我們可以期望在精確度、速度和圖像品質方面看到更大的改進。
一個有希望的發展領域是將AI圖像編輯工具與其他創意應用程式整合。這將允許使用者將AI生成的圖像無縫地整合到他們現有的工作流程中,從而增強他們創建引人注目的視覺內容的能力。
另一個令人興奮的可能性是開發針對特定行業和應用程式量身定制的AI驅動的圖像編輯工具。例如,可以開發AI工具來協助攝影師修飾肖像,或幫助建築師創建建築物的逼真渲染圖。
隨著AI技術的不斷發展,AI驅動的圖像編輯可能會成為創意專業人士和日常使用者不可或缺的工具。