Google Gemini AI影片登場,評價褒貶不一

Google 已正式進軍人工智慧影片領域,讓 Gemini Advanced 的訂閱者可以使用其 Veo 2 AI 影片模型。

這標誌著 Google 的 AI 影片技術首次公開亮相,儘管最初是以付費牆的形式呈現。

那些渴望體驗 Veo 2 的人可以利用 Google One AI 高級訂閱的免費一個月試用期,其中包括 Gemini Advanced 的訪問權限。試用期後,訂閱價格為每月 20 美元。 Veo 2 也整合到 Google Labs 的新型 AI 動畫專案中。 Google 打算將 Veo 2 的可用性擴展到未來的免費使用者。

人工智慧影片的出現代表了生成式人工智慧的最新發展。在 Google 廣泛發布 Veo 2 之前,OpenAI(Sora)和 Adobe(Firefly)也採取了類似的舉措。人工智慧創意服務領域的競爭日益激烈,主要科技公司紛紛推出人工智慧影片模型。 Google 的加入標誌著人工智慧影片服務產品的發展勢頭越來越強勁。

Google 的 Gemini 隱私權政策規定,它可能會收集用戶互動的資料,包括聊天和檔案,建議使用者不要分享機密資訊。透過同意 Google 的生成式人工智慧政策,使用者同意遵守該公司的可接受使用準則,旨在防止創建有害或非法內容。

使用者可以透過 Gemini 網路或行動應用程式,從 Gemini Advanced 介面中的模型選項中選擇 Veo 2,來製作簡短的 AI 片段。影片通常在一兩分鐘內產生。

這些人工智慧生成的片段限制為 8 秒的持續時間和 720p 的解析度,沒有音訊。 Gemini 會自動以 16:9 的橫向格式渲染影片,即使在提示中指定了其他尺寸,也沒有明顯的選項可供選擇。此外,使用者無法上傳圖像或風格參考,因此需要精通人工智慧提示工程才能實現所需的影片結果。

使用者每月可以產生的影片數量受到限制,儘管這些積分的精確測量仍然未定義。 Google 表示,當使用者接近其限制時,將在 Gemini 中收到警告。

Google 的 SynthID 浮水印會自動嵌入到 Veo 2 影片中。這些難以察覺的浮水印有助於識別完全由人工智慧產生的內容。 Google 還將此技術用於使用其 Imagen 3 文字到圖像模型產生的圖像。

對 Veo 2 的初步評估表明,這些影片令人滿意,但並不引人注目。 Gemini 展示了值得稱讚的提示遵循能力,準確地產生內容,且錯誤或不一致之處極少。然而,Sora 和 Firefly 等平台允許以更高的解析度(例如 1080p)創建 AI 影片,並提供更廣泛的自訂選項,這對於最大限度地減少後製編輯至關重要。雖然 Google 無疑有 Veo 升級的計畫,但 Veo 2 目前只是一個有趣的實驗工具,不太可能成為創作者日常工作流程中必不可少的工具。

深入探討 Gemini 的 Veo 2:全面概述

雖然與 OpenAI 的 Sora 和 Adobe 的 Firefly 等競爭對手相比,Google 的 Veo 2 的初步發布可能看起來並不令人印象深刻,但深入研究其功能、限制和潛力至關重要。對於任何考慮將 Veo 2 整合到其創意工作流程中的人來說,理解這些細微差別至關重要。

解析度和輸出品質

Veo 2 最直接的限制之一是其最高輸出解析度為 720p。在 4K 影片越來越普及的時代,即使是行動裝置也能以高畫質錄製,這種限制嚴重影響了產生內容的感知品質。雖然 720p 可能足以應付快速的社群媒體貼文或內部通訊,但對於需要高視覺逼真度的專業應用或專案來說,它是不夠的。提供 1080p 輸出的 Sora 等競爭對手在這方面立即具有優勢。

缺乏音訊

Veo 2 產生的影片中缺乏音訊是另一個值得注意的缺點。聲音是影片敘事的重要元素,它的缺失需要額外的後製工作才能添加音樂、音效或對白。這不僅增加了創建完成產品所需的時間和精力,還限制了人工智慧產生過程本身的創意可能性。希望快速創建具有整合音訊的引人入勝影片的使用者會發現 Veo 2 在這方面有所欠缺。

有限的自訂選項

Veo 2 有限的自訂選項進一步限制了它的可用性。除了標準的 16:9 格式之外,無法指定長寬比,再加上缺乏對圖像或風格參考的支援,使得根據特定的創意願景調整輸出變得具有挑戰性。這迫使使用者嚴重依賴文字提示,而文字提示很難微調以獲得精確的結果。相反,允許視覺輸入和對風格和構圖進行更精細控制的平台具有顯著優勢。

提示工程挑戰

鑑於自訂方面的限制,有效的提示工程在使用 Veo 2 時變得至關重要。使用者必須學會編寫詳細而精確的提示,以引導人工智慧朝向所需的結果。這需要深入了解人工智慧如何解釋語言並將其轉換為視覺內容。雖然實驗可以幫助使用者培養這項技能,但學習曲線可能很陡峭,即使是經驗豐富的提示工程師也可能難以獲得一致的結果。提示創建過程中缺少視覺回饋進一步使問題複雜化。

每月產生限制

未公開的每月產生限制給 Veo 2 的可用性增加了另一層不確定性。由於沒有關於如何計算這些限制的明確資訊,使用者可能會猶豫是否將 Veo 2 完全整合到他們的工作流程中,擔心他們會在關鍵時刻用完積分。對於依賴對人工智慧工具的可預測訪問的專業使用者來說,這種缺乏透明度尤其令人擔憂。

SynthID 浮水印的承諾

儘管存在局限性,Veo 2 確實提供了一個值得注意的優勢:包含 SynthID 浮水印。這些不可見的浮水印有助於區分人工智慧產生的內容與人類創建的內容,這在打擊錯誤資訊和深度偽造的鬥爭中變得越來越重要。雖然 SynthID 在跨不同平台和編輯過程中檢測人工智慧產生影片的有效性還有待觀察,但它的包含表明了 Google對負責任的人工智慧開發的承諾。

未來成長的潛力

重要的是要記住,Veo 2 仍處於開發的早期階段。 Google 有逐步改進其人工智慧產品的歷史,Veo 2 將來可能會收到重大更新和增強。潛在的改進可能包括:

  • 提高輸出解析度(1080p、4K)
  • 音訊整合
  • 更廣泛的自訂選項(長寬比、風格參考)
  • 改進的提示工程工具
  • 關於產生限制的更清晰資訊
  • 增強的 SynthID 浮水印技術

Veo 2 在人工智慧影片產生的大背景下

為了真正了解 Veo 2 在市場上的地位,將其與其他領先的人工智慧影片產生平台進行比較至關重要。雖然每個平台都有自己的優勢和劣勢,但了解這些差異可以幫助使用者做出明智的決定,選擇最適合他們需求的工具。

OpenAI 的 Sora

OpenAI 的 Sora 可以說是目前最受炒作的人工智慧影片產生平台。它的主要優勢包括:

  • 高品質輸出:Sora 能夠以 1080p 解析度產生影片,具有令人印象深刻的視覺逼真度。
  • 逼真的運動:Sora 擅長創建逼真且自然的運動,這對於創建令人信服的場景至關重要。
  • 複雜的場景產生:Sora 可以產生具有複雜細節以及物件和角色之間複雜互動的影片。
  • 文字到影片和圖像到影片:Sora 支援文字和圖像提示,為使用者提供了高度的靈活性。

然而,Sora 也有其局限性:

  • 有限的可用性:Sora 目前僅適用於一小部分研究人員和藝術家。
  • 高昂的計算成本:使用 Sora 產生影片需要大量的計算資源,這可能會導致未來高昂的使用成本。
  • 潛在的濫用:創建高度逼真的人工智慧產生影片的能力引發了對潛在濫用的擔憂,例如創建深度偽造。

Adobe 的 Firefly

Adobe 的 Firefly 是人工智慧影片產生領域的另一個主要參與者。它的主要優勢包括:

  • 與 Adobe Creative Suite 的整合:Firefly 與 Adobe 流行的創意工具(如 Photoshop 和 Premiere Pro)無縫整合,讓使用者可以輕鬆地將人工智慧產生的內容整合到他們現有的工作流程中。
  • 專注於商業用途:Adobe 專門針對 Firefly 的商業使用者,提供內容許可和版權保護等功能。
  • 大型訓練資料集:Firefly 在 Adobe Stock 圖像的大型資料集上進行訓練,這確保了高品質的輸出並降低了產生受版權保護材料的風險。

然而,Firefly 也有其局限性:

  • 有限的影片產生能力:雖然 Firefly 在產生圖像和紋理方面非常出色,但其影片產生能力目前不如 Sora 先進。
  • 基於訂閱的定價:訪問 Firefly 需要訂閱 Adobe Creative Cloud,這對某些使用者來說可能很昂貴。
  • 依賴 Adobe 生態系統:不熟悉 Adobe 創意工具的使用者可能會發現難以將 Firefly 整合到他們的工作流程中。

其他新興平台

除了 Sora 和 Firefly 之外,還有許多其他人工智慧影片產生平台正在湧現,每個平台都有其獨特的功能和能力。這些平台包括:

  • RunwayML:RunwayML 為創意專業人士提供一套人工智慧工具,包括影片產生、圖像編輯和風格轉換。
  • Synthesia:Synthesia 專注於為企業培訓和行銷影片創建人工智慧產生的頭像和虛擬演示者。
  • Pictory:Pictory 專門將部落格文章和文章轉換為引人入勝的社群媒體影片。

人工智慧影片產生的未來

人工智慧影片產生的領域正在迅速發展,我們可能會在未來幾年看到重大進展。一些潛在的未來趨勢包括:

  • 更高的解析度和品質:人工智慧影片產生平台將繼續提高其輸出的解析度和視覺逼真度,最終達到難以區分人工智慧產生影片與人類創建影片的地步。
  • 更逼真的運動和物理:人工智慧將更擅長模擬逼真的運動和物理,使人工智慧產生影片更具說服力和沉浸感。
  • 改進的控制和自訂:使用者將對創意過程有更多的控制權,能夠指定相機角度、光線和角色情緒等細節。
  • 與其他人工智慧技術的整合:人工智慧影片產生將與其他人工智慧技術(如自然語言處理和電腦視覺)整合,從而實現新的和創新的應用。
  • 影片創建的普及:人工智慧影片產生將使任何人都可以更輕鬆、更經濟地創建高品質的影片,無論其技術技能或預算如何。

雖然 Google 的 Veo 2 可能不是當今市場上最令人印象深刻的人工智慧影片產生平台,但它代表了人工智慧技術普及的重要一步。隨著該領域的不斷發展,我們可能會看到更強大和更易於訪問的工具出現,從而使各種創作者都能將他們的願景變為現實。