Google официално навлезе на арената на изкуствения интелект за видео, като направи своя AI видео модел Veo 2 достъпен за абонатите на Gemini Advanced.
Това бележи публичния дебют на AI видео технологията на Google, макар и зад платена стена при своето стартиране.
Тези, които са нетърпеливи да експериментират с Veo 2, могат да се възползват от безплатен едномесечен пробен период на премиум абонамента за Google One AI, който включва достъп до Gemini Advanced. След пробния период абонаментът е на цена от $20 месечно. Veo 2 също е интегриран в новия AI анимационен проект на Google Labs. Google възнамерява да разшири достъпността на Veo 2 до безплатни потребители в бъдеще.
Появата на AI видео представлява последната еволюция в генеративния AI. Широкото пускане на Veo 2 от Google следва подобни инициативи на OpenAI (Sora) и Adobe (Firefly). Секторът на AI творческите услуги става все по-конкурентен, като големите технологични фирми представят своите AI видео модели. Навлизането на Google сигнализира за нарастващ импулс в предлагането на AI видео услуги.
Политиката на Google Gemini за поверителност гласи, че тя може да събира данни от потребителски взаимодействия, включително чатове и файлове, като съветва потребителите да не споделят поверителна информация. Съгласявайки се с политиката на Google за генеративен AI, потребителите се съгласяват да се придържат към насоките на компанията за приемлива употреба, насочени към предотвратяване на създаването на вредно или незаконно съдържание.
Потребителите могат да създават кратки AI клипове чрез уеб или мобилното приложение Gemini, като изберат Veo 2 от опциите за модели в интерфейса на Gemini Advanced. Видеоклиповете обикновено се генерират в рамките на минута или две.
Тези генерирани от AI клипове са ограничени до осем секунди продължителност и 720p резолюция, като им липсва аудио. Gemini автоматично рендира видеоклипове в хоризонтален формат 16:9, без видими опции за алтернативни размери, дори когато са посочени в подканата. Освен това, потребителите не могат да качват референции за изображения или стилове, което налага владеене на AI prompt engineering, за да се постигнат желаните видео резултати.
Има ограничения за броя на видеоклиповете, които потребителите могат да генерират месечно, въпреки че точното измерване на тези кредити остава неопределено. Google посочва, че потребителите ще получат предупреждение в Gemini, когато наближат своя лимит.
Водните знаци SynthID на Google автоматично се вграждат във Veo 2 видеоклипове. Тези незабележими водни знаци служат за идентифициране на съдържание, генерирано изцяло от AI. Google също използва тази технология за изображения, произведени с помощта на своя модел за преобразуване на текст в изображение Imagen 3.
Първоначалните оценки на Veo 2 показват, че видеоклиповете са задоволителни, но невзрачни. Gemini демонстрира похвално придържане към подканите, като точно генерира съдържание с минимални грешки или несъответствия. Въпреки това, платформи като Sora и Firefly позволяват създаването на AI видеоклипове с по-високи резолюции, като например 1080p, и предлагат по-обширни опции за персонализиране, които са от решаващо значение за минимизиране на пост-продукционното редактиране. Докато Google несъмнено има планове за Veo надстройки, Veo 2 понастоящем служи като интригуващ инструмент за експериментиране, но е малко вероятно да стане от съществено значение за ежедневните работни процеси на създателите.
По-задълбочен поглед върху Veo 2 на Gemini: Изчерпателен преглед
Въпреки че първоначалното пускане на Veo 2 на Google може да изглежда слабо в сравнение с конкуренти като Sora на OpenAI и Firefly на Adobe, от съществено значение е да се задълбочим в спецификата на неговите възможности, ограничения и потенциал. Разбирането на тези нюанси е от решаващо значение за всеки, който обмисля интегрирането на Veo 2 в своя творчески работен процес.
Резолюция и качество на изхода
Едно от най-непосредствените ограничения на Veo 2 е максималната му изходна резолюция от 720p. В ера, в която 4K видеото става все по-стандартно и дори мобилните устройства са способни да записват във висока разделителна способност, това ограничение значително влияе върху възприеманото качество на генерираното съдържание. Докато 720p може да бъде достатъчно за бързи публикации в социалните медии или вътрешни комуникации, то е недостатъчно за професионални приложения или проекти, изискващи висока визуална точност. Конкуренти като Sora, които предлагат 1080p изход, веднага имат предимство в тази област.
Липса на аудио
Липсата на аудио в генерираните от Veo 2 видеоклипове е друг забележителен недостатък. Звукът е ключов елемент на видео разказването и неговото отсъствие налага допълнителна пост-продукционна работа за добавяне на музика, звукови ефекти или диалог. Това не само увеличава времето и усилията, необходими за създаване на завършен продукт, но и ограничава творческите възможности в самия процес на AI генериране. Потребителите, които се надяват бързо да създават завладяващи видеоклипове с интегрирано аудио, ще открият, че Veo 2 липсва в това отношение.
Ограничени опции за персонализиране
Ограничените опции за персонализиране на Veo 2 допълнително ограничават използваемостта му. Невъзможността да се посочат съотношения на страните извън стандартния формат 16:9, съчетана с липсата на поддръжка за референции за изображения или стилове, затруднява адаптирането на изхода към конкретни творчески виждания. Това принуждава потребителите да разчитат в голяма степен само на текстови подкани, които може да бъде трудно да се настроят фино за постигане на точни резултати. За разлика от това, платформите, които позволяват визуален вход и по-детайлен контрол върху стила и композицията, предлагат значително предимство.
Предизвикателства при Prompt Engineering
Предвид ограниченията в персонализирането, ефективният prompt engineering става от първостепенно значение при използването на Veo 2. Потребителите трябва да се научат да създават подробни и прецизни подкани, за да насочват AI към желания резултат. Това изисква дълбоко разбиране на това как AI интерпретира езика и го превръща във визуално съдържание. Докато експериментирането може да помогне на потребителите да развият това умение, кривата на обучение може да бъде стръмна и дори опитни prompt инженери могат да се затруднят да постигнат последователни резултати. Липсата на визуална обратна връзка по време на процеса на създаване на подкани допълнително усложнява нещата.
Месечни лимити за генериране
Неразкритите месечни лимити за генериране добавят още един слой несигурност към използваемостта на Veo 2. Без ясна информация за това как се изчисляват тези лимити, потребителите може да се поколебаят да интегрират напълно Veo 2 в своя работен процес, опасявайки се, че ще им свършат кредитите в критичен момент. Тази липса на прозрачност е особено тревожна за професионални потребители, които разчитат на предвидим достъп до AI инструменти.
Обещанието на водните знаци SynthID
Въпреки своите ограничения, Veo 2 предлага едно забележително предимство: включването на водни знаци SynthID. Тези невидими водни знаци помагат да се разграничи генерираното от AI съдържание от създаденото от човека съдържание, което става все по-важно в борбата срещу дезинформацията и deepfakes. Докато ефективността на SynthID при откриване на генерирани от AI видеоклипове в различни платформи и процеси на редактиране тепърва ще се види, включването му сигнализира за ангажимента на Google към отговорното развитие на AI.
Потенциал за бъдещ растеж
Важно е да запомните, че Veo 2 все още е в ранните етапи на разработка. Google има история на итеративно подобряване на своите AI продукти и е вероятно Veo 2 да получи значителни актуализации и подобрения в бъдеще. Потенциалните подобрения могат да включват:
- Увеличена изходна резолюция (1080p, 4K)
- Аудио интеграция
- По-обширни опции за персонализиране (съотношения на страните, референции за стилове)
- Подобрени инструменти за prompt engineering
- По-ясна информация за лимитите за генериране
- Подобрена технология за водни знаци SynthID
Veo 2 в по-широкия контекст на AI генерирането на видео
За да разберем наистина позицията на Veo 2 на пазара, е от решаващо значение да го сравним с други водещи платформи за генериране на AI видео. Докато всяка платформа има своите силни и слаби страни, разбирането на тези разлики може да помогне на потребителите да вземат информирани решения за това кой инструмент най-добре отговаря на техните нужди.
Sora на OpenAI
Sora на OpenAI е може би най-разшумялата платформа за генериране на AI видео, която е достъпна в момента. Нейните ключови силни страни включват:
- Висококачествен изход: Sora е способен да генерира видеоклипове с 1080p резолюция с впечатляваща визуална точност.
- Реалистично движение: Sora се отличава със създаването на реалистично и естествено изглеждащо движение, което е от решаващо значение за създаването на правдоподобни сцени.
- Генериране на сложни сцени: Sora може да генерира видеоклипове със сложни детайли и сложни взаимодействия между обекти и герои.
- Текст-към-видео и изображение-към-видео: Sora поддържа както текстови, така и изображения подкани, предоставяйки на потребителите висока степен на гъвкавост.
Въпреки това, Sora също има своите ограничения:
- Ограничена наличност: Sora в момента е достъпен само за избрана група изследователи и художници.
- Висока изчислителна цена: Генерирането на видеоклипове със Sora изисква значителни изчислителни ресурси, което може да доведе до високи разходи за използване в бъдеще.
- Потенциал за злоупотреба: Възможността за създаване на силно реалистични AI генерирани видеоклипове повдига опасения относно потенциала за злоупотреба, като например създаването на deepfakes.
Firefly на Adobe
Firefly на Adobe е друг основен играч в пространството за генериране на AI видео. Нейните ключови силни страни включват:
- Интеграция с Adobe Creative Suite: Firefly е безпроблемно интегриран с популярните творчески инструменти на Adobe, като Photoshop и Premiere Pro, което улеснява потребителите да включат генерирано от AI съдържание в съществуващите си работни процеси.
- Фокус върху търговската употреба: Adobe конкретно насочва Firefly към търговски потребители, предлагайки функции като лицензиране на съдържание и защита на авторските права.
- Голям набор от данни за обучение: Firefly е обучен върху масивен набор от данни от Adobe Stock изображения, което гарантира висококачествен изход и намалява риска от генериране на материали, защитени с авторски права.
Въпреки това, Firefly също има своите ограничения:
- Ограничени възможности за генериране на видео: Въпреки че Firefly е отличен за генериране на изображения и текстури, нейните възможности за генериране на видео понастоящем са по-малко напреднали от тези на Sora.
- Ценообразуване на базата на абонамент: Достъпът до Firefly изисква абонамент за Adobe Creative Cloud, който може да бъде скъп за някои потребители.
- Зависимост от екосистемата на Adobe: Потребителите, които вече не са запознати с творческите инструменти на Adobe, може да им е трудно да интегрират Firefly в своя работен процес.
Други нововъзникващи платформи
В допълнение към Sora и Firefly, редица други платформи за генериране на AI видео се появяват, всяка със свои собствени уникални характеристики и възможности. Тези платформи включват:
- RunwayML: RunwayML предлага набор от AI инструменти за творчески професионалисти, включително генериране на видео, редактиране на изображения и прехвърляне на стилове.
- Synthesia: Synthesia се фокусира върху създаването на генерирани от AI аватари и виртуални водещи за корпоративно обучение и маркетингови видеоклипове.
- Pictory: Pictory специализира в превръщането на публикации в блогове и статии в завладяващи видеоклипове за социални медии.
Бъдещето на AI генерирането на видео
Областта на AI генерирането на видео бързо се развива и е вероятно да видим значителен напредък през следващите години. Някои потенциални бъдещи тенденции включват:
- По-висока резолюция и качество: Платформите за генериране на AI видео ще продължат да подобряват резолюцията и визуалната точност на своя изход, като в крайна сметка достигнат точката, в която е трудно да се разграничат генерираните от AI видеоклипове от създадените от човека видеоклипове.
- По-реалистично движение и физика: AI ще стане по-добър в симулирането на реалистично движение и физика, което ще направи генерираните от AI видеоклипове по-правдоподобни и поглъщащи.
- Подобрен контрол и персонализиране: Потребителите ще имат повече контрол върху творческия процес, с възможност да посочат детайли като ъгли на камерата, осветление и емоции на героите.
- Интеграция с други AI технологии: AI генерирането на видео ще бъде интегрирано с други AI технологии, като обработка на естествен език и компютърно зрение, което ще даде възможност за нови и иновативни приложения.
- Демократизация на създаването на видео: AI генерирането на видео ще улесни и ще направи по-достъпно за всеки да създава висококачествени видеоклипове, независимо от техните технически умения или бюджет.
Въпреки че Veo 2 на Google може да не е най-впечатляващата платформа за генериране на AI видео на пазара днес, тя представлява важна стъпка напред в демократизацията на AI технологията. Тъй като областта продължава да се развива, е вероятно да видим още по-мощни и достъпни инструменти да се появят, давайки възможност на творците от всякакъв вид да вдъхнат живот на своите визии.