گوگل رسماً وارد عرصه ویدیویی هوش مصنوعی شده است و مدل ویدیویی هوش مصنوعی Veo 2 خود را در اختیار مشترکین Gemini Advanced قرار داده است.
این نشان دهنده اولین نمایش عمومی فناوری ویدیویی هوش مصنوعی گوگل است، البته در بدو ورود، پشت یک دیوار پرداختی قرار دارد.
کسانی که مشتاق به آزمایش Veo 2 هستند، میتوانند از یک دوره آزمایشی یک ماهه رایگان اشتراک ممتاز Google One AI، که شامل دسترسی به Gemini Advanced است، بهرهمند شوند. پس از دوره آزمایشی، قیمت اشتراک ماهانه 20 دلار است. Veo 2 همچنین در پروژه انیمیشن هوش مصنوعی جدید Google Labs ادغام شده است. گوگل قصد دارد در آینده دسترسی Veo 2 را برای کاربران رایگان گسترش دهد.
ظهور ویدیوهای هوش مصنوعی نشان دهنده آخرین تکامل در هوش مصنوعی مولد است. انتشار گسترده Veo 2 توسط گوگل، به دنبال ابتکارات مشابه توسط OpenAI (Sora) و Adobe (Firefly) انجام میشود. بخش خدمات خلاقانه هوش مصنوعی به طور فزایندهای رقابتی میشود و شرکتهای بزرگ فناوری از مدلهای ویدیویی هوش مصنوعی خود رونمایی میکنند. ورود گوگل نشان دهنده افزایش شتاب در ارائه خدمات ویدیویی هوش مصنوعی است.
خط مشی حریم خصوصی Gemini گوگل تصریح میکند که ممکن است دادهها را از تعاملات کاربر، از جمله چتها و فایلها جمعآوری کند و به کاربران توصیه میکند از به اشتراک گذاشتن اطلاعات محرمانه خودداری کنند. با رضایت به خط مشی هوش مصنوعی مولد گوگل، کاربران موافقت میکنند که از دستورالعملهای استفاده قابل قبول شرکت پیروی کنند که هدف آن جلوگیری از ایجاد محتوای مضر یا غیرقانونی است.
کاربران میتوانند از طریق وبسایت یا برنامه تلفن همراه Gemini، با انتخاب Veo 2 از گزینههای مدل در رابط Gemini Advanced، کلیپهای کوتاه هوش مصنوعی تولید کنند. ویدیوها معمولاً در عرض یک یا دو دقیقه تولید میشوند.
این کلیپهای تولید شده توسط هوش مصنوعی به مدت هشت ثانیه و وضوح 720p محدود میشوند و فاقد صدا هستند. Gemini به طور خودکار ویدیوها را در قالب افقی 16:9 رندر میکند و هیچ گزینه ظاهری برای اندازههای جایگزین، حتی زمانی که در دستورالعمل مشخص شده باشد، وجود ندارد. علاوه بر این، کاربران نمیتوانند تصاویر یا مراجع سبک را آپلود کنند، که مستلزم مهارت در مهندسی دستورالعمل هوش مصنوعی برای دستیابی به نتایج ویدیویی مورد نظر است.
محدودیتهایی در تعداد ویدیوهایی که کاربران میتوانند به صورت ماهانه تولید کنند وجود دارد، اگرچه اندازه گیری دقیق این اعتبارات تعریف نشده باقی مانده است. گوگل نشان میدهد که کاربران هنگام نزدیک شدن به محدودیت خود، هشداری را در Gemini دریافت خواهند کرد.
واترمارکهای SynthID گوگل به طور خودکار در ویدیوهای Veo 2 تعبیه میشوند. این واترمارکهای نامحسوس برای شناسایی محتوایی که به طور کامل توسط هوش مصنوعی تولید شده است، عمل میکنند. گوگل همچنین از این فناوری برای تصاویری که با استفاده از مدل تبدیل متن به تصویر Imagen 3 خود تولید میکند، استفاده میکند.
ارزیابیهای اولیه Veo 2 نشان میدهد که ویدیوها رضایتبخش هستند اما چشمگیر نیستند. Gemini انطباق شایستهای با دستورالعملها نشان داد و با کمترین خطا یا ناهماهنگی، محتوا را به طور دقیق تولید کرد. با این حال، پلتفرمهایی مانند Sora و Firefly اجازه میدهند ویدیوهای هوش مصنوعی با وضوح بالاتر، مانند 1080p، ایجاد شوند و گزینههای سفارشیسازی گستردهتری را ارائه میدهند، که برای به حداقل رساندن ویرایش پس از تولید بسیار مهم است. در حالی که گوگل بدون شک برنامههایی برای ارتقاء Veo دارد، Veo 2 در حال حاضر به عنوان ابزاری جذاب برای آزمایش عمل میکند، اما بعید است که برای گردش کار روزمره سازندگان ضروری شود.
بررسی عمیقتر Veo 2 جمینی: یک بررسی جامع
در حالی که انتشار اولیه Veo 2 گوگل در مقایسه با رقبایی مانند Sora OpenAI و Firefly Adobe ممکن است ناامید کننده به نظر برسد، ضروری است که عمیقتر به جزئیات قابلیتها، محدودیتها و پتانسیل آن بپردازیم. درک این تفاوتهای ظریف برای هر کسی که در نظر دارد Veo 2 را در گردش کار خلاقانه خود ادغام کند، بسیار مهم است.
وضوح و کیفیت خروجی
یکی از محدودیتهای فوری Veo 2، حداکثر وضوح خروجی آن 720p است. در عصری که ویدیوهای 4K به طور فزایندهای استاندارد شدهاند و حتی دستگاههای تلفن همراه نیز قادر به ضبط با کیفیت بالا هستند، این محدودیت به طور قابل توجهی بر کیفیت درک شده محتوای تولید شده تأثیر میگذارد. در حالی که 720p ممکن است برای پستهای سریع در رسانههای اجتماعی یا ارتباطات داخلی کافی باشد، اما برای برنامههای حرفهای یا پروژههایی که به وفاداری بصری بالایی نیاز دارند، کافی نیست. رقبایی مانند Sora، که خروجی 1080p را ارائه میدهند، بلافاصله در این زمینه برتری دارند.
فقدان صدا
نبود صدا در ویدیوهای تولید شده توسط Veo 2 یکی دیگر از معایب قابل توجه است. صدا یک عنصر حیاتی در داستان سرایی ویدیویی است و عدم وجود آن مستلزم کار اضافی پس از تولید برای افزودن موسیقی، جلوههای صوتی یا دیالوگ است. این نه تنها زمان و تلاش لازم برای ایجاد یک محصول نهایی را افزایش میدهد، بلکه امکانات خلاقانه را در خود فرآیند تولید هوش مصنوعی محدود میکند. کاربرانی که امیدوارند به سرعت ویدیوهای جذاب با صدای یکپارچه ایجاد کنند، Veo 2 را در این زمینه کمبود خواهند یافت.
گزینههای سفارشیسازی محدود
گزینههای سفارشیسازی محدود Veo 2، قابلیت استفاده آن را بیشتر محدود میکند. عدم توانایی در تعیین نسبتهای تصویر فراتر از قالب استاندارد 16:9، همراه با عدم پشتیبانی از تصاویر یا مراجع سبک، تطبیق خروجی با دیدگاههای خلاقانه خاص را دشوار میکند. این امر کاربران را مجبور میکند تا به شدت به دستورالعملهای متنی به تنهایی تکیه کنند، که تنظیم دقیق آنها برای دستیابی به نتایج دقیق دشوار است. در مقابل، پلتفرمهایی که ورودی بصری و کنترل دقیقتری بر سبک و ترکیب ارائه میدهند، مزیت قابل توجهی را ارائه میدهند.
چالشهای مهندسی سریع
با توجه به محدودیتهای موجود در سفارشیسازی، مهندسی سریع موثر هنگام استفاده از Veo 2 از اهمیت بالایی برخوردار میشود. کاربران باید یاد بگیرند که دستورالعملهای دقیق و مفصلی را برای هدایت هوش مصنوعی به سمت نتیجه مطلوب ایجاد کنند. این امر مستلزم درک عمیقی از نحوه تفسیر زبان توسط هوش مصنوعی و تبدیل آن به محتوای بصری است. در حالی که آزمایش میتواند به کاربران در توسعه این مهارت کمک کند، منحنی یادگیری میتواند تند باشد و حتی مهندسان سریع با تجربه نیز ممکن است برای دستیابی به نتایج ثابت تلاش کنند. عدم وجود بازخورد بصری در طول فرآیند ایجاد سریع، مسائل را بیشتر پیچیده میکند.
محدودیتهای تولید ماهانه
محدودیتهای تولید ماهانه اعلام نشده، لایه دیگری از عدم اطمینان را به قابلیت استفاده Veo 2 اضافه میکند. بدون اطلاعات روشن در مورد نحوه محاسبه این محدودیتها، کاربران ممکن است در ادغام کامل Veo 2 در گردش کار خود مردد باشند، زیرا میترسند در یک لحظه حیاتی اعتبار خود را تمام کنند. این فقدان شفافیت به ویژه برای کاربران حرفهای که به دسترسی قابل پیشبینی به ابزارهای هوش مصنوعی متکی هستند، نگران کننده است.
وعده واترمارکهای SynthID
Veo 2 علیرغم محدودیتهایش، یک مزیت قابل توجه را ارائه میدهد: گنجاندن واترمارکهای SynthID. این واترمارکهای نامرئی به تشخیص محتوای تولید شده توسط هوش مصنوعی از محتوای ایجاد شده توسط انسان کمک میکنند، که در مبارزه با اطلاعات نادرست و دیپفیکها به طور فزایندهای مهم میشود. در حالی که اثربخشی SynthID در تشخیص ویدیوهای تولید شده توسط هوش مصنوعی در پلتفرمها و فرآیندهای ویرایشی مختلف هنوز مشخص نیست، گنجاندن آن نشان دهنده تعهد گوگل به توسعه مسئولانه هوش مصنوعی است.
پتانسیل برای رشد آینده
مهم است به یاد داشته باشیم که Veo 2 هنوز در مراحل اولیه توسعه خود است. گوگل سابقه بهبود مکرر محصولات هوش مصنوعی خود را دارد و به احتمال زیاد Veo 2 به روز رسانیها و پیشرفتهای قابل توجهی را در آینده دریافت خواهد کرد. بهبودهای بالقوه میتواند شامل موارد زیر باشد:
- افزایش وضوح خروجی (1080p، 4K)
- ادغام صدا
- گزینههای سفارشیسازی گستردهتر (نسبتهای تصویر، مراجع سبک)
- ابزارهای بهبود یافته مهندسی سریع
- اطلاعات واضحتر در مورد محدودیتهای تولید
- فناوری بهبود یافته واترمارک SynthID
Veo 2 در چارچوب گستردهتر تولید ویدیوی هوش مصنوعی
برای درک واقعی جایگاه Veo 2 در بازار، مقایسه آن با سایر پلتفرمهای پیشرو تولید ویدیوی هوش مصنوعی ضروری است. در حالی که هر پلتفرم نقاط قوت و ضعف خاص خود را دارد، درک این تفاوتها میتواند به کاربران کمک کند تا تصمیمات آگاهانهای در مورد اینکه کدام ابزار بهترین گزینه برای نیازهای آنها است، بگیرند.
Sora OpenAI
Sora OpenAI به جرات پرطرفدارترین پلتفرم تولید ویدیوی هوش مصنوعی موجود در حال حاضر است. نقاط قوت کلیدی آن عبارتند از:
- خروجی با کیفیت بالا: Sora قادر به تولید ویدیوهایی با وضوح 1080p با وفاداری بصری چشمگیر است.
- حرکت واقع گرایانه: Sora در ایجاد حرکات واقع گرایانه و طبیعی که برای ایجاد صحنههای باورپذیر بسیار مهم است، عالی است.
- تولید صحنههای پیچیده: Sora میتواند ویدیوهایی با جزئیات پیچیده و تعاملات پیچیده بین اشیاء و شخصیتها تولید کند.
- تبدیل متن به ویدیو و تصویر به ویدیو: Sora از دستورالعملهای متنی و تصویری پشتیبانی میکند و انعطاف پذیری بالایی را در اختیار کاربران قرار میدهد.
با این حال، Sora نیز محدودیتهایی دارد:
- در دسترس بودن محدود: Sora در حال حاضر فقط برای گروه منتخبی از محققان و هنرمندان در دسترس است.
- هزینه محاسباتی بالا: تولید ویدیو با Sora به منابع محاسباتی قابل توجهی نیاز دارد، که میتواند منجر به هزینههای بالای استفاده در آینده شود.
- پتانسیل سوء استفاده: توانایی ایجاد ویدیوهای تولید شده توسط هوش مصنوعی بسیار واقع گرایانه، نگرانیهایی را در مورد پتانسیل سوء استفاده، مانند ایجاد دیپفیکها، ایجاد میکند.
Firefly Adobe
Firefly Adobe یکی دیگر از بازیگران اصلی در فضای تولید ویدیوی هوش مصنوعی است. نقاط قوت کلیدی آن عبارتند از:
- ادغام با Adobe Creative Suite: Firefly به طور یکپارچه با ابزارهای خلاقانه محبوب Adobe، مانند Photoshop و Premiere Pro، ادغام شده است و ادغام محتوای تولید شده توسط هوش مصنوعی را در گردش کار موجود خود برای کاربران آسان میکند.
- تمرکز بر استفاده تجاری: Adobe به طور خاص Firefly را برای کاربران تجاری هدف قرار داده است و ویژگیهایی مانند مجوز محتوا و حفاظت از حق چاپ را ارائه میدهد.
- مجموعه داده آموزشی بزرگ: Firefly بر روی مجموعه داده عظیمی از تصاویر Adobe Stock آموزش داده شده است، که خروجی با کیفیت بالا را تضمین میکند و خطر تولید مطالب دارای حق چاپ را کاهش میدهد.
با این حال، Firefly نیز محدودیتهایی دارد:
- قابلیتهای محدود تولید ویدیو: در حالی که Firefly برای تولید تصاویر و بافتها عالی است، قابلیتهای تولید ویدیوی آن در حال حاضر نسبت به Sora کمتر پیشرفته است.
- قیمتگذاری مبتنی بر اشتراک: دسترسی به Firefly به اشتراک در Adobe Creative Cloud نیاز دارد، که میتواند برای برخی از کاربران گران باشد.
- وابستگی به اکوسیستم Adobe: کاربرانی که از قبل با ابزارهای خلاقانه Adobe آشنا نیستند، ممکن است ادغام Firefly در گردش کار خود را دشوار بدانند.
سایر پلتفرمهای نوظهور
علاوه بر Sora و Firefly، تعدادی از پلتفرمهای دیگر تولید ویدیوی هوش مصنوعی در حال ظهور هستند که هر کدام ویژگیها و قابلیتهای منحصر به فرد خود را دارند. این پلتفرمها عبارتند از:
- RunwayML: RunwayML مجموعهای از ابزارهای هوش مصنوعی را برای متخصصان خلاق ارائه میدهد، از جمله تولید ویدیو، ویرایش تصویر و انتقال سبک.
- Synthesia: Synthesia بر روی ایجاد آواتارهای تولید شده توسط هوش مصنوعی و مجریان مجازی برای آموزش شرکتی و ویدیوهای بازاریابی تمرکز دارد.
- Pictory: Pictory متخصص در تبدیل پستهای وبلاگ و مقالات به ویدیوهای جذاب برای رسانههای اجتماعی است.
آینده تولید ویدیوی هوش مصنوعی
حوزه تولید ویدیوی هوش مصنوعی به سرعت در حال تحول است و به احتمال زیاد شاهد پیشرفتهای قابل توجهی در سالهای آینده خواهیم بود. برخی از روندهای بالقوه آینده عبارتند از:
- وضوح و کیفیت بالاتر: پلتفرمهای تولید ویدیوی هوش مصنوعی به بهبود وضوح و وفاداری بصری خروجی خود ادامه خواهند داد و در نهایت به نقطهای میرسند که تشخیص ویدیوهای تولید شده توسط هوش مصنوعی از ویدیوهای ایجاد شده توسط انسان دشوار باشد.
- حرکت و فیزیک واقع گرایانهتر: هوش مصنوعی در شبیهسازی حرکت و فیزیک واقع گرایانه بهتر خواهد شد و ویدیوهای تولید شده توسط هوش مصنوعی را باورپذیرتر و فراگیرتر میکند.
- کنترل و سفارشیسازی بهبود یافته: کاربران کنترل بیشتری بر فرآیند خلاقانه خواهند داشت و میتوانند جزئیاتی مانند زوایای دوربین، نورپردازی و احساسات شخصیت را مشخص کنند.
- ادغام با سایر فناوریهای هوش مصنوعی: تولید ویدیوی هوش مصنوعی با سایر فناوریهای هوش مصنوعی، مانند پردازش زبان طبیعی و بینایی کامپیوتر ادغام خواهد شد و برنامههای جدید و نوآورانهای را فعال میکند.
- دموکراتیزه کردن ایجاد ویدیو: تولید ویدیوی هوش مصنوعی، ایجاد ویدیوهای با کیفیت بالا را برای همه، صرف نظر از مهارتهای فنی یا بودجه، آسانتر و مقرون به صرفهتر میکند.
در حالی که Veo 2 گوگل ممکن است چشمگیرترین پلتفرم تولید ویدیوی هوش مصنوعی در بازار امروز نباشد، اما نشان دهنده یک گام مهم رو به جلو در دموکراتیزه کردن فناوری هوش مصنوعی است. با ادامه تکامل این زمینه، به احتمال زیاد شاهد ظهور ابزارهای قدرتمندتر و در دسترستری خواهیم بود که به سازندگان از هر نوع قدرت میدهد تا دیدگاههای خود را زنده کنند.