ویرایش تصویر با دستور متنی ساده

عصر جدیدی از دستکاری تصویر

برخلاف بسیاری از ابزارهای هوش مصنوعی تصویر موجود که عمدتاً بر تولید تصاویر کاملاً جدید از ابتدا تمرکز دارند، Gemini 2.0 Flash از طریق ظرفیت خود برای درک و اصلاح عکس‌های موجود متمایز می‌شود. این سیستم محتوای یک عکس را به خوبی درک می‌کند که می‌تواند بر اساس دستورالعمل‌های مکالمه‌ای، تغییرات خاصی را ایجاد کند، در حالی که ماهیت تصویر اصلی را حفظ می‌کند.

این شاهکار قابل توجه از طریق ماهیت چندوجهی بومی Gemini 2.0 به دست می‌آید. این مدل به طور یکپارچه متن و تصاویر را به طور همزمان پردازش می‌کند. این مدل به طرز مبتکرانه‌ای تصاویر را به “توکن” تبدیل می‌کند - همان واحدهای اساسی که برای پردازش متن به کار می‌برد. این به آن اجازه می‌دهد تا محتوای بصری را با استفاده از همان مسیرهای عصبی که برای درک زبان استفاده می‌کند، دستکاری کند. این رویکرد یکپارچه نیاز به مدل‌های جداگانه و تخصصی برای مدیریت انواع مختلف رسانه را از بین می‌برد و کل فرآیند را ساده می‌کند.

گوگل در بیانیه رسمی خود اعلام کرد: ‘Gemini 2.0 Flash از ورودی چندوجهی، استدلال پیشرفته و درک زبان طبیعی برای ایجاد تصاویر استفاده می‌کند.’ ‘تصور کنید از Gemini 2.0 Flash برای گفتن یک داستان استفاده می‌کنید و آن را با تصاویر نشان می‌دهد و سازگاری در شخصیت‌ها و تنظیمات را حفظ می‌کند. بازخورد ارائه دهید و مدل داستان را تطبیق می‌دهد یا سبک نقاشی‌های خود را تغییر می‌دهد.’

این رویکرد گوگل را از رقبایی مانند OpenAI متمایز می‌کند. در حالی که ChatGPT می‌تواند با استفاده از Dall-E 3 تصاویری تولید کند و با درک زبان طبیعی روی ساخته‌های خود تکرار کند، برای دستیابی به این امر به یک مدل هوش مصنوعی جداگانه متکی است. در اصل، ChatGPT یک تعامل پیچیده بین GPT-V برای بینایی، GPT-4o برای زبان و Dall-E 3 برای تولید تصویر را هماهنگ می‌کند. با این حال، OpenAI پیش‌بینی می‌کند که با GPT-5 آینده به یک مدل واحد و فراگیر دست یابد.

یک مفهوم موازی در قلمرو متن‌باز با OmniGen وجود دارد که توسط محققان آکادمی هوش مصنوعی پکن توسعه یافته است. سازندگان آن ‘تولید انواع تصاویر را مستقیماً از طریق دستورالعمل‌های چندوجهی دلخواه، بدون نیاز به افزونه‌ها یا عملیات اضافی، مشابه نحوه عملکرد GPT در تولید زبان’ پیش‌بینی می‌کنند.

OmniGen دارای قابلیت‌هایی مانند تغییر اشیاء، ادغام صحنه و تنظیمات زیبایی است. با این حال، به طور قابل توجهی کاربرپسندتر از Gemini جدید است، با وضوح پایین‌تر عمل می‌کند، به دستورات پیچیده‌تری نیاز دارد و در نهایت فاقد قدرت محض ارائه گوگل است. با این وجود، یک جایگزین متن‌باز قانع‌کننده برای کاربران خاص ارائه می‌دهد.

آزمایش Gemini 2.0 Flash

برای درک واقعی قابلیت‌ها و محدودیت‌های Gemini 2.0 Flash، مجموعه‌ای از آزمایش‌های عملی انجام شد که سناریوهای مختلف ویرایش را بررسی می‌کرد. نتایج هم نقاط قوت چشمگیر و هم برخی زمینه‌ها را برای بهبود بالقوه نشان می‌دهد.

اصلاح سوژه‌های واقعی با دقت

این مدل هنگام اصلاح سوژه‌های واقعی، انسجام قابل توجهی از خود نشان می‌دهد. به عنوان مثال، در یک آزمایش سلف پرتره، درخواست برای افزودن تعریف عضله نتیجه مطلوب را به همراه داشت. در حالی که تغییرات جزئی در صورت رخ داد، شناخت کلی حفظ شد.

مهمتر از همه، سایر عناصر موجود در عکس تا حد زیادی دست نخورده باقی ماندند، که نشان دهنده توانایی هوش مصنوعی برای تمرکز صرفاً بر روی اصلاح مشخص شده است. این قابلیت ویرایش هدفمند در تضاد شدید با رویکردهای تولیدی معمولی است که اغلب کل تصاویر را بازسازی می‌کنند و به طور بالقوه تغییرات ناخواسته‌ای را ایجاد می‌کنند.

همچنین توجه به پادمان‌های داخلی مدل مهم است. این مدل به طور مداوم از ویرایش عکس‌های کودکان خودداری می‌کند و از رسیدگی به هرگونه محتوای مربوط به برهنگی اجتناب می‌کند، که نشان دهنده تعهد گوگل به توسعه مسئولانه هوش مصنوعی است. برای کاربرانی که به دنبال کاوش در دستکاری‌های تصویری جسورانه‌تر هستند، OmniGen ممکن است گزینه مناسب‌تری باشد.

تسلط بر تبدیل‌های سبک

Gemini 2.0 Flash استعداد قابل توجهی برای تبدیل سبک نشان می‌دهد. درخواست برای تبدیل عکسی از دونالد ترامپ به سبک مانگای ژاپنی پس از چند بار تلاش، یک بازآفرینی موفق را به همراه داشت.

این مدل به طرز ماهرانه‌ای طیف گسترده‌ای از انتقال‌های سبک را مدیریت می‌کند و عکس‌ها را به نقاشی، نقاشی‌های رنگ روغن یا تقریباً هر سبک هنری قابل تصوری تبدیل می‌کند. کاربران می‌توانند نتایج را با تنظیم تنظیمات دما و جابجایی فیلترهای مختلف تنظیم کنند. با این حال، شایان ذکر است که تنظیمات دمای بالاتر تمایل به تولید تبدیل‌هایی دارند که کمتر به تصویر اصلی وفادار هستند.

یک محدودیت قابل توجه زمانی ظاهر می‌شود که سبک‌های مرتبط با هنرمندان خاص درخواست شود. آزمایش‌های مربوط به سبک‌های لئوناردو داوینچی، میکل آنژ، بوتیچلی یا ون گوگ منجر به این شد که هوش مصنوعی نقاشی‌های واقعی این استادان را بازتولید کند، نه اینکه تکنیک‌های متمایز آنها را روی تصویر منبع اعمال کند.

با کمی اصلاح سریع و چند بار تکرار، می‌توان به یک نتیجه قابل استفاده، هرچند متوسط، دست یافت. به طور کلی، درخواست سبک هنری مورد نظر به جای هنرمند خاص، موثرتر است.

هنر دستکاری عناصر

برای کارهای ویرایش عملی، Gemini 2.0 Flash واقعاً عالی است. این مدل به طرز ماهرانه‌ای نقاشی داخلی و دستکاری اشیاء را انجام می‌دهد، اشیاء خاص را به محض درخواست به طور یکپارچه حذف می‌کند یا عناصر جدیدی را به یک ترکیب اضافه می‌کند. در یک آزمایش، از هوش مصنوعی خواسته شد که یک بسکتبال را با یک مرغ لاستیکی غول پیکر جایگزین کند و نتیجه‌ای طنزآمیز و در عین حال از نظر متنی مناسب ارائه دهد.

در حالی که تغییرات جزئی گاه به گاه در سوژه‌ها ممکن است رخ دهد، این موارد معمولاً با ابزارهای ویرایش دیجیتال استاندارد در عرض چند ثانیه به راحتی قابل اصلاح هستند.

شاید بحث برانگیزترین موضوع، این مدل مهارتی در حذف محافظت از کپی رایت نشان می‌دهد - ویژگی‌ای که بحث‌های قابل توجهی را در پلتفرم‌هایی مانند X برانگیخته است. هنگامی که تصویری حاوی واترمارک به آن ارائه شد و به آن دستور داده شد که تمام حروف، آرم‌ها و واترمارک‌ها را حذف کند، Gemini یک تصویر تمیز تولید کرد که عملاً از نسخه اصلی بدون واترمارک غیرقابل تشخیص بود.

پیمایش تغییرات پرسپکتیو

یکی از چشمگیرترین جنبه‌های فنی Gemini توانایی آن در تغییر پرسپکتیو است - شاهکاری که مدل‌های انتشار جریان اصلی معمولاً با آن دست و پنجه نرم می‌کنند. هوش مصنوعی می‌تواند صحنه‌ای را از زوایای مختلف دوباره تصور کند، اگرچه نتایج اساساً خلاقیت‌های جدیدی هستند تا تبدیل‌های دقیق نسخه اصلی.

در حالی که تغییرات پرسپکتیو نتایج بی‌نقصی به همراه ندارد - این مدل، در نهایت، کل تصویر را از یک دیدگاه جدید مفهوم‌سازی می‌کند - آنها پیشرفت قابل توجهی در درک هوش مصنوعی از فضای سه بعدی بر اساس ورودی‌های دو بعدی نشان می‌دهند.

عبارت‌بندی مناسب هنگام دستور دادن به مدل برای دستکاری پس‌زمینه‌ها بسیار مهم است. اغلب تمایل دارد کل تصویر را تغییر دهد و در نتیجه ترکیبی کاملاً متفاوت ایجاد کند.

به عنوان مثال، در یک آزمایش، از Gemini خواسته شد پس‌زمینه عکسی را تغییر دهد و یک ربات نشسته را به جای مکان اصلی خود در مصر قرار دهد. این دستورالعمل صریحاً بیان می‌کرد که سوژه را تغییر ندهد. با این حال، این مدل برای انجام دقیق این وظیفه خاص با مشکل مواجه شد، در عوض یک ترکیب کاملاً جدید با اهرام ارائه کرد، با یک ربات ایستاده، اما نه به عنوان تمرکز اصلی.

یکی دیگر از محدودیت‌های مشاهده شده این است که در حالی که مدل می‌تواند چندین بار روی یک تصویر تکرار کند، کیفیت جزئیات با هر تکرار متوالی کاهش می‌یابد. بنابراین، هنگام انجام ویرایش‌های گسترده، توجه به کاهش کیفیت بالقوه ضروری است.

این مدل آزمایشی در حال حاضر از طریق Google AI Studio و Gemini API در تمام مناطق پشتیبانی شده برای توسعه دهندگان در دسترس است. همچنین برای کاربرانی که ترجیح می‌دهند اطلاعات خود را با Google به اشتراک نگذارند، در Hugging Face در دسترس است.

در خاتمه، به نظر می‌رسد این پیشنهاد جدید گوگل یک گوهر پنهان است، درست مانند NotebookLM. این مدل به چیزی دست می‌یابد که مدل‌های دیگر نمی‌توانند، و این کار را با سطح خوبی از مهارت انجام می‌دهد، با این حال نسبتاً ناشناخته باقی می‌ماند. بدون شک ارزش کاوش برای کاربرانی را دارد که می‌خواهند پتانسیل هوش مصنوعی مولد را در ویرایش تصویر آزمایش کنند و در این راه کمی سرگرمی خلاقانه داشته باشند. توانایی توصیف ساده تغییرات مورد نظر به زبان ساده، دنیایی از امکانات را هم برای کاربران معمولی و هم برای حرفه‌ای‌ها باز می‌کند و گامی مهم به جلو در دموکراتیک کردن دستکاری تصویر است. این فناوری پتانسیل تغییر شکل نحوه تعامل ما با محتوای بصری را دارد و تکنیک‌های ویرایش پیشرفته را برای همه، صرف نظر از مهارت‌های فنی آنها، در دسترس قرار می‌دهد. پیامدها گسترده هستند، از بهبود عکس‌های شخصی گرفته تا گردش کار طراحی حرفه‌ای، و حتی ایجاد اشکال کاملاً جدیدی از هنر بصری. با ادامه تکامل این فناوری، مشاهده تأثیر آن بر چشم‌انداز خلاقانه شگفت‌انگیز خواهد بود.