عصر جدیدی از دستکاری تصویر
برخلاف بسیاری از ابزارهای هوش مصنوعی تصویر موجود که عمدتاً بر تولید تصاویر کاملاً جدید از ابتدا تمرکز دارند، Gemini 2.0 Flash از طریق ظرفیت خود برای درک و اصلاح عکسهای موجود متمایز میشود. این سیستم محتوای یک عکس را به خوبی درک میکند که میتواند بر اساس دستورالعملهای مکالمهای، تغییرات خاصی را ایجاد کند، در حالی که ماهیت تصویر اصلی را حفظ میکند.
این شاهکار قابل توجه از طریق ماهیت چندوجهی بومی Gemini 2.0 به دست میآید. این مدل به طور یکپارچه متن و تصاویر را به طور همزمان پردازش میکند. این مدل به طرز مبتکرانهای تصاویر را به “توکن” تبدیل میکند - همان واحدهای اساسی که برای پردازش متن به کار میبرد. این به آن اجازه میدهد تا محتوای بصری را با استفاده از همان مسیرهای عصبی که برای درک زبان استفاده میکند، دستکاری کند. این رویکرد یکپارچه نیاز به مدلهای جداگانه و تخصصی برای مدیریت انواع مختلف رسانه را از بین میبرد و کل فرآیند را ساده میکند.
گوگل در بیانیه رسمی خود اعلام کرد: ‘Gemini 2.0 Flash از ورودی چندوجهی، استدلال پیشرفته و درک زبان طبیعی برای ایجاد تصاویر استفاده میکند.’ ‘تصور کنید از Gemini 2.0 Flash برای گفتن یک داستان استفاده میکنید و آن را با تصاویر نشان میدهد و سازگاری در شخصیتها و تنظیمات را حفظ میکند. بازخورد ارائه دهید و مدل داستان را تطبیق میدهد یا سبک نقاشیهای خود را تغییر میدهد.’
این رویکرد گوگل را از رقبایی مانند OpenAI متمایز میکند. در حالی که ChatGPT میتواند با استفاده از Dall-E 3 تصاویری تولید کند و با درک زبان طبیعی روی ساختههای خود تکرار کند، برای دستیابی به این امر به یک مدل هوش مصنوعی جداگانه متکی است. در اصل، ChatGPT یک تعامل پیچیده بین GPT-V برای بینایی، GPT-4o برای زبان و Dall-E 3 برای تولید تصویر را هماهنگ میکند. با این حال، OpenAI پیشبینی میکند که با GPT-5 آینده به یک مدل واحد و فراگیر دست یابد.
یک مفهوم موازی در قلمرو متنباز با OmniGen وجود دارد که توسط محققان آکادمی هوش مصنوعی پکن توسعه یافته است. سازندگان آن ‘تولید انواع تصاویر را مستقیماً از طریق دستورالعملهای چندوجهی دلخواه، بدون نیاز به افزونهها یا عملیات اضافی، مشابه نحوه عملکرد GPT در تولید زبان’ پیشبینی میکنند.
OmniGen دارای قابلیتهایی مانند تغییر اشیاء، ادغام صحنه و تنظیمات زیبایی است. با این حال، به طور قابل توجهی کاربرپسندتر از Gemini جدید است، با وضوح پایینتر عمل میکند، به دستورات پیچیدهتری نیاز دارد و در نهایت فاقد قدرت محض ارائه گوگل است. با این وجود، یک جایگزین متنباز قانعکننده برای کاربران خاص ارائه میدهد.
آزمایش Gemini 2.0 Flash
برای درک واقعی قابلیتها و محدودیتهای Gemini 2.0 Flash، مجموعهای از آزمایشهای عملی انجام شد که سناریوهای مختلف ویرایش را بررسی میکرد. نتایج هم نقاط قوت چشمگیر و هم برخی زمینهها را برای بهبود بالقوه نشان میدهد.
اصلاح سوژههای واقعی با دقت
این مدل هنگام اصلاح سوژههای واقعی، انسجام قابل توجهی از خود نشان میدهد. به عنوان مثال، در یک آزمایش سلف پرتره، درخواست برای افزودن تعریف عضله نتیجه مطلوب را به همراه داشت. در حالی که تغییرات جزئی در صورت رخ داد، شناخت کلی حفظ شد.
مهمتر از همه، سایر عناصر موجود در عکس تا حد زیادی دست نخورده باقی ماندند، که نشان دهنده توانایی هوش مصنوعی برای تمرکز صرفاً بر روی اصلاح مشخص شده است. این قابلیت ویرایش هدفمند در تضاد شدید با رویکردهای تولیدی معمولی است که اغلب کل تصاویر را بازسازی میکنند و به طور بالقوه تغییرات ناخواستهای را ایجاد میکنند.
همچنین توجه به پادمانهای داخلی مدل مهم است. این مدل به طور مداوم از ویرایش عکسهای کودکان خودداری میکند و از رسیدگی به هرگونه محتوای مربوط به برهنگی اجتناب میکند، که نشان دهنده تعهد گوگل به توسعه مسئولانه هوش مصنوعی است. برای کاربرانی که به دنبال کاوش در دستکاریهای تصویری جسورانهتر هستند، OmniGen ممکن است گزینه مناسبتری باشد.
تسلط بر تبدیلهای سبک
Gemini 2.0 Flash استعداد قابل توجهی برای تبدیل سبک نشان میدهد. درخواست برای تبدیل عکسی از دونالد ترامپ به سبک مانگای ژاپنی پس از چند بار تلاش، یک بازآفرینی موفق را به همراه داشت.
این مدل به طرز ماهرانهای طیف گستردهای از انتقالهای سبک را مدیریت میکند و عکسها را به نقاشی، نقاشیهای رنگ روغن یا تقریباً هر سبک هنری قابل تصوری تبدیل میکند. کاربران میتوانند نتایج را با تنظیم تنظیمات دما و جابجایی فیلترهای مختلف تنظیم کنند. با این حال، شایان ذکر است که تنظیمات دمای بالاتر تمایل به تولید تبدیلهایی دارند که کمتر به تصویر اصلی وفادار هستند.
یک محدودیت قابل توجه زمانی ظاهر میشود که سبکهای مرتبط با هنرمندان خاص درخواست شود. آزمایشهای مربوط به سبکهای لئوناردو داوینچی، میکل آنژ، بوتیچلی یا ون گوگ منجر به این شد که هوش مصنوعی نقاشیهای واقعی این استادان را بازتولید کند، نه اینکه تکنیکهای متمایز آنها را روی تصویر منبع اعمال کند.
با کمی اصلاح سریع و چند بار تکرار، میتوان به یک نتیجه قابل استفاده، هرچند متوسط، دست یافت. به طور کلی، درخواست سبک هنری مورد نظر به جای هنرمند خاص، موثرتر است.
هنر دستکاری عناصر
برای کارهای ویرایش عملی، Gemini 2.0 Flash واقعاً عالی است. این مدل به طرز ماهرانهای نقاشی داخلی و دستکاری اشیاء را انجام میدهد، اشیاء خاص را به محض درخواست به طور یکپارچه حذف میکند یا عناصر جدیدی را به یک ترکیب اضافه میکند. در یک آزمایش، از هوش مصنوعی خواسته شد که یک بسکتبال را با یک مرغ لاستیکی غول پیکر جایگزین کند و نتیجهای طنزآمیز و در عین حال از نظر متنی مناسب ارائه دهد.
در حالی که تغییرات جزئی گاه به گاه در سوژهها ممکن است رخ دهد، این موارد معمولاً با ابزارهای ویرایش دیجیتال استاندارد در عرض چند ثانیه به راحتی قابل اصلاح هستند.
شاید بحث برانگیزترین موضوع، این مدل مهارتی در حذف محافظت از کپی رایت نشان میدهد - ویژگیای که بحثهای قابل توجهی را در پلتفرمهایی مانند X برانگیخته است. هنگامی که تصویری حاوی واترمارک به آن ارائه شد و به آن دستور داده شد که تمام حروف، آرمها و واترمارکها را حذف کند، Gemini یک تصویر تمیز تولید کرد که عملاً از نسخه اصلی بدون واترمارک غیرقابل تشخیص بود.
پیمایش تغییرات پرسپکتیو
یکی از چشمگیرترین جنبههای فنی Gemini توانایی آن در تغییر پرسپکتیو است - شاهکاری که مدلهای انتشار جریان اصلی معمولاً با آن دست و پنجه نرم میکنند. هوش مصنوعی میتواند صحنهای را از زوایای مختلف دوباره تصور کند، اگرچه نتایج اساساً خلاقیتهای جدیدی هستند تا تبدیلهای دقیق نسخه اصلی.
در حالی که تغییرات پرسپکتیو نتایج بینقصی به همراه ندارد - این مدل، در نهایت، کل تصویر را از یک دیدگاه جدید مفهومسازی میکند - آنها پیشرفت قابل توجهی در درک هوش مصنوعی از فضای سه بعدی بر اساس ورودیهای دو بعدی نشان میدهند.
عبارتبندی مناسب هنگام دستور دادن به مدل برای دستکاری پسزمینهها بسیار مهم است. اغلب تمایل دارد کل تصویر را تغییر دهد و در نتیجه ترکیبی کاملاً متفاوت ایجاد کند.
به عنوان مثال، در یک آزمایش، از Gemini خواسته شد پسزمینه عکسی را تغییر دهد و یک ربات نشسته را به جای مکان اصلی خود در مصر قرار دهد. این دستورالعمل صریحاً بیان میکرد که سوژه را تغییر ندهد. با این حال، این مدل برای انجام دقیق این وظیفه خاص با مشکل مواجه شد، در عوض یک ترکیب کاملاً جدید با اهرام ارائه کرد، با یک ربات ایستاده، اما نه به عنوان تمرکز اصلی.
یکی دیگر از محدودیتهای مشاهده شده این است که در حالی که مدل میتواند چندین بار روی یک تصویر تکرار کند، کیفیت جزئیات با هر تکرار متوالی کاهش مییابد. بنابراین، هنگام انجام ویرایشهای گسترده، توجه به کاهش کیفیت بالقوه ضروری است.
این مدل آزمایشی در حال حاضر از طریق Google AI Studio و Gemini API در تمام مناطق پشتیبانی شده برای توسعه دهندگان در دسترس است. همچنین برای کاربرانی که ترجیح میدهند اطلاعات خود را با Google به اشتراک نگذارند، در Hugging Face در دسترس است.
در خاتمه، به نظر میرسد این پیشنهاد جدید گوگل یک گوهر پنهان است، درست مانند NotebookLM. این مدل به چیزی دست مییابد که مدلهای دیگر نمیتوانند، و این کار را با سطح خوبی از مهارت انجام میدهد، با این حال نسبتاً ناشناخته باقی میماند. بدون شک ارزش کاوش برای کاربرانی را دارد که میخواهند پتانسیل هوش مصنوعی مولد را در ویرایش تصویر آزمایش کنند و در این راه کمی سرگرمی خلاقانه داشته باشند. توانایی توصیف ساده تغییرات مورد نظر به زبان ساده، دنیایی از امکانات را هم برای کاربران معمولی و هم برای حرفهایها باز میکند و گامی مهم به جلو در دموکراتیک کردن دستکاری تصویر است. این فناوری پتانسیل تغییر شکل نحوه تعامل ما با محتوای بصری را دارد و تکنیکهای ویرایش پیشرفته را برای همه، صرف نظر از مهارتهای فنی آنها، در دسترس قرار میدهد. پیامدها گسترده هستند، از بهبود عکسهای شخصی گرفته تا گردش کار طراحی حرفهای، و حتی ایجاد اشکال کاملاً جدیدی از هنر بصری. با ادامه تکامل این فناوری، مشاهده تأثیر آن بر چشمانداز خلاقانه شگفتانگیز خواهد بود.