قابلیتهای چشمگیر هوش مصنوعی Gemini در حذف واترمارک
ویژگیهای ‘آزمایشی’ جدید در مدل هوش مصنوعی Gemini 2.0 Flash گوگل در حال عرضه به طیف وسیعتری از توسعهدهندگان است و برخی از قابلیتهای کشفشده، شگفتانگیز هستند. در میان این موارد، توانایی ظاهری این مدل در ویرایش یکپارچه واترمارکها از عکسها است.
تولید و ویرایش تصویر بومی
این مدل هوش مصنوعی سبک و دروندستگاهی، اکنون دارای قابلیت تولید تصویر بومی است، قابلیتی که فراتر از تولید ساده تصاویر از اعلانهای متنی است. این امکان ویرایش مکالمهای تصویر را فراهم میکند و به کاربران راهی تعاملیتر و شهودیتر برای تغییر تصاویر ارائه میدهد. در طول آخر هفته، کاربران یک قابلیت بهویژه قابل توجه را کشف کردند: دقت هوش مصنوعی در حذف واترمارکها.
یک حذفکننده ماهر واترمارک
درحالیکه ابزارهایی مانند Watermark Remover.io در حال حاضر برای حذف نشانها از شرکتهایی مانند Shutterstock وجود دارند، و درحالیکه تیم تحقیقاتی خود گوگل یک الگوریتم حذف واترمارک را در سال 2017 برای نشان دادن نیاز به اقدامات امنیتی قویتر توسعه داد، به نظر میرسد Gemini 2.0 Flash از جهاتی از این موارد پیشی میگیرد. برخی از ابزارهای هوش مصنوعی، مانند GPT-4o شرکت OpenAI، بهطور فعال درخواستهای حذف واترمارک را رد میکنند. با این حال، به نظر میرسد Gemini 2.0 Flash در حذف حتی واترمارکهای پیچیده، مانند آنهایی که توسط Getty Images استفاده میشوند، عالی عمل میکند و بهطور هوشمندانه تصویر زیرین را پر میکند.
ذکر این نکته ضروری است که پس از حذف واترمارک اصلی، Gemini 2.0 Flash یک نشان SynthID اضافه میکند، که اساساً یک اعلان کپیرایت را با یک عبارت ‘ویرایششده با هوش مصنوعی’ جایگزین میکند. با این حال، همانطور که توسط ابزارهایی مانند قابلیت پاککننده اشیاء سامسونگ نشان داده شده است، پتانسیل حذف حتی این نشانهای تولیدشده توسط هوش مصنوعی نیز وجود دارد.
نگرانیها و ملاحظات
فراتر از حذف واترمارک، کاربران همچنین مشاهده کردهاند که Gemini 2.0 Flash ظاهراً میتواند تصاویر قابلتشخیص افراد واقعی، مانند ایلان ماسک، را در عکسها بگنجاند. این قابلیتی است که مدل کامل Gemini آن را محدود میکند.
ویژگیهای مرتبط با تصویر Flash در حال حاضر فقط از طریق AI Studio برای توسعهدهندگان در دسترس است. این دسترسی محدود به این معنی است که فقدان ظاهری پادمانها هنوز برای استفاده گسترده یا سوءاستفاده احتمالی باز نیست. سؤالاتی در مورد وجود محافظهایی برای جلوگیری از اقداماتی مانند حذف واترمارک از گوگل پرسیده شده است، اما پاسخی هنوز در انتظار است.
بررسی عمیقتر پیامدها
توانایی Gemini 2.0 Flash برای حذف مؤثر واترمارکها، حتی موارد پیچیده، چندین پیامد مهم را به همراه دارد.
کپیرایت و مالکیت معنوی
سهولتی که میتوان با آن واترمارکها را حذف کرد، چالشی برای حمایت از محتوای دارای کپیرایت ایجاد میکند. واترمارکها بهعنوان یک عامل بازدارنده قابلمشاهده در برابر استفاده غیرمجاز و نشانهای واضح از مالکیت عمل میکنند. اگر این نشانها بهراحتی پاک شوند، میتواند بهطور بالقوه نقض حقوق مالکیت معنوی را تشویق کند.
اخلاق دستکاری تصویر با کمک هوش مصنوعی
توسعه ابزارهای هوش مصنوعی که قادر به چنین دستکاریهای پیچیده تصویری هستند، ملاحظات اخلاقی را به همراه دارد. درحالیکه این ابزارها میتوانند برای اهداف قانونی، مانند بازسازی عکسهای قدیمی یا حذف اشیاء ناخواسته،استفاده شوند، پتانسیل سوءاستفاده غیرقابلانکار است. توانایی تغییر قانعکننده تصاویر، از جمله حذف نشانگرهای کپیرایت، نگرانیهایی را در مورد گسترش اطلاعات نادرست و پتانسیل دستکاری مخرب ایجاد میکند.
نیاز به تکنیکهای واترمارکینگ قوی
ظهور مدلهای هوش مصنوعی مانند Gemini 2.0 Flash نیاز فوری به تکنیکهای واترمارکینگ قویتر را برجسته میکند. واترمارکهای سنتی، که اغلب بهراحتی حذف میشوند، ممکن است دیگر در عصر هوش مصنوعی پیشرفته کافی نباشند. محققان و توسعهدهندگان اکنون با چالش ایجاد روشهای واترمارکینگی روبرو هستند که هم در برابر تلاشهای حذف مبتنی بر هوش مصنوعی مقاوم باشند و هم از نظر بصری غیرقابلتشخیص باشند.
نقش هوش مصنوعی در نظارت بر خود
این واقعیت که Gemini 2.0 Flash پس از حذف واترمارک، یک نشان SynthID اضافه میکند، یک پیشرفت جالب است. این نشاندهنده نقش بالقوه هوش مصنوعی در نظارت بر خود است و تغییراتی را که در تصاویر ایجاد میکند، تأیید میکند. با این حال، سهولتی که حتی این نشانهای تولیدشده توسط هوش مصنوعی میتوانند حذف شوند، چالش مداوم تضمین شفافیت و پاسخگویی در دستکاری تصویر مبتنی بر هوش مصنوعی را برجسته میکند.
گسترش جنبههای فنی
بیایید عمیقتر به برخی از جنبههای فنی Gemini 2.0 Flash و قابلیتهای حذف واترمارک آن بپردازیم.
مدل هوش مصنوعی دروندستگاهی
تعیین Gemini 2.0 Flash بهعنوان یک ‘مدل هوش مصنوعی سبک و محلیشده دروندستگاهی’ قابلتوجه است. این بدان معنی است که پردازش موردنیاز برای عملکردهای آن، از جمله تولید و ویرایش تصویر، بهطور مستقیم در دستگاه کاربر انجام میشود، نه اینکه به سرورهای راه دور یا زیرساختهای مبتنی بر ابر متکی باشد. این رویکرد چندین مزیت دارد:
- حریم خصوصی: پردازش دادهها بهصورت محلی، نیاز به انتقال اطلاعات بالقوه حساس به سرورهای خارجی را کاهش میدهد و حریم خصوصی کاربر را افزایش میدهد.
- سرعت و پاسخگویی: پردازش دروندستگاهی میتواند منجر به زمان پاسخدهی سریعتر و تجربه کاربری یکپارچهتر شود، زیرا هیچ تأخیری در ارتباط با شبکه وجود ندارد.
- عملکرد آفلاین: توانایی کار بدون اتصال به اینترنت، یک مزیت کلیدی مدلهای هوش مصنوعی دروندستگاهی است.
تولید تصویر بومی
قابلیت ‘تولید تصویر بومی’ Gemini 2.0 Flash گامی فراتر از تولید ساده تصاویر از اعلانهای متنی است. این نشاندهنده یکپارچگی عمیقتر درک و دستکاری تصویر در مدل است. این امکان ویرایش ظریفتر و تعاملیتر را فراهم میکند، جایی که کاربران میتوانند در یک ‘گفتگو’ با هوش مصنوعی برای اصلاح و تغییر تصاویر شرکت کنند.
ویرایش مکالمهای تصویر
مفهوم ‘ویرایش مکالمهای تصویر’ بهویژه جذاب است. این مفهوم، نشاندهنده تغییر از ابزارهای ویرایش تصویر سنتی است که معمولاً به تنظیمات و انتخابهای دستی متکی هستند، به یک رویکرد شهودیتر و تعاملیتر. کاربران بهطور بالقوه میتوانند تغییرات موردنظر را به زبان طبیعی توصیف کنند و مدل هوش مصنوعی این دستورالعملها را برای انجام اصلاحات مربوطه تفسیر میکند.
الگوریتم حذف واترمارک
درحالیکه جزئیات خاص الگوریتم حذف واترمارک مورد استفاده توسط Gemini 2.0 Flash بهطور عمومی فاش نشده است، احتمالاً مبتنی بر تکنیکهای یادگیری عمیق پیشرفته است. این تکنیکها شامل آموزش شبکههای عصبی بر روی مجموعه دادههای وسیعی از تصاویر است که آنها را قادر میسازد تا الگوها، از جمله واترمارکها، را با دقت قابلتوجهی شناسایی و حذف کنند.
پر کردن تصویر
توانایی هوش مصنوعی برای ‘پر کردن تصویر’ پس از حذف واترمارک برای دستیابی به یک نتیجه یکپارچه بسیار مهم است. این امر مستلزم آن است که مدل، زمینه تصویر اطراف را درک کند و محتوای قابل قبولی را برای جایگزینی ناحیهای که قبلاً توسط واترمارک اشغال شده بود، تولید کند. این یک وظیفه پیچیده است که به توانایی هوش مصنوعی در تفسیر معناشناسی تصویر و تولید بافتها و الگوهای واقعی متکی است.
زمینه گستردهتر هوش مصنوعی در دستکاری تصویر
قابلیتهای Gemini 2.0 Flash بخشی از روند گستردهتر ابزارهای دستکاری تصویر مبتنی بر هوش مصنوعی بهطور فزایندهای پیچیده است.
شبکههای مولد تخاصمی (GANs)
GANها نقش مهمی در پیشرفت تولید و دستکاری تصویر ایفا کردهاند. این شبکهها از دو مؤلفه تشکیل شدهاند: یک مولد، که تصاویر جدیدی ایجاد میکند، و یک ممیز، که واقعگرایی تصاویر تولیدشده را ارزیابی میکند. از طریق یک فرآیند تخاصمی، مولد یاد میگیرد تصاویری بهطور فزایندهای واقعی تولید کند که میتوانند ممیز را فریب دهند.
دیپفیکها و رسانههای مصنوعی
ظهور ‘دیپفیکها’ و سایر اشکال رسانههای مصنوعی، نگرانیهایی را در مورد پتانسیل استفاده از هوش مصنوعی برای ایجاد تصاویر و ویدیوهای قانعکننده اما کاملاً ساختگی ایجاد کرده است. این فناوری پیامدهایی برای همهچیز از اطلاعات نادرست سیاسی گرفته تا حریم خصوصی شخصی دارد.
مسابقه تسلیحاتی بین ایجاد و تشخیص
همانطور که هوش مصنوعی در ایجاد و دستکاری تصاویر ماهرتر میشود، یک ‘مسابقه تسلیحاتی’ مداوم بین کسانی که این ابزارها را توسعه میدهند و کسانی که برای شناسایی و مقابله با اثرات آنها تلاش میکنند، وجود دارد. این شامل تلاشهایی برای توسعه تکنیکهای واترمارکینگ قویتر، و همچنین روشهای مبتنی بر هوش مصنوعی برای شناسایی تصاویر و ویدیوهای دستکاریشده است.
آینده ویرایش تصویر
قابلیتهای Gemini 2.0 Flash نگاهی اجمالی به آینده ویرایش تصویر ارائه میدهد. همانطور که مدلهای هوش مصنوعی قدرتمندتر میشوند و در دستگاههای ما ادغام میشوند، میتوانیم انتظار داشته باشیم که ابزارهای بهطور فزایندهای شهودی و پیچیدهای را ببینیم که مرزهای بین واقعیت و دستکاری مصنوعی را محو میکنند. این امر هم امکانات هیجانانگیز و هم چالشهای مهمی را برای آینده رسانههای بصری ایجاد میکند.
این ویژگیها آزمایشی هستند و فقط برای توسعهدهندگان در دسترس هستند و مشخص نیست که چه زمانی یا آیا برای عموم مردم در دسترس خواهند بود.