چشمانداز به سرعت در حال تحول هوش مصنوعی اغلب چرخشهای شگفتانگیزی را به همراه دارد و به نظر میرسد OpenAI، بازیگر برجسته در این حوزه، در حال بررسی یک تعدیل قابل توجه در نحوه ارائه تصاویر تولید شده توسط آخرین مدل خود، ChatGPT-4o، به کاربران است. گزارشهایی منتشر شده است که نشان میدهد این شرکت فعالانه در حال آزمایش پیادهسازی نوعی ‘واترمارک’ به طور خاص برای تصاویر بصری ایجاد شده با استفاده از سطح رایگان خدمات خود است. این حرکت بالقوه، اگرچه شاید در ظاهر ظریف باشد، پیامدهای قابل توجهی برای کاربران، استراتژی تجاری شرکت و گفتگوی گستردهتر پیرامون محتوای تولید شده توسط هوش مصنوعی دارد.
زمانبندی این بررسی به ویژه جالب است. این امر همزمان با افزایش خلاقیت کاربران است، به ویژه با بهرهگیری از توانایی چشمگیر مدل در تقلید از سبکهای هنری متمایز. یک مثال قابل توجه که اغلب ذکر میشود، تولید آثار هنری یادآور Studio Ghibli، استودیوی انیمیشنسازی مشهور ژاپنی است. در حالی که این مورد استفاده خاص ممکن است توجه را به خود جلب کند، قابلیت اساسی مدل تولید تصویر، که اغلب در چارچوب ChatGPT-4o به آن ImageGen گفته میشود، بسیار فراتر از تقلید از یک زیباییشناسی واحد است. مهارت آن، آن را به عنوان یکی از پیچیدهترین سیستمهای چندوجهی که OpenAI به صورت عمومی منتشر کرده است، مشخص میکند.
در واقع، هیاهوی اخیر پیرامون ChatGPT به طور قابل توجهی با قدرت مولد تصویر یکپارچه آن تقویت شده است. این فقط مربوط به ایجاد تصاویر زیبا از نظر زیباییشناختی نیست؛ این مدل ظرفیت قابل توجهی برای ادغام دقیق متن در تصاویر نشان میدهد - مانعی که بسیاری از سیستمهای قبلی تبدیل متن به تصویر را به چالش کشیده است. علاوه بر این، توانایی آن در تولید تصاویر بصری از تصاویر فوتورئالیستی گرفته تا آثار بسیار سبکپردازی شده، مانند هنر Ghibli-esque که پیشتر ذکر شد، تطبیقپذیری و قدرت آن را به نمایش میگذارد. این قابلیت، که زمانی امتیازی برای مشترکین ChatGPT Plus بود، اخیراً دموکراتیزه شده و برای همه کاربران، از جمله کسانی که از پلتفرم به صورت رایگان استفاده میکنند، قابل دسترس شده است. این گسترش بدون شک پایگاه کاربری آن و در نتیجه، حجم تصاویر تولید شده را افزایش داده است.
معرفی بالقوه واترمارکها به نظر میرسد مستقیماً با این دسترسی گسترده مرتبط باشد. مشاهدات محقق هوش مصنوعی Tibor Blaho، که توسط منابع مستقلی که با آزمایشهای داخلی OpenAI آشنا هستند تأیید شده است، نشان میدهد که آزمایشهایی برای جاسازی یک شناسه متمایز، احتمالاً یک واترمارک قابل مشاهده یا نامرئی، بر روی تصاویر تولید شده توسط حسابهای رایگان در حال انجام است. نقطه مقابل منطقی، که توسط این گزارشها پیشنهاد شده است، این است که کاربرانی که در سرویس پریمیوم ChatGPT Plus مشترک هستند، احتمالاً توانایی تولید و ذخیره تصاویر بدون این علامتگذاری را حفظ خواهند کرد. با این حال، بسیار مهم است که با احتیاط به این اطلاعات نزدیک شویم. OpenAI، مانند بسیاری از شرکتهای فناوری که در خط مقدم نوآوری فعالیت میکنند، نقشههای راه توسعه سیالی را حفظ میکند. برنامههایی که در حال حاضر در دست بررسی هستند، دائماً بر اساس ارزیابیهای داخلی، امکانسنجی فنی، بازخورد کاربران و اولویتبندی مجدد استراتژیک، در معرض بازنگری یا لغو قرار دارند. بنابراین، پیادهسازی واترمارکها در این مرحله به جای یک قطعیت، یک احتمال باقی میماند.
رمزگشایی قدرت ImageGen
برای درک کامل زمینه پیرامون واترمارکگذاری بالقوه، باید قابلیتهایی را که مدل ImageGen در ChatGPT-4o را بسیار جذاب میکند، درک کرد. خود OpenAI تا حدی بر پایه و اساس این فناوری نور تابانده است. در ارتباطات قبلی، این شرکت تأکید کرد که مهارت مدل ناشی از آموزش گسترده بر روی مجموعه دادههای وسیعی است که شامل جفت تصاویر و توضیحات متنی برگرفته از اینترنت است. این رژیم آموزشی دقیق به مدل اجازه داد تا روابط پیچیدهای را بیاموزد، نه تنها بین کلمات و تصاویر، بلکه همبستگیهای بصری پیچیده بین تصاویر مختلف را نیز بیاموزد.
OpenAI در این باره توضیح داد: ‘ما مدلهای خود را بر روی توزیع مشترک تصاویر و متن آنلاین آموزش دادیم و نه تنها یاد گرفتیم که چگونه تصاویر به زبان مربوط میشوند، بلکه چگونه به یکدیگر مربوط میشوند.’ این درک عمیق از طریق آنچه شرکت به عنوان ‘پسآموزش تهاجمی’ توصیف میکند، بیشتر اصلاح میشود. نتیجه، مدلی است که آنچه OpenAI ‘روانی بصری شگفتانگیز’ مینامد را به نمایش میگذارد. این روانی به تولید تصاویری ترجمه میشود که نه تنها از نظر بصری جذاب هستند، بلکه مفید، سازگار با دستورات و به شدت آگاه از زمینه هستند. این ویژگیها آن را فراتر از یک تازگی ساده ارتقا میدهند و آن را به عنوان یک ابزار بالقوه قدرتمند برای بیان خلاق، مفهومسازی طراحی و ارتباطات بصری قرار میدهند. به عنوان مثال، توانایی ارائه دقیق متن در صحنههای تولید شده، درها را برای ایجاد تصاویر سفارشی، گرافیک رسانههای اجتماعی یا حتی ماکتهای تبلیغاتی اولیه مستقیماً از طریق دستورات مکالمهای باز میکند.
ظرفیت مدل به درک دستورالعملهای ظریف شامل ترکیببندی، سبک و موضوع گسترش مییابد. کاربران میتوانند تصاویری را درخواست کنند که دارای اشیاء خاصی هستند که به روشهای خاصی چیده شدهاند، به سبک جنبشهای هنری مختلف یا هنرمندان منفرد (در چارچوب مرزهای اخلاقی و حق چاپ) ارائه شدهاند و صحنههای پیچیدهای را با چندین عنصر در تعامل به تصویر میکشند. این سطح از کنترل و وفاداری چیزی است که مدلهای پیشرفته مانند ImageGen را متمایز میکند و محبوبیت روزافزون آنها را تقویت میکند.
بررسی منطق: چرا واترمارکها معرفی شوند؟
بررسی واترمارکگذاری توسط OpenAI باعث ایجاد گمانهزنی در مورد انگیزههای اساسی میشود. در حالی که تکثیر سبکهای خاص مانند Studio Ghibli ممکن است یک علامت قابل مشاهده باشد، احتمالاً تنها یک جنبه از یک ملاحظه استراتژیک گستردهتر است. چندین عامل بالقوه میتوانند این ابتکار را هدایت کنند:
- تمایز سطوح خدمات: شاید سرراستترین دلیل تجاری، ایجاد یک پیشنهاد ارزش واضحتر برای اشتراک پولی ChatGPT Plus باشد. با ارائه تصاویر بدون واترمارک به عنوان یک مزیت پریمیوم، OpenAI انگیزه را برای کاربرانی که به شدت به تولید تصویر متکی هستند، به ویژه برای اهداف حرفهای یا عمومی، برای ارتقا تقویت میکند. این با استراتژیهای مدل فریمیوم استاندارد رایج در صنعت نرمافزار همسو است.
- منشأ و اسناد محتوا: در عصری که با پیامدهای محتوای تولید شده توسط هوش مصنوعی دست و پنجه نرم میکند، تعیین منشأ به طور فزایندهای حیاتی میشود. واترمارکها، چه قابل مشاهده باشند و چه نامرئی (استگانوگرافیک)، میتوانند به عنوان مکانیزمی برای شناسایی تصاویر نشأت گرفته از مدل هوش مصنوعی عمل کنند. این میتواند برای شفافیت بسیار مهم باشد و به بینندگان کمک کند تا بین تصاویر بصری ایجاد شده توسط انسان و هوش مصنوعی تمایز قائل شوند، که به بحثهای پیرامون دیپفیکها، اطلاعات نادرست و اصالت هنری مربوط میشود.
- مدیریت مصرف منابع: ارائه مدلهای قدرتمند هوش مصنوعی مانند ImageGen به صورت رایگان هزینههای محاسباتی قابل توجهی را به همراه دارد. تولید تصاویر با کیفیت بالا نیازمند منابع زیادی است. واترمارکگذاری خروجیهای رایگان ممکن است به طور نامحسوس استفاده با حجم بالا و بالقوه بیهوده را دلسرد کند، یا میتواند بخشی از یک استراتژی گستردهتر برای مدیریت بار عملیاتی مرتبط با خدمترسانی به پایگاه کاربری رایگان بزرگ باشد. اگرچه شاید محرک اصلی نباشد، مدیریت منابع یک نگرانی مداوم برای هر ارائهدهنده خدمات هوش مصنوعی در مقیاس بزرگ است.
- ملاحظات مالکیت معنوی: توانایی مدلهای هوش مصنوعی در تقلید از سبکهای هنری خاص، سؤالات پیچیدهای را در مورد حق چاپ و مالکیت معنوی ایجاد میکند. در حالی که OpenAI مدلهای خود را بر روی مجموعه دادههای وسیعی آموزش میدهد، خروجی گاهی اوقات میتواند شباهت زیادی به کار هنرمندان یا برندهای شناخته شده داشته باشد. واترمارکگذاری میتواند به عنوان یک اقدام اولیه، سیگنالی از منشأ تصویر، مورد بررسی قرار گیرد که به طور بالقوه مسائل پاییندستی مربوط به ادعاهای حق چاپ را کاهش میدهد، اگرچه بحثهای اصلی قانونی و اخلاقی پیرامون تقلید سبک را حل نمیکند. مثال Studio Ghibli این حساسیت را برجسته میکند.
- ترویج استفاده مسئولانه: با دسترسی و توانمندی بیشتر تولید تصویر توسط هوش مصنوعی، پتانسیل سوء استفاده افزایش مییابد. واترمارکها میتوانند به عنوان جزئی از یک چارچوب هوش مصنوعی مسئولانه عمل کنند و عبور دادن تصاویر تولید شده توسط هوش مصنوعی به عنوان عکسهای معتبر یا آثار هنری انسانی در زمینههای حساس را کمی دشوارتر کنند. این با تلاشهای گستردهتر صنعت برای توسعه استانداردهایی برای ایمنی و اخلاق هوش مصنوعی همسو است.
احتمالاً تصمیمگیری OpenAI شامل ترکیبی از این عوامل است. این شرکت باید بین ترویج پذیرش گسترده و نوآوری با حفظ یک مدل تجاری پایدار، پیمایش در زمینههای اخلاقی پیچیده و مدیریت تقاضاهای فنی پلتفرم خود تعادل برقرار کند.
بنیاد فناورانه: یادگیری از تصاویر و متن
قابلیتهای قابل توجه مدلهایی مانند ImageGen تصادفی نیستند؛ آنها نتیجه تکنیکهای پیچیده یادگیری ماشین هستند که بر روی مجموعه دادههای عظیم اعمال شدهاند. همانطور که OpenAI اشاره کرد، آموزش شامل یادگیری ‘توزیع مشترک تصاویر و متن آنلاین’ است. این بدان معناست که هوش مصنوعی فقط یاد نمیگیرد کلمه ‘گربه’ را با تصاویر گربهها مرتبط کند. بلکه ارتباطات معنایی عمیقتری را میآموزد: رابطه بین نژادهای مختلف گربهها، رفتارهای معمول گربهها که در تصاویر به تصویر کشیده شدهاند، زمینههایی که گربهها در آن ظاهر میشوند، بافت خز، نحوه تعامل نور با چشمان آنها و نحوه توصیف این عناصر بصری در متن همراه.
علاوه بر این، یادگیری اینکه چگونه تصاویر ‘به یکدیگر مربوط میشوند’ به این معنی است که مدل مفاهیم سبک، ترکیببندی و قیاس بصری را درک میکند. میتواند دستوراتی را که درخواست تصویری ‘به سبک Van Gogh’ دارند، درک کند زیرا تصاویر بیشماری را که به این صورت برچسبگذاری شدهاند، در کنار تصاویری که به آن سبک نیستند، پردازش کرده است و یاد گرفته است که ضربات قلم مو، پالتهای رنگی و موضوعات مشخصه مرتبط با هنرمند را شناسایی کند.
‘پسآموزش تهاجمی’ ذکر شده توسط OpenAI احتمالاً شامل تکنیکهایی مانند یادگیری تقویتی از بازخورد انسانی (RLHF) است، جایی که بازبینان انسانی کیفیت و ارتباط خروجیهای مدل را رتبهبندی میکنند و به تنظیم دقیق عملکرد آن، همسوسازی بیشتر آن با قصد کاربر و بهبود ایمنی با کاهش احتمال تولید محتوای مضر یا نامناسب کمک میکنند. این فرآیند پالایش تکراری برای تبدیل یک مدل خام و آموزشدیده به یک محصول صیقلی و کاربرپسند مانند ویژگی ImageGen در ChatGPT-4o بسیار مهم است. نتیجه، ‘روانی بصری’ است که به مدل اجازه میدهد تصاویر منسجم، متناسب با زمینه و اغلب به طرز چشمگیری زیبا را بر اساس توضیحات متنی تولید کند.
ملاحظات استراتژیک در عرصه رقابتی هوش مصنوعی
حرکت بالقوه OpenAI به سمت واترمارکگذاری تولیدات تصویر رایگان نیز باید در چارچوب چشمانداز رقابتی گستردهتر هوش مصنوعی مشاهده شود. OpenAI در خلاء فعالیت نمیکند؛ با رقابت شدیدی از سوی غولهای فناوری مانند Google (با مدلهای Imagen و Gemini)، بازیگران تثبیتشده مانند Adobe (با Firefly، که به شدت بر استفاده تجاری و جبران خسارت سازندگان تمرکز دارد) و پلتفرمهای اختصاصی تولید تصویر هوش مصنوعی مانند Midjourney و Stability AI (Stable Diffusion) روبرو است.
هر رقیب چالشهای کسب درآمد، اخلاق و توسعه قابلیتها را به طور متفاوتی مدیریت میکند. به عنوان مثال، Midjourney عمدتاً به عنوان یک سرویس پولی عمل کرده است و از برخی پیچیدگیهای یک سطح رایگان عظیم اجتناب کرده است. Adobe بر دادههای آموزشی با منبع اخلاقی و ادغام در گردش کار خلاقانه تأکید میکند. Google قابلیتهای هوش مصنوعی خود را در سراسر اکوسیستم وسیع محصولات خود ادغام میکند.
برای OpenAI، تمایز سطوح رایگان و پولی خود از طریق ویژگیهایی مانند تصاویر بدون واترمارک میتواند یک اهرم استراتژیک کلیدی باشد. این به شرکت اجازه میدهد تا به ارائه فناوری پیشرفته به مخاطبان گسترده ادامه دهد، رشد اکوسیستم را تقویت کند و دادههای استفاده ارزشمندی را جمعآوری کند، در حالی که همزمان دلیلی قانعکننده برای کاربران قدرتمند و کسبوکارها برای اشتراک ایجاد میکند. این استراتژی نیاز به تنظیم دقیق دارد؛ بیش از حد محدود کردن سطح رایگان میتواند کاربران را به سمت رقبا سوق دهد، در حالی که بیش از حد مجاز کردن آن ممکن است ارزش درک شده اشتراک پولی را تضعیف کند.
این تصمیم همچنین منعکسکننده تکامل مداوم OpenAI از یک سازمان متمرکز بر تحقیق به یک نهاد تجاری بزرگ (البته با ساختار سود محدود) است. اقداماتی مانند این، نشاندهنده بلوغ استراتژی محصول آن است که نه تنها بر پیشرفتهای فناورانه بلکه بر استقرار پایدار و موقعیتیابی در بازار نیز تمرکز دارد. ایجاد تعادل بین مأموریت اولیه تضمین اینکه هوش عمومی مصنوعی به نفع همه بشریت باشد با واقعیتهای عملی اداره یک کسبوکار سرمایهبر، یک تنش اصلی برای این شرکت باقی میماند.
بعد توسعهدهنده: یک API قریبالوقوع
فراتر از تجربه مستقیم کاربر در ChatGPT، OpenAI همچنین قصد خود را برای انتشار یک رابط برنامهنویسی کاربردی (API) برای مدل ImageGen اعلام کرده است. این یک توسعه بسیار مورد انتظار با پتانسیل تأثیرگذاری قابل توجه بر اکوسیستم فناوری گستردهتر است. یک API به توسعهدهندگان اجازه میدهد تا قابلیتهای قدرتمند تولید تصویر OpenAI را مستقیماً در برنامهها، وبسایتها و خدمات خود ادغام کنند.
امکانات بسیار زیاد است:
- ابزارهای خلاقانه: پلتفرمهای جدید طراحی گرافیک، بهبودهای نرمافزار ویرایش عکس یا ابزارهایی برای هنرمندان مفهومی میتوانند از API استفاده کنند.
- تجارت الکترونیک: پلتفرمها میتوانند فروشندگان را قادر سازند تا تصاویر بصری سفارشی محصول یا تصاویر سبک زندگی را تولید کنند.
- بازاریابی و تبلیغات: آژانسها میتوانند ابزارهایی برای ایجاد سریع خلاقیتهای تبلیغاتی یا محتوای رسانههای اجتماعی توسعه دهند.
- بازیسازی: توسعهدهندگان ممکن است از آن برای تولید بافتها، مفاهیم شخصیتها یا داراییهای محیطی استفاده کنند.
- شخصیسازی: خدمات میتوانند به کاربران امکان تولید آواتارها، تصاویر یا کالاهای مجازی شخصیسازی شده را ارائه دهند.
در دسترس بودن یک ImageGen API دسترسی به فناوری پیشرفته تولید تصویر را برای توسعهدهندگان دموکراتیزه میکند و به طور بالقوه موجی از نوآوری را برمیانگیزد. با این حال، چالشهایی را نیز به همراه دارد. ساختارهای قیمتگذاری برای استفاده از API بسیار مهم خواهند بود. توسعهدهندگان به دستورالعملهای روشنی در مورد موارد استفاده قابل قبول و تعدیل محتوا نیاز خواهند داشت. علاوه بر این، عملکرد، قابلیت اطمینان و مقیاسپذیری API عوامل حیاتی برای پذیرش آن خواهند بود. بحث بالقوه واترمارکگذاری ممکن است به استفاده از API نیز گسترش یابد، شاید با سطوح مختلف خدمات که تولید بدون واترمارک را با هزینه بالاتر ارائه میدهند.
پیمایش در آبهای اصالت و اعتماد
در نهایت، بحث پیرامون واترمارکگذاری تصاویر تولید شده توسط هوش مصنوعی به یک چالش اساسی زمان ما میپردازد: حفظ اعتماد و اصالت در دنیایی که به طور فزایندهای دیجیتالی و با واسطه هوش مصنوعی است. همانطور که مدلهای هوش مصنوعی در ایجاد متن، تصاویر، صدا و ویدیوی واقعگرایانه ماهرتر میشوند، توانایی تشخیص بین خلاقیتهای انسانی و ماشینی اهمیت حیاتی پیدا میکند.
واترمارکگذاری یکی از راهحلهای فنی بالقوه را نشان میدهد، راهی برای جاسازی اطلاعات منشأ مستقیماً در خود محتوا. اگرچه بیعیب نیست (واترمارکها گاهی اوقات میتوانند حذف یا دستکاری شوند)، اما به عنوان یک سیگنال مهم عمل میکند. این نه تنها برای حفاظت از مالکیت معنوی بلکه برای مبارزه با انتشار اطلاعات نادرست و گمراهکننده نیز حیاتی است. تصاویر واقعگرایانه تولید شده توسط هوش مصنوعی کهرویدادها یا سناریوهای جعلی را به تصویر میکشند، تهدیدی قابل توجه برای گفتمان عمومی و اعتماد به نهادها محسوب میشوند.
استانداردها و شیوههای صنعتی برای شناسایی محتوای تولید شده توسط هوش مصنوعی هنوز در حال تکامل هستند. ابتکاراتی مانند C2PA (ائتلاف برای منشأ و اصالت محتوا)، که OpenAI بخشی از آن است، با هدف توسعه استانداردهای فنی برای تأیید منبع و تاریخچه محتوای دیجیتال انجام میشود. واترمارکگذاری را میتوان گامی همسو با این تلاشهای گستردهتر دانست.
تصمیمی که OpenAI در نهایت در مورد واترمارکها برای ImageGen در ChatGPT-4o اتخاذ خواهد کرد، به دقت زیر نظر گرفته خواهد شد. این تصمیم بینشهایی را در مورد اولویتهای استراتژیک شرکت، رویکرد آن به ایجاد تعادل بین دسترسی و منافع تجاری، و موضع آن در مورد مسائل حیاتی شفافیت و مسئولیتپذیری در عصر هوش مصنوعی مولد قدرتمند ارائه خواهد داد. چه واترمارک روی تصاویر سطح رایگان ظاهر شود یا نه، قابلیتهای اساسی ImageGen و گفتگوهایی که در مورد خلاقیت، مالکیت و اصالت برمیانگیزد، به شکلدهی آینده رسانههای دیجیتال ادامه خواهد داد.