تلاش برای بخشیدن توانایی درک و تولید اطلاعات بصری به ماشینها، مدتهاست که با یک چالش اساسی دست و پنجه نرم میکند: چگونه میتوان بافت غنی پیکسلهایی که یک تصویر را تشکیل میدهند، به طور کارآمد نمایش داد. سالها، استراتژی غالب شبیه یک نمایش دو پردهای بود. ابتدا، فشردهسازی دادههای بصری گسترده به شکلی قابل مدیریتتر و فشردهتر – نمایش پنهان (latent representation). دوم، ساخت مدلهای پیچیده برای یادگیری و تکرار الگوها در این فضای فشرده. با این حال، یک محدودیت پایدار بر این تلاشها سایه افکنده است: تمایل تکنیکهای توکنسازی (tokenization) مرسوم به برخورد یکسان و دموکراتیک با تمام بخشهای یک تصویر، صرف نظر از اهمیت اطلاعاتی آنها.
گلوگاه در ماشینهای بینا: محدودیتهای یکنواختی
تصور کنید هنرمندی را استخدام میکنید اما اصرار دارید که او برای هر اینچ مربع از بوم، دقیقاً از همان اندازه قلممو و سطح جزئیات استفاده کند. عبارات پیچیده روی چهره یک انسان، توجهی بیشتر از گستره یکنواخت آسمان آبی صاف یا دیواری بیویژگی دریافت نخواهد کرد. این قیاس، جوهر مشکلی را که بسیاری از روشهای نمایش بصری سنتی را آزار میدهد، به تصویر میکشد. تکنیکهایی که از Variational Autoencoders (VAEs) نشأت میگیرند، که پیشگام نگاشت تصاویر به فضاهای پنهان پیوسته بودند، و جانشینان آنها مانند VQVAE و VQGAN، که این فضاها را به دنبالههایی از توکنها گسستهسازی کردند، اغلب نسبت فشردهسازی فضایی یکنواختی را تحمیل میکنند.
این بدان معناست که به منطقهای مملو از اشیاء، بافتها و تعاملات پیچیده – شاید پیشزمینه یک صحنه خیابانی شلوغ – همان «بودجه» نمایشی اختصاص داده میشود که به یک ناحیه پسزمینه ساده و همگن. این ناکارآمدی ذاتی، ظرفیت نمایشی را بر روی مناطق کماهمیتتر هدر میدهد در حالی که به طور بالقوه مناطق پیچیدهتر را از جزئیات مورد نیاز برای بازسازی یا تولید با وفاداری بالا محروم میکند.
پیشرفتهای بعدی تلاش کردند تا این مسائل را کاهش دهند، اما اغلب پیچیدگیهای خاص خود را معرفی کردند:
- رویکردهای سلسله مراتبی: مدلهایی مانند VQVAE-2، RQVAE و MoVQ نمایشهای چند سطحی را معرفی کردند و تلاش کردند اطلاعات را در مقیاسهای مختلف از طریق کوانتیزاسیون باقیمانده (residual quantization) ثبت کنند. در حالی که لایههایی از انتزاع اضافه میشد، مسئله اساسی برخورد بالقوه یکنواخت در لایهها میتوانست پابرجا بماند.
- چالشهای مقیاسپذیری کتاب کد (Codebook): تلاشهایی مانند FSQ، SimVQ و VQGAN-LC بر روی رفع «فروپاشی نمایش» (representation collapse) تمرکز کردند که میتواند هنگام تلاش برای افزایش اندازه واژگان (کتاب کد) توکنها رخ دهد، گامی ضروری برای ثبت جزئیات دقیقتر. با این حال، مدیریت کارآمد این واژگان گسسته بزرگ همچنان یک مانع است.
- استراتژیهای ادغام (Pooling): برخی روشها برای استخراج ویژگیهای با ابعاد پایینتر به عملیات ادغام متکی هستند. در حالی که برای وظایف خاصی مانند طبقهبندی مؤثر است، ادغام ذاتاً اطلاعات را جمعآوری میکند و اغلب جزئیات دقیق را از دست میدهد. نکته مهم این است که این رویکردها معمولاً فاقد سیگنالهای نظارتی مستقیم بر روی عناصر منفردی هستند که به ویژگی ادغام شده کمک میکنند، و بهینهسازی نمایش برای وظایف مولد که در آن جزئیات بسیار مهم است را دشوار میسازد. ویژگیهای حاصل میتوانند برای بازسازی یا تولید دقیق محتوای بصری پیچیده، نامطلوب باشند.
- تطبیق مبتنی بر تناظر: تکنیکهایی که از مدلسازی مجموعه الهام گرفتهاند و از مفاهیم سادهتر Bag-of-Words تکامل یافتهاند، گاهی اوقات از الگوریتمهای تطبیق دوبخشی (مانند الگوریتم مجارستانی مورد استفاده در DETR یا TSPN) برای ایجاد تناظر بین عناصر پیشبینیشده و واقعیت پایه (ground truth) استفاده میکنند. با این حال، خود این فرآیند تطبیق میتواند بیثباتی ایجاد کند. سیگنال نظارتی اختصاص داده شده به یک عنصر پیشبینیشده خاص میتواند از یک تکرار آموزشی به تکرار بعدی بسته به نتیجه تطبیق تغییر کند، که منجر به گرادیانهای ناسازگار و به طور بالقوه مانع همگرایی کارآمد میشود. مدل ممکن است در یادگیری نمایشهای پایدار زمانی که اهدافش دائماً در حال تغییر هستند، دچار مشکل شود.
موضوع اصلی در میان این رویکردهای متنوع، مبارزه با محدودیتهای تحمیل شده توسط نمایشهای سفت و سخت، اغلب مبتنی بر توالی، و دشواری تخصیص پویای منابع نمایشی در جایی است که بیشترین نیاز به آنها وجود دارد – بر اساس معنای معنایی (semantic meaning) نهفته در خود مناطق تصویر.
بازاندیشی پیکسلها: طلوع بینایی مبتنی بر مجموعه
محققان دانشگاه علم و صنعت چین (University of Science and Technology of China) و Tencent Hunyuan Research که از محدودیتهای نمایشهای متوالی و فشردهشده یکنواخت سرخورده شده بودند، مسیر متفاوتی را در پیش گرفتند. آنها این فرض اساسی را زیر سوال بردند که تصاویر باید به عنوان دنبالههای مرتبی از توکنها، شبیه به کلمات در یک جمله، پردازش شوند. پاسخ نوآورانه آنها TokenSet است، چارچوبی که نشاندهنده یک تغییر پارادایم به سمت رویکردی انعطافپذیرتر و آگاهتر از نظر معنایی است.
در هسته خود، TokenSet ساختار سفت و سخت دنبالههای توکن را به نفع نمایش یک تصویر به عنوان مجموعهای نامرتب از توکنها کنار میگذارد. این تغییر به ظاهر ساده، پیامدهای عمیقی دارد:
- ظرفیت نمایشی پویا: برخلاف روشهایی که نسبت فشردهسازی ثابتی را در همه جا اعمال میکنند، TokenSet برای تخصیص پویای ظرفیت کدگذاری طراحی شده است. این به طور شهودی درک میکند که مناطق مختلف یک تصویر، وزن معنایی متفاوتی دارند. مناطق پیچیده، غنی از جزئیات و معنا، میتوانند سهم بیشتری از منابع نمایشی را به خود اختصاص دهند، در حالی که مناطق پسزمینه سادهتر به منابع کمتری نیاز دارند. این امر منعکسکننده ادراک بصری انسان است، جایی که ما به طور طبیعی منابع شناختی بیشتری را بر روی اشیاء و جزئیات برجسته متمرکز میکنیم.
- زمینه جهانی بهبود یافته: با برخورد با توکنها به عنوان اعضای یک مجموعه به جای پیوندهایی در یک زنجیره، TokenSet ذاتاً روابط موقعیتی بین توکنها را که اغلب توسط مدلهای متوالی (مانند ترانسفورمرهایی که بر روی دنبالههای پچ عمل میکنند) اعمال میشود، جدا میکند. هر توکن در مجموعه میتواند، در اصل، به تمام توکنهای دیگر توجه کند یا اطلاعات را از آنها ادغام کند بدون اینکه تحت تأثیر یک ترتیب فضایی از پیش تعیین شده قرار گیرد. این امر تجمیع برتر اطلاعات زمینه جهانی را تسهیل میکند و به نمایش اجازه میدهد تا وابستگیهای دوربرد و ترکیب کلی صحنه را به طور مؤثرتری ثبت کند. میدان دریافتی نظری (theoretical receptive field) برای هر توکن میتواند کل فضای ویژگی تصویر را در بر گیرد.
- استحکام بهبود یافته: ماهیت نامرتب نمایش مجموعه، به استحکام بیشتر در برابر اغتشاشات محلی یا تغییرات فضایی جزئی کمک میکند. از آنجایی که معنا از مجموعه توکنها به جای توالی دقیق آنها مشتق میشود، تغییرات یا اعوجاجهای جزئی در تصویر ورودی کمتر احتمال دارد که به طور چشمگیری نمایش کلی را تغییر دهند.
این حرکت از یک توالی سفت و سخت فضایی به یک مجموعه انعطافپذیر و نامرتب، امکان نمایشی را فراهم میکند که ذاتاً با محتوای تصویر هماهنگتر است و راه را برای درک و تولید بصری کارآمدتر و معنادارتر هموار میکند.
ثبت جوهره: تخصیص پویا در TokenSet
وعده تخصیص پویای قدرت نمایشی بر اساس پیچیدگی معنایی، در مرکز جذابیت TokenSet قرار دارد. چگونه به این شاهکار دست مییابد؟ در حالی که مکانیسمهای خاص شامل معماریهای شبکه عصبی پیچیده و اهداف آموزشی است، اصل اساسی، فاصله گرفتن از شبکههای ثابت و پردازش یکنواخت است.
تصور کنید که تصویر نه از طریق یک الگوی شطرنجی ثابت، بلکه از طریق یک فرآیند تطبیقیتر تجزیه و تحلیل میشود. مناطقی که از نظر معنایی غنی شناسایی میشوند – شاید حاوی اشیاء متمایز، بافتهای پیچیده، یا مناطقی که برای روایت تصویر حیاتی هستند – تخصیص توکنهای توصیفیتر یا توکنهایی با ظرفیت اطلاعاتی بالاتر را تحریک میکنند. برعکس، مناطقی که از نظر معنایی پراکنده تلقی میشوند، مانند پسزمینههای یکنواخت یا گرادیانهای ساده، به طور خلاصهتری نمایش داده میشوند.
این به شدت با روشهای سنتی در تضاد است که در آن، به عنوان مثال، یک شبکه 16x16 از پچها استخراج میشود و هر پچ به یک توکن تبدیل میشود، صرف نظر از اینکه حاوی یک شی پیچیده باشد یا فقط فضای خالی. TokenSet، که بر اساس اصل نمایش مجموعه عمل میکند، از این سختی فضایی رها میشود.
مثال عکس ساحل را در نظر بگیرید:
- رویکرد سنتی: آسمان، اقیانوس، شن و افراد در پیشزمینه ممکن است هر کدام به پچهایی تقسیم شوند و هر پچ تقریباً وزن نمایشی برابری دریافت کند. ظرفیت زیادی صرف توصیف آسمان آبی همگن میشود.
- رویکرد TokenSet: سیستم به طور ایدهآل منابع نمایشی بیشتری (شاید توکنهای بیشتر، یا توکنهای پیچیدهتر) را به چهرهها و اشیاء دقیق در پیشزمینه اختصاص میدهد، در حالی که از توکنهای کمتر یا سادهتر برای ثبت جوهره مناطق وسیع و نسبتاً یکنواخت آسمان و دریا استفاده میکند.
این تخصیص تطبیقی تضمین میکند که «توجه» و وفاداری نمایشی مدل در جایی متمرکز میشود که بیشترین اهمیت را دارد، که منجر به رمزگذاری کارآمدتر و مؤثرتر صحنه بصری میشود. این شبیه به ارائه بودجه بزرگتر برای توصیف شخصیتهای اصلی در یک داستان در مقایسه با مناظر پسزمینه است.
مدلسازی نامرتب: پیشرفت انتشار گسسته با مجموع ثابت (Fixed-Sum Discrete Diffusion)
نمایش یک تصویر به عنوان مجموعهای نامرتب از توکنها تنها نیمی از نبرد است. بخش حیاتی دیگر، یافتن راهی برای مدلسازی توزیع این مجموعهها است. چگونه یک مدل مولد میتواند الگوهای پیچیده و احتمالات مرتبط با مجموعههای معتبر توکنها را که با تصاویر واقعی مطابقت دارند، یاد بگیرد، به خصوص زمانی که ترتیب اهمیتی ندارد؟ مدلهای سنتی مبتنی بر توالی (مانند ترانسفورمرهای خودرگرسیو یا مدلهای انتشار استاندارد که بر روی توالیها عمل میکنند) برای این کار مناسب نیستند.
اینجاست که دومین نوآوری بزرگ چارچوب TokenSet وارد میشود: Fixed-Sum Discrete Diffusion (FSDD). محققان FSDD را به عنوان اولین چارچوب انتشار (diffusion) توسعه دادند که به طور خاص برای مدیریت همزمان محدودیتهای منحصر به فرد تحمیل شده توسط نمایش مبتنی بر مجموعه آنها طراحی شده است:
- مقادیر گسسته: خود توکنها موجودیتهای گسستهای هستند که از یک کتاب کد (واژگان) از پیش تعریف شده استخراج میشوند، نه مقادیر پیوسته. FSDD مستقیماً در این دامنه گسسته عمل میکند.
- طول توالی ثابت (زیربنای مجموعه): در حالی که مجموعه نامرتب است، محققان هوشمندانه یک نگاشت دوسویی (یک تناظر یک به یک) بین این مجموعههای نامرتب و دنبالههای عدد صحیح ساختاریافته با طول ثابت برقرار میکنند. این نگاشت به آنها اجازه میدهد تا از قدرت مدلهای انتشار، که معمولاً بر روی ورودیهای با اندازه ثابت عمل میکنند، استفاده کنند. FSDD برای کار با این دنبالههای ساختاریافته که مجموعههای نامرتب را نشان میدهند، طراحی شده است.
- ثبات جمع (Summation Invariance): این ویژگی، خاص روشی است که مجموعهها به دنبالهها نگاشت میشوند، احتمالاً مربوط به اطمینان از این است که ویژگیها یا محدودیتهای کلی خاصی از مجموعه توکن در طول فرآیند انتشار (افزودن نویز) و معکوس (تولید) حفظ میشوند. FSDD به طور منحصر به فردی برای احترام به این ثبات مهندسی شده است، که برای مدلسازی صحیح توزیع مجموعه حیاتی است.
مدلهای انتشار معمولاً با افزودن تدریجی نویز به دادهها تا زمانی که به نویز خالص تبدیل شوند، کار میکنند و سپس مدلی را برای معکوس کردن این فرآیند آموزش میدهند، که از نویز شروع میشود و به تدریج آن را برای تولید دادهها نویززدایی میکند. FSDD این پارادایم مولد قدرتمند را با ویژگیهای خاص دنبالههای عدد صحیح ساختاریافته که مجموعههای توکن نامرتب را نشان میدهند، تطبیق میدهد.
FSDD با پرداختن موفقیتآمیز به این سه ویژگی به طور همزمان، مکانیزم اصولی و مؤثری برای یادگیری توزیع TokenSets فراهم میکند. این به مدل مولد اجازه میدهد تا بفهمد چه چیزی یک مجموعه معتبر و محتمل از توکنها برای یک تصویر واقعی را تشکیل میدهد و با نمونهبرداری از این توزیع آموخته شده، مجموعههای جدید (و در نتیجه تصاویر جدید) تولید کند. این رویکرد مدلسازی سفارشی برای باز کردن پتانسیل نمایش مبتنی بر مجموعه حیاتی است.
پیادهسازی تئوری در عمل: اعتبارسنجی و عملکرد
یک مفهوم پیشگامانه نیازمند اعتبارسنجی دقیق است. کارایی TokenSet و FSDD بر روی مجموعه داده چالش برانگیز ImageNet، یک معیار استاندارد برای وظایف درک و تولید تصویر، با استفاده از تصاویر مقیاس شده به وضوح 256x256 آزمایش شد. عملکرد عمدتاً با استفاده از امتیاز Frechet Inception Distance (FID) بر روی مجموعه اعتبارسنجی 50000 تصویری اندازهگیری شد. امتیاز FID پایینتر نشان میدهد که تصاویر تولید شده از نظر آماری به تصاویر واقعی از نظر ویژگیهای استخراج شده توسط یک شبکه Inception از پیش آموزش دیده، شباهت بیشتری دارند، که نشاندهنده کیفیت و واقعگرایی بالاتر است.
رژیم آموزشی از بهترین شیوههای تثبیت شده پیروی میکرد و استراتژیهایی را از کارهای قبلی مانند TiTok و MaskGIT اقتباس میکرد. جنبههای کلیدی شامل موارد زیر بود:
- افزایش داده (Data Augmentation): تکنیکهای استاندارد مانند برش تصادفی و برگردان افقی برای بهبود استحکام مدل استفاده شد.
- آموزش گسترده: مؤلفه توکنایزر (tokenizer) برای 1 میلیون مرحله با اندازه دسته بزرگ آموزش داده شد و از یادگیری کامل نگاشت تصویر به توکن اطمینان حاصل شد.
- بهینهسازی: یک برنامه نرخ یادگیری با دقت تنظیم شده (گرم کردن و سپس کاهش کسینوسی)، برش گرادیان (gradient clipping) و میانگین متحرک نمایی (Exponential Moving Average - EMA) برای بهینهسازی پایدار و مؤثر به کار گرفته شد.
- راهنمایی تمایزدهنده (Discriminator Guidance): یک شبکه تمایزدهنده در طول آموزش گنجانده شد که یک سیگنال متخاصم برای بهبود بیشتر کیفیت بصری تصاویر تولید شده و تثبیت فرآیند آموزش فراهم میکرد.
نتایج تجربی چندین نقطه قوت کلیدی رویکرد TokenSet را برجسته کرد:
- تأیید ثبات جایگشت (Permutation Invariance): این یک آزمون حیاتی برای مفهوم مبتنی بر مجموعه بود. از نظر بصری، تصاویری که از همان مجموعه توکنها بازسازی شده بودند، صرف نظر از ترتیبی که توکنها توسط رمزگشا (decoder) پردازش میشدند، یکسان به نظر میرسیدند. از نظر کمی، معیارها در جایگشتهای مختلف ثابت ماندند. این شواهد قوی ارائه میدهد که شبکه با موفقیت یاد گرفته است که با توکنها به عنوان یک مجموعه نامرتب رفتار کند و اصل طراحی اصلی را برآورده سازد، حتی اگر احتمالاً تنها بر روی زیرمجموعهای از تمام جایگشتهای ممکن در طول فرآیند نگاشت آموزش دیده باشد.
- ادغام برتر زمینه جهانی: همانطور که توسط تئوری پیشبینی شده بود، جداسازی از ترتیب متوالی دقیق به توکنهای منفرد اجازه داد تا اطلاعات را به طور مؤثرتری در کل تصویر ادغام کنند. عدم وجود سوگیریهای فضایی ناشی از توالی، درک و نمایش جامعتری از صحنه را امکانپذیر ساخت و به بهبود کیفیت تولید کمک کرد.
- عملکرد پیشرفته (State-of-the-Art): چارچوب TokenSet که توسط نمایش آگاه از معنایی و مدلسازی سفارشی FSDD فعال شده بود، معیارهای عملکرد برتری را در مقایسه با روشهای قبلی در معیار ImageNet نشان داد، که نشاندهنده توانایی آن در تولید تصاویر با وفاداری بالاتر و واقعگرایانهتر است. توانایی منحصر به فرد FSDD در برآوردن همزمان ویژگیهای گسسته، طول ثابت و ثبات جمع، برای موفقیت آن حیاتی بود.
این نتایج در مجموع TokenSet را نه تنها به عنوان یک نوآوری نظری، بلکه به عنوان یک چارچوب عملی و قدرتمند برای پیشبرد وضعیت هنر در نمایش و تولید بصری تأیید میکنند.
پیامدها و چشماندازهای آینده
معرفی TokenSet و فلسفه مبتنی بر مجموعه آن، چیزی بیش از یک بهبود تدریجی را نشان میدهد؛ این نشاندهنده یک تغییر بالقوه در نحوه مفهومسازی و مهندسی مدلهای مولد برای دادههای بصری است. با فاصله گرفتن از محدودیتهای توکنهای سریالی و پذیرش نمایشی که به طور پویا با محتوای معنایی سازگار میشود، این کار امکانات جذابی را باز میکند:
- ویرایش تصویر بصریتر: اگر تصاویر با مجموعههایی از توکنهای مربوط به عناصر معنایی نمایش داده شوند، آیا رابطهای آینده میتوانند به کاربران اجازه دهند تا با افزودن، حذف یا اصلاح مستقیم توکنهای مربوط به اشیاء یا مناطق خاص، تصاویر را دستکاری کنند؟ این میتواند به ابزارهای ویرایش بصریتر و آگاهتر از محتوا منجر شود.
- تولید ترکیبی (Compositional Generation): ماهیت مبتنی بر مجموعه ممکن است برای تعمیم ترکیبی – توانایی تولید ترکیبات جدیدی از اشیاء و صحنههایی که هرگز به صراحت در طول آموزش دیده نشدهاند – مناسبتر باشد. درک تصاویر به عنوان مجموعهای از عناصر میتواند کلیدی باشد.
- کارایی و مقیاسپذیری: در حالی که نیازمند مدلسازی پیچیدهای مانند FSDD است، تخصیص پویای منابع بر اساس معناشناسی میتواند به طور بالقوه به نمایشهای کارآمدتر به طور کلی منجر شود، به ویژه برای تصاویر با وضوح بالا که در آن مناطق وسیعی ممکن است از نظر معنایی ساده باشند.
- پل زدن بین بینایی و زبان: نمایشهای مجموعه در پردازش زبان طبیعی رایج هستند (به عنوان مثال، bag of words). کاوش رویکردهای مبتنی بر مجموعه در بینایی ممکن است راههای جدیدی را برای مدلهای چندوجهی (multi-modal) که درک بصری و متنی را به هم پیوند میدهند، ارائه دهد.
چارچوب TokenSet، که توسط تکنیک مدلسازی نوآورانه FSDD پشتیبانی میشود، نمایشی قانعکننده از قدرت بازاندیشی در انتخابهای نمایشی اساسی ارائه میدهد. این چارچوب، اتکای دیرینه به ساختارهای متوالی برای دادههای بصری را به چالش میکشد و مزایای نمایشهایی را که از معنای نهفته در پیکسلها آگاه هستند، برجسته میکند. در حالی که این تحقیق گام مهمی را نشان میدهد، همچنین به عنوان نقطه شروعی عمل میکند. کاوش بیشتر برای درک کامل و بهرهبرداری از پتانسیل نمایشهای بصری مبتنی بر مجموعه مورد نیاز است، که به طور بالقوه منجر به نسل بعدی مدلهای مولد بسیار توانا و کارآمد میشود که جهان را کمتر شبیه یک توالی و بیشتر شبیه مجموعهای معنادار از عناصر میبینند.