ما وراء الشبكة: TokenSet وثورة الدلالات في الذكاء الاصطناعي البصري

لطالما واجه السعي لمنح الآلات القدرة على فهم وتوليد المعلومات البصرية تحديًا أساسيًا: كيفية تمثيل النسيج الغني للبكسلات التي تشكل الصورة بكفاءة. لسنوات، عكست الاستراتيجية السائدة مسرحية من فصلين. أولاً، ضغط البيانات المرئية المترامية الأطراف إلى شكل أكثر قابلية للإدارة وصغير الحجم - التمثيل الكامن (latent representation). ثانيًا، بناء نماذج متطورة لتعلم وتكرار الأنماط داخل هذا الفضاء المضغوط. ومع ذلك، فقد طغت قيود مستمرة على هذه الجهود: ميل تقنيات الترميز التقليدية (tokenization) إلى التعامل مع جميع أجزاء الصورة بمساواة ديمقراطية، بغض النظر عن أهميتها المعلوماتية.

عنق الزجاجة في رؤية الآلات: قيود التوحيد

تخيل أنك تكلّف فنانًا بمهمة ولكنك تصر على أن يستخدم نفس حجم ضربة الفرشاة ومستوى التفاصيل بالضبط لكل بوصة مربعة من القماش. لن تحظى التعبيرات المعقدة على وجه الإنسان باهتمام أكبر من الامتداد الموحد لسماء زرقاء صافية أو جدار خالٍ من الملامح. تجسد هذه المقارنة جوهر المشكلة التي تعاني منها العديد من طرق التمثيل البصري التقليدية. التقنيات المستمدة من المشفرات التلقائية المتغيرة (Variational Autoencoders - VAEs)، التي كانت رائدة في رسم خرائط الصور في مساحات كامنة مستمرة، وخلفاؤها مثل VQVAE و VQGAN، التي حولت هذه المساحات إلى تسلسلات من الرموز المميزة (tokens)، غالبًا ما تفرض نسبة ضغط مكاني موحدة.

وهذا يعني أن المنطقة المليئة بالكائنات المعقدة، والأنسجة، والتفاعلات - ربما مقدمة مشهد شارع مزدحم - يتم تخصيص نفس “الميزانية” التمثيلية لها مثل منطقة خلفية بسيطة ومتجانسة. هذا القصور المتأصل يهدر القدرة التمثيلية على المناطق الأقل أهمية بينما يحتمل أن يحرم المناطق الأكثر تعقيدًا من التفاصيل اللازمة لإعادة البناء أو التوليد عالي الدقة.

حاولت التطورات اللاحقة التخفيف من هذه المشكلات، ولكنها غالبًا ما أدخلت تعقيداتها الخاصة:

  • النهج الهرمي (Hierarchical Approaches): قدمت نماذج مثل VQVAE-2 و RQVAE و MoVQ تمثيلات متعددة المستويات، في محاولة لالتقاط المعلومات بمقاييس مختلفة من خلال التكميم المتبقي (residual quantization). على الرغم من إضافة طبقات من التجريد، إلا أن المشكلة الأساسية المتمثلة في المعاملة الموحدة المحتملة داخل الطبقات يمكن أن تستمر.
  • تحديات توسيع قاموس الرموز (Codebook Scaling Challenges): ركزت جهود مثل FSQ و SimVQ و VQGAN-LC على معالجة “انهيار التمثيل” الذي يمكن أن يحدث عند محاولة زيادة حجم المفردات (قاموس الرموز - codebook) للرموز المميزة، وهي خطوة ضرورية لالتقاط تفاصيل أدق. ومع ذلك، تظل إدارة هذه المفردات المنفصلة الكبيرة بكفاءة عقبة.
  • استراتيجيات التجميع (Pooling Strategies): تعتمد بعض الطرق على عمليات التجميع (pooling) لاستخراج ميزات ذات أبعاد أقل. على الرغم من فعاليتها في مهام معينة مثل التصنيف، فإن التجميع يجمع المعلومات بطبيعته، وغالبًا ما يفقد التفاصيل الدقيقة. والأهم من ذلك، أن هذه الأساليب تفتقر عادةً إلى إشارات إشرافية مباشرة على العناصر الفردية التي تساهم في الميزة المجمعة، مما يجعل من الصعب تحسين التمثيل للمهام التوليدية حيث تكون التفاصيل ذات أهمية قصوى. يمكن أن تكون الميزات الناتجة دون المستوى الأمثل لإعادة بناء أو توليد محتوى مرئي معقد بدقة.
  • المطابقة القائمة على المراسلات (Correspondence-Based Matching): التقنيات المستوحاة من نمذجة المجموعات (set modeling)، والتي تطورت من مفاهيم أبسط مثل Bag-of-Words، تستخدم أحيانًا خوارزميات المطابقة الثنائية (bipartite matching) (مثل الخوارزمية المجرية المستخدمة في DETR أو TSPN) لإنشاء مراسلات بين العناصر المتوقعة والحقيقة الأساسية (ground truth). ومع ذلك، يمكن أن تؤدي عملية المطابقة هذه نفسها إلى عدم الاستقرار. يمكن أن تتغير الإشارة الإشرافية المخصصة لعنصر متوقع معين من تكرار تدريب إلى آخر اعتمادًا على نتيجة المطابقة، مما يؤدي إلى تدرجات غير متسقة وربما يعيق التقارب الفعال. قد يواجه النموذج صعوبة في تعلم تمثيلات مستقرة عندما تتغير أهدافه باستمرار.

الموضوع الأساسي عبر هذه الأساليب المتنوعة هو الصراع ضد القيود التي تفرضها التمثيلات الصارمة، التي غالبًا ما تكون قائمة على التسلسل، وصعوبة تخصيص الموارد التمثيلية ديناميكيًا حيث تشتد الحاجة إليها - وفقًا للمعنى الدلالي المضمن داخل مناطق الصورة نفسها.

إعادة التفكير في البكسلات: فجر الرؤية القائمة على المجموعات

بسبب الإحباط من قيود التمثيلات المتسلسلة والمضغوطة بشكل موحد، شرع باحثون من جامعة العلوم والتكنولوجيا في الصين (University of Science and Technology of China) و Tencent Hunyuan Research في مسار مختلف. لقد شككوا في الافتراض الأساسي القائل بأن الصور يجب معالجتها كتسلسلات مرتبة من الرموز المميزة، على غرار الكلمات في الجملة. إجابتهم المبتكرة هي TokenSet، وهو إطار يمثل نقلة نوعية نحو نهج أكثر مرونة ووعيًا بالدلالات.

في جوهره، يتخلى TokenSet عن البنية الصارمة لتسلسلات الرموز المميزة لصالح تمثيل الصورة كمجموعة غير مرتبة من الرموز المميزة (unordered set of tokens). هذا التغيير البسيط ظاهريًا له آثار عميقة:

  1. القدرة التمثيلية الديناميكية (Dynamic Representational Capacity): على عكس الطرق التي تطبق نسبة ضغط ثابتة في كل مكان، تم تصميم TokenSet لتخصيص سعة الترميز ديناميكيًا. إنه يفهم بشكل حدسي أن مناطق مختلفة من الصورة تحمل كميات مختلفة من الوزن الدلالي. يمكن للمناطق المعقدة، الغنية بالتفاصيل والمعنى، أن تستحوذ على حصة أكبر من الموارد التمثيلية، بينما تتطلب مناطق الخلفية الأبسط موارد أقل. هذا يعكس الإدراك البصري البشري، حيث نركز بشكل طبيعي المزيد من الموارد المعرفية على الكائنات والتفاصيل البارزة.
  2. السياق العالمي المعزز (Enhanced Global Context): من خلال التعامل مع الرموز المميزة كأعضاء في مجموعة بدلاً من روابط في سلسلة، يفصل TokenSet بطبيعته العلاقات الموضعية بين الرموز المميزة التي تفرضها غالبًا النماذج التسلسلية (مثل المحولات التي تعمل على تسلسلات الرقع - patch sequences). يمكن لكل رمز مميز في المجموعة، من حيث المبدأ، الانتباه إلى أو دمج المعلومات من جميع الرموز المميزة الأخرى دون التحيز بترتيب مكاني محدد مسبقًا. وهذا يسهل التجميع المتفوق للمعلومات السياقية العالمية، مما يسمح للتمثيل بالتقاط التبعيات بعيدة المدى وتكوين المشهد العام بشكل أكثر فعالية. يمكن أن يشمل الحقل الاستقبالي النظري (theoretical receptive field) لكل رمز مميز مساحة ميزات الصورة بأكملها.
  3. تحسين المتانة (Improved Robustness): الطبيعة غير المرتبة لتمثيل المجموعة تضفي على نفسها متانة أكبر ضد الاضطرابات المحلية أو الاختلافات المكانية الطفيفة. نظرًا لأن المعنى مشتق من مجموعة الرموز المميزة بدلاً من تسلسلها الدقيق، فمن غير المرجح أن تؤدي التحولات أو التشوهات الطفيفة في الصورة المدخلة إلى تغيير التمثيل العام بشكل جذري.

يتيح هذا الانتقال من تسلسل مكاني صارم إلى مجموعة مرنة وغير مرتبة تمثيلًا أكثر انسجامًا بطبيعته مع محتوى الصورة، مما يمهد الطريق لفهم وتوليد بصري أكثر كفاءة وذات مغزى.

التقاط الجوهر: التخصيص الديناميكي في TokenSet

إن وعد تخصيص القوة التمثيلية ديناميكيًا بناءً على التعقيد الدلالي أمر أساسي لجاذبية TokenSet. كيف يحقق هذا الإنجاز؟ بينما تتضمن الآليات المحددة بنيات شبكات عصبية متطورة وأهداف تدريب، فإن المبدأ الأساسي هو الابتعاد عن الشبكات الثابتة والمعالجة الموحدة.

تخيل أن الصورة يتم تحليلها ليس من خلال نمط رقعة الشطرنج الثابت، ولكن من خلال عملية أكثر تكيفًا. المناطق التي تم تحديدها على أنها غنية دلاليًا - ربما تحتوي على كائنات مميزة، أو أنسجة معقدة، أو مناطق حاسمة لسرد الصورة - تؤدي إلى تخصيص المزيد من الرموز المميزة الوصفية أو الرموز المميزة ذات السعة المعلوماتية الأعلى. على العكس من ذلك، يتم تمثيل المناطق التي تعتبر متفرقة دلاليًا، مثل الخلفيات الموحدة أو التدرجات البسيطة، بشكل أكثر إيجازًا.

يتناقض هذا بشكل حاد مع الطرق التقليدية حيث، على سبيل المثال، يتم استخراج شبكة 16x16 من الرقع، ويتم تحويل كل رقعة إلى رمز مميز، بغض النظر عما إذا كانت تحتوي على كائن معقد أو مجرد مساحة فارغة. TokenSet، الذي يعمل على مبدأ تمثيل المجموعة، يتحرر من هذه الصلابة المكانية.

خذ مثال صورة الشاطئ:

  • النهج التقليدي: قد يتم تقسيم السماء والمحيط والرمال والأشخاص في المقدمة إلى رقع، وتحصل كل رقعة على وزن تمثيلي متساوٍ تقريبًا. يتم إنفاق الكثير من السعة لوصف السماء الزرقاء المتجانسة.
  • نهج TokenSet: من الناحية المثالية، سيخصص النظام المزيد من الموارد التمثيلية (ربما المزيد من الرموز المميزة، أو رموز مميزة أكثر تعقيدًا) للأشكال والكائنات المفصلة في المقدمة، بينما يستخدم رموزًا مميزة أقل أو أبسط لالتقاط جوهر مناطق السماء والبحر الواسعة والموحدة نسبيًا.

يضمن هذا التخصيص التكيفي تركيز “انتباه” النموذج ودقة تمثيله حيثما تكون الأمور أكثر أهمية، مما يؤدي إلى ترميز أكثر كفاءة وفعالية للمشهد البصري. إنه أشبه بتوفير ميزانية أكبر لوصف الشخصيات الرئيسية في القصة مقارنة بخلفية المشهد.

نمذجة غير المرتب: اختراق الانتشار المنفصل بمجموع ثابت (Fixed-Sum Discrete Diffusion)

إن تمثيل الصورة كمجموعة غير مرتبة من الرموز المميزة هو نصف المعركة فقط. الجزء الحاسم الآخر هو معرفة كيفية نمذجة توزيع هذه المجموعات. كيف يمكن لنموذج توليدي أن يتعلم الأنماط والاحتمالات المعقدة المرتبطة بمجموعات صالحة من الرموز المميزة التي تتوافق مع صور واقعية، خاصة عندما لا يكون الترتيب مهمًا؟ النماذج التقليدية القائمة على التسلسل (مثل المحولات ذاتية الانحدار أو نماذج الانتشار القياسية التي تعمل على التسلسلات) غير مناسبة لهذه المهمة.

هنا يأتي الابتكار الرئيسي الثاني لإطار TokenSet: Fixed-Sum Discrete Diffusion (FSDD). طور الباحثون FSDD كأول إطار انتشار أول مصمم خصيصًا للتعامل في وقت واحد مع القيود الفريدة التي يفرضها تمثيلهم القائم على المجموعة:

  1. القيم المنفصلة (Discrete Values): الرموز المميزة نفسها هي كيانات منفصلة مأخوذة من قاموس رموز محدد مسبقًا (مفردات)، وليست قيمًا مستمرة. يعمل FSDD مباشرة في هذا المجال المنفصل.
  2. طول التسلسل الثابت (الكامن وراء المجموعة) (Fixed Sequence Length): بينما تكون المجموعة غير مرتبة، أنشأ الباحثون بذكاء تخطيطًا تقابليًا (bijective mapping) (مراسلات واحد لواحد) بين هذه المجموعات غير المرتبة وتسلسلات أعداد صحيحة منظمة ذات طول ثابت. يتيح لهم هذا التخطيط الاستفادة من قوة نماذج الانتشار، التي تعمل عادةً على مدخلات ذات حجم ثابت. تم تصميم FSDD خصيصًا للعمل مع هذه التسلسلات المنظمة التي تمثل المجموعات غير المرتبة.
  3. ثبات المجموع (Summation Invariance): هذه الخاصية، الخاصة بالطريقة التي يتم بها تخطيط المجموعات إلى تسلسلات، من المحتمل أن تتعلق بضمان الحفاظ على خصائص أو قيود شاملة معينة لمجموعة الرموز المميزة طوال عملية الانتشار (إضافة الضوضاء) والعكس (التوليد). تم تصميم FSDD بشكل فريد لاحترام هذا الثبات، وهو أمر حاسم لنمذجة توزيع المجموعة بشكل صحيح.

تعمل نماذج الانتشار عادةً عن طريق إضافة الضوضاء تدريجيًا إلى البيانات حتى تصبح ضوضاء نقية، ثم تدريب نموذج لعكس هذه العملية، بدءًا من الضوضاء وإزالة الضوضاء تدريجيًا لتوليد البيانات. يقوم FSDD بتكييف هذا النموذج التوليدي القوي مع الخصائص المحددة لتسلسلات الأعداد الصحيحة المنظمة التي تمثل مجموعات الرموز المميزة غير المرتبة.

من خلال معالجة هذه الخصائص الثلاث بنجاح في وقت واحد، يوفر FSDD آلية مبدئية وفعالة لتعلم توزيع TokenSets. يسمح للنموذج التوليدي بفهم ما يشكل مجموعة صالحة ومحتملة من الرموز المميزة لصورة واقعية وتوليد مجموعات جديدة (وبالتالي صور جديدة) عن طريق أخذ عينات من هذا التوزيع المتعلم. يعد نهج النمذجة المخصص هذا أمرًا بالغ الأهمية لإطلاق العنان لإمكانات التمثيل القائم على المجموعة.

وضع النظرية موضع التنفيذ: التحقق والأداء

يتطلب المفهوم الرائد التحقق الصارم. تم اختبار فعالية TokenSet و FSDD على مجموعة بيانات ImageNet الصعبة، وهي معيار قياسي لمهام فهم الصور وتوليدها، باستخدام صور تم تغيير حجمها إلى دقة 256x256. تم قياس الأداء بشكل أساسي باستخدام درجة Frechet Inception Distance (FID) على مجموعة التحقق المكونة من 50000 صورة. تشير درجة FID المنخفضة إلى أن الصور المولدة أكثر تشابهًا إحصائيًا مع الصور الحقيقية من حيث الميزات المستخرجة بواسطة شبكة Inception مدربة مسبقًا، مما يدل على جودة وواقعية أعلى.

اتبع نظام التدريب أفضل الممارسات المعمول بها، مع تكييف الاستراتيجيات من الأعمال السابقة مثل TiTok و MaskGIT. شملت الجوانب الرئيسية ما يلي:

  • زيادة البيانات (Data Augmentation): تم استخدام التقنيات القياسية مثل الاقتصاص العشوائي والقلب الأفقي لتحسين متانة النموذج.
  • التدريب المكثف: تم تدريب مكون الترميز (tokenizer) لمليون خطوة بحجم دفعة كبير، مما يضمن التعلم الشامل لتخطيط الصورة إلى الرمز المميز.
  • التحسين (Optimization): تم استخدام جدول معدل تعلم مضبوط بعناية (إحماء يليه اضمحلال جيب التمام)، وقص التدرج (gradient clipping)، والمتوسط المتحرك الأسي (Exponential Moving Average - EMA) لتحسين مستقر وفعال.
  • توجيه المميز (Discriminator Guidance): تم دمج شبكة مميزة (discriminator) أثناء التدريب، مما يوفر إشارة معادية لزيادة تحسين الجودة المرئية للصور المولدة وتحقيق الاستقرار في عملية التدريب.

أبرزت النتائج التجريبية العديد من نقاط القوة الرئيسية لنهج TokenSet:

  • تأكيد ثبات التبديل (Confirmed Permutation Invariance): كان هذا اختبارًا حاسمًا للمفهوم القائم على المجموعة. بصريًا، بدت الصور المعاد بناؤها من نفس مجموعة الرموز المميزة متطابقة بغض النظر عن الترتيب الذي تمت به معالجة الرموز المميزة بواسطة وحدة فك التشفير (decoder). كميًا، ظلت المقاييس متسقة عبر التباديل المختلفة. يوفر هذا دليلًا قويًا على أن الشبكة تعلمت بنجاح التعامل مع الرموز المميزة كمجموعة غير مرتبة، مما يحقق مبدأ التصميم الأساسي، على الرغم من أنه من المحتمل أنها تدربت فقط على مجموعة فرعية من جميع التباديل الممكنة أثناء عملية التخطيط.
  • تكامل سياق عالمي متفوق: كما تنبأت النظرية، سمح الانفصال عن الترتيب التسلسلي الصارم للرموز المميزة الفردية بدمج المعلومات بشكل أكثر فعالية عبر الصورة بأكملها. مكّن غياب التحيزات المكانية الناتجة عن التسلسل فهمًا وتمثيلًا أكثر شمولية للمشهد، مما ساهم في تحسين جودة التوليد.
  • أداء على أحدث طراز (State-of-the-Art Performance): بفضل التمثيل الواعي دلاليًا ونمذجة FSDD المصممة خصيصًا، أظهر إطار TokenSet مقاييس أداء متفوقة مقارنة بالطرق السابقة على معيار ImageNet، مما يشير إلى قدرته على توليد صور عالية الدقة وأكثر واقعية. أثبتت القدرة الفريدة لـ FSDD على تلبية خصائص القيم المنفصلة والطول الثابت وثبات المجموع في وقت واحد أنها حاسمة لنجاحه.

تؤكد هذه النتائج مجتمعة صحة TokenSet ليس فقط كحداثة نظرية، ولكن كإطار عملي وقوي لدفع أحدث ما توصلت إليه التكنولوجيا في التمثيل والتوليد البصري.

الآثار والآفاق المستقبلية

يمثل تقديم TokenSet وفلسفته القائمة على المجموعة أكثر من مجرد تحسين تدريجي؛ إنه يشير إلى تحول محتمل في كيفية تصور وهندسة النماذج التوليدية للبيانات المرئية. من خلال الابتعاد عن قيود الرموز المميزة المتسلسلة وتبني تمثيل يتكيف ديناميكيًا مع المحتوى الدلالي، يفتح هذا العمل إمكانيات مثيرة للاهتمام:

  • تحرير صور أكثر بديهية: إذا تم تمثيل الصور بمجموعات من الرموز المميزة المقابلة للعناصر الدلالية، فهل يمكن للواجهات المستقبلية أن تسمح للمستخدمين بمعالجة الصور عن طريق إضافة أو إزالة أو تعديل الرموز المميزة المتعلقة بكائنات أو مناطق معينة مباشرة؟ قد يؤدي هذا إلى أدوات تحرير أكثر بديهية ووعيًا بالمحتوى.
  • التوليد التركيبي (Compositional Generation): قد تكون الطبيعة القائمة على المجموعة مناسبة بشكل أفضل للتعميم التركيبي - القدرة على توليد مجموعات جديدة من الكائنات والمشاهد لم يسبق رؤيتها صراحة أثناء التدريب. قد يكون فهم الصور كمجموعات من العناصر هو المفتاح.
  • الكفاءة وقابلية التوسع: على الرغم من الحاجة إلى نمذجة متطورة مثل FSDD، فإن التخصيص الديناميكي للموارد بناءً على الدلالات يمكن أن يؤدي potencialmente إلى تمثيلات أكثر كفاءة بشكل عام، خاصة بالنسبة للصور عالية الدقة حيث قد تكون مناطق شاسعة بسيطة دلاليًا.
  • سد الفجوة بين الرؤية واللغة: التمثيلات القائمة على المجموعات شائعة في معالجة اللغة الطبيعية (مثل أكياس الكلمات - bags of words). قد يوفر استكشاف الأساليب القائمة على المجموعات في الرؤية طرقًا جديدة للنماذج متعددة الوسائط التي تربط بين الفهم البصري والنصي.

يقدم إطار TokenSet، المدعوم بتقنية نمذجة FSDD الجديدة، عرضًا مقنعًا لقوة إعادة التفكير في الخيارات التمثيلية الأساسية. إنه يتحدى الاعتماد طويل الأمد على الهياكل التسلسلية للبيانات المرئية ويسلط الضوء على فوائد التمثيلات التي تدرك المعنى المضمن داخل البكسلات. بينما يمثل هذا البحث خطوة مهمة، فإنه يعمل أيضًا كنقطة انطلاق. هناك حاجة إلى مزيد من الاستكشاف لفهم واستغلال إمكانات التمثيلات المرئية القائمة على المجموعات بشكل كامل، مما قد يؤدي إلى الجيل التالي من النماذج التوليدية عالية القدرة والكفاءة التي ترى العالم بشكل أقل كتسلسل وأكثر كمجموعة ذات مغزى من العناصر.