Pixtral-12B متاح الآن في سوق Amazon Bedrock

نظرة متعمقة على Pixtral 12B

Pixtral 12B، هو أول محاولة لـ Mistral في نماذج VLM، يُظهر أداءً رائعًا عبر مجموعة من المعايير. وفقًا لتقييمات Mistral الداخلية، فإنه يتفوق على النماذج المفتوحة الأخرى ويتنافس حتى مع النماذج الأكبر حجمًا. تم تصميم Pixtral لفهم كل من الصور والمستندات، مما يُظهر قدرات متقدمة في المهام التي تركز على الرؤية. وتشمل هذه تفسير الرسوم البيانية والأشكال، والإجابة على الأسئلة حول محتوى المستند، والمشاركة في التفكير متعدد الوسائط، واتباع التعليمات بدقة. من السمات الرئيسية لهذا النموذج قدرته على معالجة الصور بدقتها الأصلية ونسبة العرض إلى الارتفاع، مما يضمن معالجة الإدخال بدقة عالية. علاوة على ذلك، وعلى عكس العديد من البدائل مفتوحة المصدر، يحقق Pixtral 12B نتائج ممتازة في المعايير المستندة إلى النصوص - مما يدل على الكفاءة في اتباع التعليمات والترميز والاستدلال الرياضي - دون المساس بأدائه في المهام متعددة الوسائط.

يكمن الابتكار وراء Pixtral 12B في بنية Mistral الجديدة، المصممة بدقة لكل من الكفاءة الحسابية والأداء العالي. يتكون النموذج من مكونين أساسيين: مُشفر رؤية بمعيار 400 مليون، مُكلف بترميز الصور، ووحدة فك ترميز محول متعدد الوسائط بمعيار 12 مليار. يتنبأ جهاز فك التشفير هذا برمز النص اللاحق بناءً على تسلسل معين من النص والصور. تم تدريب مُشفر الرؤية خصيصًا للتعامل مع أحجام الصور المتغيرة أصلاً. يسمح هذا لـ Pixtral بتفسير المخططات والرسوم البيانية والمستندات عالية الدقة بدقة مع الحفاظ على سرعات استدلالسريعة للصور الأصغر، مثل الأيقونات والقصاصات الفنية والمعادلات. تدعم هذه البنية المصممة بعناية معالجة عدد عشوائي من الصور ذات الأحجام المختلفة، وكل ذلك ضمن نافذة سياق كبيرة تبلغ 128000 رمز.

عند استخدام نماذج ذات وزن مفتوح، تكون اتفاقيات الترخيص هي الاعتبار الأهم. يعكس نهج الترخيص الخاص بنماذج Mistral الأخرى مثل Mistral 7B و Mixtral 8x7B و Mixtral 8x22B و Mistral Nemo 12B، يتم إصدار Pixtral 12B بموجب ترخيص Apache 2.0 المسموح به تجاريًا. يوفر هذا لكل من عملاء المؤسسات والشركات الناشئة خيار VLM عالي الأداء، مما يمكنهم من إنشاء تطبيقات متطورة متعددة الوسائط.

مقاييس الأداء والمعايير: نظرة فاحصة

تم تدريب Pixtral 12B بدقة لفهم كل من الصور الطبيعية والمستندات. لقد حقق درجة 52.5٪ في معيار الاستدلال Massive Multitask Language Understanding (MMLU)، متفوقًا على العديد من النماذج الأكبر، كما ذكرت Mistral. يعمل معيار MMLU كاختبار صارم، حيث يقوم بتقييم قدرة نموذج اللغة على فهم اللغة واستخدامها عبر مجموعة متنوعة من الموضوعات. يتكون MMLU من أكثر من 10000 سؤال متعدد الخيارات تغطي مختلف التخصصات الأكاديمية، بما في ذلك الرياضيات والفلسفة والقانون والطب.

يُظهر Pixtral 12B قدرات قوية في مهام مثل فهم الرسوم البيانية والأشكال، والإجابة على الأسئلة بناءً على محتوى المستند، والمشاركة في التفكير متعدد الوسائط، والالتزام بالتعليمات. توفر قدرة النموذج على استيعاب الصور بدقتها الطبيعية ونسبة العرض إلى الارتفاع للمستخدمين مرونة في عدد الرموز المستخدمة لمعالجة الصور. بالإضافة إلى ذلك، يمكن لـ Pixtral معالجة صور متعددة ضمن نافذة السياق الواسعة التي تبلغ 128000 رمز. والجدير بالذكر، وعلى عكس النماذج السابقة مفتوحة المصدر، أن Pixtral لا يضحي بالأداء في معايير النص ليتفوق في المهام متعددة الوسائط، وفقًا لنتائج Mistral.

نشر Pixtral 12B على Amazon Bedrock Marketplace: دليل خطوة بخطوة

تسهل وحدة تحكم Amazon Bedrock البحث عن النماذج المصممة خصيصًا لحالات استخدام أو لغات معينة. تشمل نتائج البحث كلاً من النماذج التي لا تحتاج إلى خادم والنماذج المتاحة من خلال Amazon Bedrock Marketplace. يمكن للمستخدمين تحسين بحثهم عن طريق تصفية النتائج بناءً على الموفر أو الطريقة (على سبيل المثال، النص أو الصورة أو الصوت) أو المهمة (على سبيل المثال، التصنيف أو تلخيص النص).

للوصول إلى Pixtral 12B داخل Amazon Bedrock Marketplace، اتبع هذه الخطوات التفصيلية:

  1. انتقل إلى كتالوج النماذج: داخل وحدة تحكم Amazon Bedrock، حدد موقع ‘Model catalog’ وحدده ضمن قسم ‘Foundation models’ في جزء التنقل.

  2. تصفية وتحديد Pixtral 12B: قم بتحسين قائمة النماذج عن طريق تحديد ‘Hugging Face’ كموفر ثم اختيار نموذج Pixtral 12B. بدلاً من ذلك، يمكنك البحث مباشرة عن ‘Pixtral’ في مربع الإدخال ‘Filter for a model’.

  3. مراجعة تفاصيل النموذج: توفر صفحة تفاصيل النموذج معلومات مهمة تتعلق بقدرات النموذج وهيكل التسعير وإرشادات التنفيذ. تقدم هذه الصفحة إرشادات استخدام شاملة، بما في ذلك نماذج استدعاءات API ومقتطفات التعليمات البرمجية لتسهيل التكامل. كما تعرض أيضًا خيارات النشر ومعلومات الترخيص لتبسيط عملية دمج Pixtral 12B في تطبيقاتك.

  4. بدء النشر: لبدء استخدام Pixtral 12B، انقر فوق الزر ‘Deploy’.

  5. تكوين إعدادات النشر: ستتم مطالبتك بتكوين تفاصيل النشر لـ Pixtral 12B. سيتم ملء معرف النموذج مسبقًا لراحتك.

  6. قبول اتفاقية ترخيص المستخدم النهائي (EULA): اقرأ بعناية اتفاقية ترخيص المستخدم النهائي (EULA) واقبلها.

  7. اسم نقطة النهاية: يتم ملء ‘Endpoint Name’ تلقائيًا؛ ومع ذلك، يتوفر للعملاء خيار إعادة تسمية نقطة النهاية.

  8. عدد المثيلات: حدد العدد المطلوب من المثيلات، والذي يتراوح من 1 إلى 100.

  9. نوع المثيل: اختر نوع المثيل المفضل لديك. للحصول على الأداء الأمثل مع Pixtral 12B، يوصى باستخدام نوع مثيل يعتمد على GPU، مثل ml.g6.12xlarge.

  10. الإعدادات المتقدمة (اختياري): اختياريًا، يمكنك تكوين إعدادات الأمان والبنية التحتية المتقدمة. وتشمل هذه شبكات السحابة الخاصة الافتراضية (VPC)، وأذونات دور الخدمة، وإعدادات التشفير. في حين أن الإعدادات الافتراضية مناسبة لمعظم حالات الاستخدام، بالنسبة لعمليات نشر الإنتاج، يُنصح بمراجعة هذه الإعدادات لضمان التوافق مع متطلبات الأمان والامتثال الخاصة بمؤسستك.

  11. نشر النموذج: انقر فوق ‘Deploy’ لبدء عملية نشر النموذج.

  12. مراقبة حالة النشر: بمجرد اكتمال النشر، يجب أن تنتقل ‘Endpoint status’ إلى ‘In Service’. بعد أن تصبح نقطة النهاية نشطة، يمكنك اختبار قدرات Pixtral 12B مباشرة داخل ساحة لعب Amazon Bedrock.

  13. الوصول إلى ساحة اللعب: حدد ‘Open in playground’ للوصول إلى واجهة تفاعلية. تتيح لك هذه الواجهة تجربة مطالبات مختلفة وضبط معلمات النموذج، مثل درجة الحرارة والحد الأقصى للطول.

توفر ساحة اللعب بيئة ممتازة لاستكشاف قدرات الاستدلال وتوليد النص للنموذج قبل دمجها في تطبيقاتك. إنها تقدم ملاحظات فورية، مما يتيح لك فهم كيفية استجابة النموذج للمدخلات المختلفة وضبط مطالباتك للحصول على أفضل النتائج.

بينما تسمح ساحة اللعب بإجراء اختبار سريع من خلال واجهة المستخدم، فإن الاستدعاء البرمجي للنموذج المنشور باستخدام Amazon Bedrock APIs يتطلب استخدام نقطة النهاية ARN كـ model-id في Amazon Bedrock SDK.

استكشاف حالات استخدام Pixtral 12B

يتعمق هذا القسم في أمثلة عملية لقدرات Pixtral 12B، ويعرض تنوعه من خلال نماذج المطالبات.

الاستدلال المنطقي المرئي: تطبيق قوي

أحد أكثر تطبيقات نماذج الرؤية إقناعًا هو قدرتها على حل مشكلات الاستدلال المنطقي أو الألغاز المرئية. تُظهر نماذج الرؤية Pixtral 12B كفاءة استثنائية في معالجة أسئلة الاستدلال المنطقي. دعونا نفحص مثالًا محددًا لتوضيح هذه القدرة. تكمن القوة الأساسية في القدرة ليس فقط على رؤية الصورة، ولكن على استخراج الأنماط وتطبيق المنطق. تُستخدم قدرات نموذج اللغة الكبيرة لتقديم استجابة.

مثال:
تخيل لغزًا مرئيًا حيث يتم تقديم سلسلة من الأشكال، والمهمة هي تحديد الشكل التالي في التسلسل بناءً على نمط مخفي.

المطالبة: ‘حلل التسلسل التالي من الأشكال وتوقع الشكل التالي في السلسلة. اشرح استدلالك.’

حمولة الإدخال: (صورة تصور تسلسل الأشكال)

المخرجات المتوقعة: من الناحية المثالية، سيقوم Pixtral 12B بما يلي:

  1. تحديد النمط: تمييز النمط الأساسي الذي يحكم تسلسل الأشكال بشكل صحيح. قد يتضمن ذلك التعرف على التغييرات في الشكل أو اللون أو الاتجاه أو مزيج من هذه العوامل.
  2. توقع الشكل التالي: بناءً على النمط المحدد، توقع خصائص الشكل التالي في التسلسل بدقة.
  3. شرح الاستدلال: وضح الخطوات المنطقية المتخذة للوصول إلى التنبؤ بوضوح، مع شرح كيفية تطبيق النمط المحدد لتحديد الشكل التالي.

يسلط هذا المثال الضوء على قدرة Pixtral 12B ليس فقط على معالجة المعلومات المرئية ولكن أيضًا على تطبيق الاستدلال المنطقي لتفسير المعلومات وإجراء التنبؤات. تمتد هذه القدرة إلى ما هو أبعد من التعرف على الأنماط البسيطة، لتشمل سيناريوهات أكثر تعقيدًا تتضمن الاستدلال المكاني والاستنتاجات القائمة على القواعد وحتى فهم المفاهيم المجردة.

حالات الاستخدام والتوسعات الإضافية

بالإضافة إلى الألغاز المرئية، يمكن تطبيق قدرات الاستدلال المنطقي المرئي لـ Pixtral 12B على مجموعة واسعة من سيناريوهات العالم الحقيقي:

  • تحليل البيانات وتفسيرها: تحليل الرسوم البيانية والرسوم البيانية والمخططات لاستخراج الرؤى والاتجاهات الرئيسية. على سبيل المثال، تحديد الارتباطات بين مجموعات البيانات المختلفة المقدمة في تصور معقد.
  • تحليل الصور الطبية: المساعدة في تفسير الصور الطبية، مثل الأشعة السينية والأشعة المقطعية والتصوير بالرنين المغناطيسي، من خلال تحديد الحالات الشاذة أو الأنماط التي تدل على حالات معينة.
  • الروبوتات والأنظمة المستقلة: تمكين الروبوتات من التنقل في البيئات المعقدة من خلال تفسير الإشارات المرئية واتخاذ القرارات بناءً على فهمهم للمشهد.
  • الأمن والمراقبة: تحليل لقطات الفيديو للكشف عن الأنشطة المشبوهة أو تحديد الأشياء ذات الأهمية.
  • التعليم والتدريب: إنشاء مواد تعليمية تفاعلية تتكيف مع فهم المستخدم بناءً على استجاباته للمطالبات المرئية.
  • فهم المستندات: استخراج البيانات المنظمة من المستندات المعقدة.

إن تعدد استخدامات Pixtral 12B، جنبًا إلى جنب مع إمكانية الوصول إلى Amazon Bedrock، يفتح مجموعة واسعة من الاحتمالات للمطورين والشركات التي تسعى إلى الاستفادة من قوة نماذج لغة الرؤية. إن القدرة على معالجة الصور والنصوص بطريقة موحدة، إلى جانب قدرات الاستدلال القوية، تجعل Pixtral 12B أداة قيمة للعديد من التطبيقات. إن سهولة النشر والترخيص المسموح به تجاريًا يعززان من جاذبيته، مما يجعله خيارًا جذابًا لكل من الأبحاث والمساعي التجارية.