دسترسی به Pixtral-12B-2409 از طریق Amazon Bedrock

کاوشی عمیق در Pixtral 12B

Pixtral 12B، اولین ورود Mistral به حوزه VLM ها (مدل‌های زبان بینایی)، عملکرد چشمگیری را در طیف وسیعی از معیارها به نمایش می‌گذارد. طبق ارزیابی‌های داخلی Mistral، این مدل از سایر مدل‌های باز (open models) بهتر عمل می‌کند و حتی با مدل‌های بسیار بزرگتر رقابت می‌کند. Pixtral هم برای درک تصویر و هم برای درک اسناد مهندسی شده است و قابلیت‌های پیشرفته‌ای را در وظایف بینایی‌محور نشان می‌دهد. این وظایف شامل تفسیر نمودارها و شکل‌ها، پاسخ به سوالات مربوط به محتوای اسناد، استدلال چندوجهی و پیروی دقیق از دستورالعمل‌ها می‌شود. یکی از ویژگی‌های کلیدی این مدل، توانایی آن در پردازش تصاویر با وضوح و نسبت ابعاد اصلی آنها است که تضمین‌کننده رسیدگی به ورودی با کیفیت بالا است. علاوه بر این، و برخلاف بسیاری از جایگزین‌های متن‌باز، Pixtral 12B به نتایج عالی در معیارهای مبتنی بر متن دست می‌یابد – تسلط در پیروی از دستورالعمل، کدنویسی و استدلال ریاضی را نشان می‌دهد – بدون اینکه عملکرد آن در وظایف چندوجهی به خطر بیفتد.

نوآوری پشت Pixtral 12B در معماری جدید Mistral نهفته است که به دقت برای کارایی محاسباتی و عملکرد بالا طراحی شده است. این مدل از دو مولفه اصلی تشکیل شده است: یک رمزگذار بینایی 400 میلیون پارامتری که وظیفه توکن‌سازی تصاویر را بر عهده دارد و یک رمزگشای ترانسفورماتور چندوجهی 12 میلیارد پارامتری. این رمزگشا توکن متن بعدی را بر اساس دنباله‌ای از متن و تصاویر پیش‌بینی می‌کند. رمزگذار بینایی به طور خاص برای مدیریت اندازه‌های متغیر تصویر به صورت بومی آموزش داده شده است. این به Pixtral اجازه می‌دهد تا نمودارها، چارت‌ها و اسناد با وضوح بالا را به طور دقیق تفسیر کند و در عین حال سرعت استنتاج سریع را برای تصاویر کوچکتر، مانند نمادها، کلیپ‌آرت و معادلات حفظ کند. این معماری با دقت طراحی شده، از پردازش تعداد دلخواهی از تصاویر با اندازه‌های مختلف، همگی در یک پنجره متنی قابل توجه 128000 توکنی، پشتیبانی می‌کند.

هنگام استفاده از مدل‌های با وزن باز (open-weight models)، توافق‌نامه‌های مجوز یک ملاحظه مهم هستند. Pixtral 12B با انعکاس رویکرد مجوزدهی سایر مدل‌های Mistral مانند Mistral 7B، Mixtral 8x7B، Mixtral 8x22B و Mistral Nemo 12B، تحت مجوز Apache 2.0 که از نظر تجاری مجاز است، منتشر می‌شود. این امر به مشتریان سازمانی و استارتاپی یک گزینه VLM با کارایی بالا ارائه می‌دهد و به آنها قدرت می‌دهد تا برنامه‌های کاربردی چندوجهی پیچیده‌ای بسازند.

معیارهای عملکرد و محک‌ها: نگاهی دقیق‌تر

Pixtral 12B به دقت آموزش داده شده است تا هم تصاویر طبیعی و هم اسناد را درک کند. همانطور که توسط Mistral گزارش شده است، این مدل در معیار استدلال MMLU (Massive Multitask Language Understanding) امتیاز 52.5% را کسب کرد و از چندین مدل بزرگتر پیشی گرفت. معیار MMLU به عنوان یک آزمون دقیق عمل می‌کند و ظرفیت یک مدل زبانی را برای درک و استفاده از زبان در طیف متنوعی از موضوعات ارزیابی می‌کند. MMLU شامل بیش از 10000 سوال چند گزینه‌ای است که رشته‌های مختلف دانشگاهی از جمله ریاضیات، فلسفه، حقوق و پزشکی را در بر می‌گیرد.

Pixtral 12B قابلیت‌های قدرتمندی را در وظایفی مانند درک نمودارها و شکل‌ها، پاسخ به سوالات بر اساس محتوای اسناد، استدلال چندوجهی و پیروی از دستورالعمل‌ها نشان می‌دهد. توانایی این مدل برای دریافت تصاویر با وضوح و نسبت ابعاد طبیعی، انعطاف‌پذیری را در تعداد توکن‌های مورد استفاده برای پردازش تصویر در اختیار کاربران قرار می‌دهد. علاوه بر این، Pixtral می‌تواند چندین تصویر را در پنجره متنی گسترده 128000 توکنی خود پردازش کند. طبق یافته‌های Mistral، Pixtral برخلاف مدل‌های متن‌باز قبلی، عملکرد خود را در معیارهای متنی فدای برتری در وظایف چندوجهی نمی‌کند.

استقرار Pixtral 12B در Amazon Bedrock Marketplace: راهنمای گام به گام

کنسول Amazon Bedrock جستجوی مدل‌های متناسب با موارد استفاده یا زبان‌های خاص را تسهیل می‌کند. نتایج جستجو هم مدل‌های بدون سرور و هم مدل‌های موجود از طریق Amazon Bedrock Marketplace را شامل می‌شود. کاربران می‌توانند جستجوی خود را با فیلتر کردن نتایج بر اساس ارائه‌دهنده، حالت (به عنوان مثال، متن، تصویر یا صدا) یا وظیفه (به عنوان مثال، طبقه‌بندی یا خلاصه‌سازی متن) اصلاح کنند.

برای دسترسی به Pixtral 12B در Amazon Bedrock Marketplace، این مراحل دقیق را دنبال کنید:

  1. پیمایش به کاتالوگ مدل: در کنسول Amazon Bedrock، ‘Model catalog’ را در زیر بخش ‘Foundation models’ در نوار پیمایش پیدا کرده و انتخاب کنید.

  2. فیلتر و انتخاب Pixtral 12B: لیست مدل‌ها را با انتخاب ‘Hugging Face’ به عنوان ارائه‌دهنده و سپس انتخاب مدل Pixtral 12B اصلاح کنید. از طرف دیگر، می‌توانید مستقیماً ‘Pixtral’ را در کادر ورودی ‘Filter for a model’ جستجو کنید.

  3. بررسی جزئیات مدل: صفحه جزئیات مدل، اطلاعات مهمی در مورد قابلیت‌های مدل، ساختار قیمت‌گذاری و دستورالعمل‌های پیاده‌سازی ارائه می‌دهد. این صفحه دستورالعمل‌های استفاده جامع، از جمله نمونه تماس‌های API و قطعه کدها را برای تسهیل یکپارچه‌سازی ارائه می‌دهد. همچنین گزینه‌های استقرار و اطلاعات مجوز را برای ساده‌سازی فرآیند گنجاندن Pixtral 12B در برنامه‌های کاربردی شما ارائه می‌دهد.

  4. شروع استقرار: برای شروع استفاده از Pixtral 12B، روی دکمه ‘Deploy’ کلیک کنید.

  5. پیکربندی تنظیمات استقرار: از شما خواسته می‌شود جزئیات استقرار Pixtral 12B را پیکربندی کنید. شناسه مدل برای راحتی شما از قبل پر می‌شود.

  6. پذیرش توافقنامه مجوز کاربر نهایی (EULA): توافقنامه مجوز کاربر نهایی (EULA) را به دقت بخوانید و بپذیرید.

  7. نام نقطه پایانی (Endpoint Name): ‘Endpoint Name’ به طور خودکار پر می‌شود. با این حال، مشتریان می‌توانند نقطه پایانی را تغییر نام دهند.

  8. تعداد نمونه‌ها (Number of Instances): تعداد نمونه‌های مورد نظر را از 1 تا 100 مشخص کنید.

  9. نوع نمونه (Instance Type): نوع نمونه مورد نظر خود را انتخاب کنید. برای عملکرد بهینه با Pixtral 12B، یک نوع نمونه مبتنی بر GPU، مانند ml.g6.12xlarge، توصیه می‌شود.

  10. تنظیمات پیشرفته (اختیاری): به صورت اختیاری، می‌توانید تنظیمات امنیتی و زیرساختی پیشرفته را پیکربندی کنید. این تنظیمات شامل شبکه‌سازی VPC (virtual private cloud)، مجوزهای نقش سرویس و تنظیمات رمزگذاری می‌شود. در حالی که تنظیمات پیش‌فرض برای اکثر موارد استفاده مناسب است، برای استقرارهای تولید، توصیه می‌شود این تنظیمات را بررسی کنید تا از همسویی با الزامات امنیتی و انطباق سازمان خود اطمینان حاصل کنید.

  11. استقرار مدل: برای شروع فرآیند استقرار مدل، روی ‘Deploy’ کلیک کنید.

  12. نظارت بر وضعیت استقرار: پس از تکمیل استقرار، ‘Endpoint status’ باید به ‘In Service’ تغییر کند. پس از فعال شدن نقطه پایانی، می‌توانید مستقیماً قابلیت‌های Pixtral 12B را در زمین بازی (playground) Amazon Bedrock آزمایش کنید.

  13. دسترسی به زمین بازی: ‘Open in playground’ را انتخاب کنید تا به یک رابط تعاملی دسترسی پیدا کنید. این رابط به شما امکان می‌دهد تا با پرامپت‌های مختلف آزمایش کنید و پارامترهای مدل، مانند دما و حداکثر طول را تنظیم کنید.

زمین بازی یک محیط عالی برای کشف قابلیت‌های استدلال و تولید متن مدل قبل از ادغام آن در برنامه‌های کاربردی شما فراهم می‌کند. این بازخورد فوری ارائه می‌دهد و به شما امکان می‌دهد تا نحوه پاسخگویی مدل به ورودی‌های مختلف را درک کنید و پرامپت‌های خود را برای نتایج بهینه تنظیم کنید.

در حالی که زمین بازی امکان آزمایش سریع از طریق رابط کاربری را فراهم می‌کند، فراخوانی برنامه‌نویسی مدل مستقر شده با استفاده از API های Amazon Bedrock مستلزم استفاده از ARN نقطه پایانی به عنوان model-id در Amazon Bedrock SDK است.

کاوش موارد استفاده Pixtral 12B

این بخش به نمونه‌های عملی از قابلیت‌های Pixtral 12B می‌پردازد و تطبیق‌پذیری آن را از طریق پرامپت‌های نمونه به نمایش می‌گذارد.

استدلال منطقی بصری: یک کاربرد قدرتمند

یکی از قانع‌کننده‌ترین کاربردهای مدل‌های بینایی، توانایی آنها در حل مسائل استدلال منطقی یا پازل‌های بصری است. مدل‌های بینایی Pixtral 12B مهارت استثنایی در مقابله با سوالات استدلال منطقی نشان می‌دهند. بیایید یک مثال خاص را برای نشان دادن این قابلیت بررسی کنیم. قدرت اصلی، توانایی نه تنها دیدن تصویر، بلکه استخراج الگوها و اعمال منطق است. قابلیت‌های مدل زبان بزرگ برای ارائه پاسخ استفاده می‌شود.

مثال:
یک پازل بصری را تصور کنید که در آن دنباله‌ای از اشکال ارائه می‌شود و وظیفه تعیین شکل بعدی در دنباله بر اساس یک الگوی پنهان است.

پرامپت: ‘دنباله اشکال زیر را تجزیه و تحلیل کنید و شکل بعدی سری را پیش‌بینی کنید. استدلال خود را توضیح دهید.’

بار ورودی: (تصویری که دنباله اشکال را نشان می‌دهد)

خروجی مورد انتظار: Pixtral 12B در حالت ایده‌آل:

  1. الگو را شناسایی می‌کند: الگوی زیربنایی حاکم بر دنباله اشکال را به درستی تشخیص می‌دهد. این ممکن است شامل تشخیص تغییرات در شکل، رنگ، جهت یا ترکیبی از این عوامل باشد.
  2. شکل بعدی را پیش‌بینی می‌کند: بر اساس الگوی شناسایی شده، ویژگی‌های شکل بعدی در دنباله را به طور دقیق پیش‌بینی می‌کند.
  3. استدلال را توضیح می‌دهد: مراحل منطقی انجام شده برای رسیدن به پیش‌بینی را به وضوح بیان می‌کند و توضیح می‌دهد که چگونه الگوی شناسایی شده برای تعیین شکل بعدی اعمال شده است.

این مثال توانایی Pixtral 12B را نه تنها برای پردازش اطلاعات بصری، بلکه برای اعمال استدلال منطقی برای تفسیر اطلاعات و انجام پیش‌بینی‌ها برجسته می‌کند. این قابلیت فراتر از تشخیص الگوی ساده است و سناریوهای پیچیده‌تری را شامل می‌شود که شامل استدلال فضایی، استنتاج‌های مبتنی بر قاعده و حتی درک مفهوم انتزاعی است.

موارد استفاده و گسترش‌های بیشتر

فراتر از پازل‌های بصری، قابلیت‌های استدلال منطقی بصری Pixtral 12B را می‌توان در طیف گسترده‌ای از سناریوهای دنیای واقعی به کار برد:

  • تجزیه و تحلیل و تفسیر داده‌ها: تجزیه و تحلیل نمودارها، گراف‌ها و دیاگرام‌ها برای استخراج بینش‌ها و روندهای کلیدی. به عنوان مثال، شناسایی همبستگی بین مجموعه داده‌های مختلف ارائه شده در یک تجسم پیچیده.
  • تجزیه و تحلیل تصویر پزشکی: کمک به تفسیر تصاویر پزشکی، مانند اشعه ایکس، سی‌تی اسکن و MRI، با شناسایی ناهنجاری‌ها یا الگوهای نشان‌دهنده شرایط خاص.
  • رباتیک و سیستم‌های خودمختار: قادر ساختن ربات‌ها برای پیمایش در محیط‌های پیچیده با تفسیر نشانه‌های بصری و تصمیم‌گیری بر اساس درک آنها از صحنه.
  • امنیت و نظارت: تجزیه و تحلیل فیلم‌های ویدئویی برای شناسایی فعالیت‌های مشکوک یا شناسایی اشیاء مورد علاقه.
  • آموزش و پرورش: ایجاد مواد آموزشی تعاملی که با درک کاربر بر اساس پاسخ‌های آنها به پرامپت‌های بصری سازگار می‌شود.
  • درک اسناد: استخراج داده های ساختاریافته از اسناد پیچیده.

تطبیق‌پذیری Pixtral 12B، همراه با دسترسی Amazon Bedrock، طیف وسیعی از امکانات را برای توسعه‌دهندگان و مشاغلی که به دنبال استفاده از قدرت مدل‌های زبان بینایی هستند، باز می‌کند. توانایی پردازش تصاویر و متن به روشی یکپارچه، همراه با قابلیت‌های استدلال قوی، Pixtral 12B را به ابزاری ارزشمند برای بسیاری از برنامه‌ها تبدیل می‌کند. سهولت استقرار و مجوز تجاری مجاز، جذابیت آن را بیشتر می‌کند و آن را به گزینه‌ای جذاب هم برای تحقیقات و هم برای تلاش‌های تجاری تبدیل می‌کند.