رونمایی NVIDIA از Llama Nemotron Nano VL

NVIDIA اخیراً Llama Nemotron Nano VL را معرفی کرده است، یک مدل زبان-دید (VLM) که با دقت طراحی شده است تا با کارایی و دقت بی‌نظیر، وظایف درک سطح سند را انجام دهد. این سیستم نوآورانه بر اساس معماری قوی Llama 3.1 ساخته شده و یک رمزگذار دیداری ساده را در خود جای داده است، که آن را به طور استثنایی برای کاربردهایی مناسب می‌سازد که نیاز به تجزیه و تحلیل دقیق از ساختارهای پیچیده سند دارند، مانند فرم‌های اسکن شده، گزارش‌های مالی دقیق و نمودارهای فنی پیچیده.

معماری مدل و بررسی اجمالی جامع

Llama Nemotron Nano VL به طور یکپارچه رمزگذار دیداری CRadioV2-H را با یک مدل زبانی Llama 3.1 8B Instruct که با دقت تنظیم شده است، ادغام می‌کند. این ترکیب قدرتمند یک خط لوله ایجاد می‌کند که قادر به پردازش هم‌افزای ورودی‌های چندوجهی است، در برگیرنده اسناد چند صفحه‌ای که دارای هر دو جزء دیداری و متنی هستند.

معماری مدل به طور خاص برای کارایی بهینه توکن مهندسی شده است، و طول متن تا 16K را در هر دو دنباله تصویر و متن جای می‌دهد. توانایی آن در مدیریت چندین تصویر در کنار ورودی متنی، آن را به ویژه در وظایف طولانی مدت چندوجهی ماهر می‌سازد. تراز دیداری-متنی دقیق از طریق استفاده از لایه‌های پیشرفته طرح‌ریزی و رمزگذاری موقعیتی چرخشی، که به طور سفارشی برای جاسازی تکه‌های تصویر طراحی شده‌اند، به دست می‌آید.

رژیم آموزشی به طور استراتژیک به سه فاز متمایز تقسیم شد:

  • فاز 1: از پیش‌آموزش تصویر-متن درهم‌تنیده بر روی مجموعه‌های داده گسترده تصویر و ویدیوی تجاری استفاده کرد. این فاز برای تثبیت مدل در یک آرایه گسترده از اطلاعات دیداری و متنی بسیار مهم بود.
  • فاز 2: از تنظیم دستورالعمل چندوجهی برای فعال کردن درخواست تعاملی استفاده کرد، که امکان تعامل پویا و پاسخگویی بهبود یافته به پرسش‌های کاربر را فراهم می‌کرد.
  • فاز 3: داده‌های دستورالعمل فقط متنی را دوباره ترکیب کرد تا عملکرد را در معیارهای استاندارد LLM اصلاح کند، و مهارت مدل را در درک و استدلال زبان عمومی افزایش دهد.

تمام فرآیند آموزش با استفاده از چارچوب Megatron-LLM NVIDIA با بارگذار داده Energon با عملکرد بالا اجرا شد. حجم کار در سراسر خوشه‌هایی که توسط GPUهای پیشرفته A100 و H100 تغذیه می‌شدند، توزیع شد و از کارایی محاسباتی بهینه اطمینان حاصل شد.

تجزیه و تحلیل عمیق نتایج معیار و معیارهای ارزیابی

Llama Nemotron Nano VL تحت ارزیابی دقیق در OCRBench v2 قرار گرفت، یک معیار پیشرفته که برای ارزیابی جامع درک زبان-دید در سطح سند طراحی شده است. این معیار شامل انواع وظایف، از جمله OCR (تشخیص کاراکتر نوری)، تجزیه جدول و استدلال نمودار است. OCRBench شامل مجموعه‌ای قابل توجه از بیش از 10000 جفت پرسش و پاسخ تأیید شده توسط انسان است که اسناد را از حوزه‌های گوناگونی مانند مالی، بهداشت و درمان، حقوقی و انتشارات علمی پوشش می‌دهد.

نتایج ارزیابی نشان می‌دهد که مدل به دقت پیشرفته در میان VLMهای فشرده در این معیار چالش‌برانگیز دست می‌یابد. قابل توجه است که عملکرد آن با مدل‌های به طور قابل توجهی بزرگتر و کم‌بازده‌تر، به ویژه در وظایفی که شامل استخراج داده‌های ساختاریافته (به عنوان مثال، جداول و جفت‌های کلید-مقدار) و پاسخ دادن به پرسش‌های وابسته به طرح‌بندی هستند، رقابت می‌کند.

توانایی مدل در تعمیم مؤثر در اسناد غیرانگلیسی و اسنادی با کیفیت اسکن پایین، بر استحکام و کاربرد عملی آن در سناریوهای دنیای واقعی تأکید می‌کند.

استراتژی‌های استقرار، تکنیک‌های کوانتیزاسیون و بهینه‌سازی‌های کارایی

Llama Nemotron Nano VL برای استقرار انعطاف‌پذیر مهندسی شده است، که از هر دو سناریوی استنتاج سرور و لبه پشتیبانی می‌کند. NVIDIA یک نسخه کوانتیزه شده 4 بیتی (AWQ) ارائه می‌دهد که استنتاج کارآمد را با استفاده از TinyChat و TensorRT-LLM امکان‌پذیر می‌کند. این نسخه کوانتیزه شده همچنین با Jetson Orin و سایر محیط‌های محدود از نظر منابع سازگار است و کاربرد آن را به محدوده وسیع‌تری از برنامه‌ها گسترش می‌دهد.

ویژگی‌های فنی کلیدی که به کارایی و تطبیق‌پذیری آن کمک می‌کنند عبارتند از:

  • پشتیبانی از NIM مدولار (NVIDIA Inference Microservice) که ادغام API را ساده می‌کند و استقرار یکپارچه را در معماری‌های میکروسرویس تسهیل می‌کند.
  • پشتیبانی از صادرات ONNX و TensorRT، اطمینان از سازگاری با شتاب سخت‌افزاری و بهینه‌سازی عملکرد در پلتفرم‌های مختلف.
  • گزینه جاسازی دیداری از پیش محاسبه شده که با پیش‌پردازش اطلاعات دیداری، تأخیر را برای اسناد تصویر ثابت کاهش می‌دهد.

مبانی تکنولوژیکی اصلی

با ورود عمیق‌تر به جنبه‌های تکنولوژیکی Llama Nemotron Nano VL، تفکیک اجزای فردی و روش‌های آموزشی که به توانایی آن در درک زبان دیداری کمک می‌کنند، بسیار مهم است. این مدل خود را از طریق ادغام یکپارچه معماری Llama 3.1 با رمزگذار دید CRadioV2-H متمایز می‌کند، که در یک خط لوله هماهنگ که در پردازش همزمان ورودی‌های چندوجهی ماهر است، به اوج خود می‌رسد. این مستلزم ظرفیت برای تفسیر اسناد چند صفحه‌ای است که شامل هر دو مؤلفه دیداری و متنی است، و آن را برای برنامه‌هایی که نیاز به تجزیه و تحلیل جامع از تنظیمات پیچیده سند دارند، به طور قطع ارزشمند می‌سازد.

وجهه اصلی طراحی حول استخدام بهینه توکن‌ها می‌چرخد، ویژگی‌ای که این امکان را برای مدل فراهم می‌سازد که طول متن‌ها را تا مرز 16K در هر دو دنباله تصویری و متنی جای دهد. این پنجره متنی گسترده مدل را قادر می‌سازد تا جزئیات متنی بیشتری را حفظ و استفاده کند، و دقت و قابلیت اطمینان آن را در تکالیف استدلال پیچیده به طور قابل توجهی افزایش می‌دهد. علاوه بر این، مهارت در مدیریت چند تصویر در کنار ورودی متنی آن را به طرز چشمگیری برای تکالیف چندوجهی گسترده مناسب می‌سازد، جایی که تعامل بین عناصر دیداری و متنی مختلف بسیار مهم است.

دستیابی به ترازبندی دقیق دیداری-متنی از طریق کاربرد لایه‌های طرح‌ریزی پیشرفته و رمزگذاری موقعیتی چرخشی، که هوشمندانه برای جاسازی تکه‌های تصویر طراحی شده‌اند، تحقق می‌یابد. این مکانیسم‌ها اطمینان حاصل می‌کنند که داده‌های دیداری و متنی به طور دقیق همگام شده‌اند، و در نتیجه ظرفیت مدل را برای استخراج بینش‌های معنادار از ورودی‌های چندوجهی افزایش می‌دهند.

بررسی جامع فرآیند آموزش

الگوی آموزشی برای Llama Nemotron Nano VL به طور دقیق به سه فاز خاص ساختاردهی شده است، که هر کدام به مجموعه مهارت‌های جامع مدل کمک می‌کنند. تقسیم‌بندی استراتژیک آموزش امکانات پیشرفت‌ها و تنظیمات هدفمند را فراهم می‌سازد، و در نتیجه عملکرد نهایی مدل را به حداکثر می‌رساند.

فاز اولیه در بر گیرنده پیش‌آموزش تصویر-متن درهم‌تنیده بر روی مجموعه‌های داده گسترده تصویر و ویدیو تجاری است. این گام اساسی برای اعطای درک عمیق از هر دو نوع اطلاعات دیداری و متنی به مدل ضروری است، و در نتیجه بنیانی قدرتمند برای یادگیری‌های بعدی بنا می‌کند. با قرار دادن مدل در معرض آرایه‌ای گسترده از داده‌های چندوجهی، ظرفیت را برای تشخیص تداعی‌ها و الگوهای پیچیده که گستره‌ای از حالت‌های ناهمگون را در بر می‌گیرند، کسب می‌کند.

فاز بعدی روی تنظیم دستورالعمل چندوجهی برای فعال کردن ایجاد درخواست تعاملی متمرکز می‌شود. این مرحله مستلزم تنظیم دقیق مدل با مجموعه متنوعی از مجموعه‌های داده مبتنی بر دستورالعمل است، در نتیجه آن را قادر می‌سازد تا با دقت به پرسش‌ها و دستورالعمل‌های کاربر پاسخ دهد. ایجاد درخواست تعاملی مدل را قادر می‌سازد تا در تعاملات پویا شرکت کند، و پاسخ‌های مرتبط با متن را ارائه دهد که درک و مهارت‌های استدلالی بهبود یافته آن را به نمایش می‌گذارد.

فاز پایانی در بر گیرنده بازترکیب داده‌های دستورالعمل فقط متنی برای اصلاح عملکرد در معیارهای استاندارد LLM است. این فاز به عنوان گامی محوری در کامل کردن قابلیت‌های درک زبان مدل عمل می‌کند. تنظیم دقیق مدل روی داده‌های فقط متنی آن را قادر می‌سازد تا توانایی زبان‌آوری، همبستگی و دقت خود را در تکالیف زبانی بهبود بخشد.

بررسی کامل نتایج معیار و ارزیابی

Llama Nemotron Nano VL تحت ارزیابی دقیق روی معیار به طور گسترده شناخته شده OCRBench v2 قرار گرفت، یک فرآیند بازبینی کامل که برای ارزیابی دقیق قابلیت‌های درک زبان دیداری-زبانی در سطح سند ایجاد شده است. این معیار مجموعه‌ای گسترده از مسئولیت‌ها، از جمله OCR، تجزیه جداول و اندیشیدن نمودار را پوشش می‌دهد، و ارزیابی جامعی از توانایی‌های مدل در میان تکالیف پردازش سند گوناگون ارائه می‌دهد.

OCRBench شامل تلفیقی قابل توجه از جفت‌های پرسش و پاسخ تأیید شده توسط انسان است، که آن را به یک شاخص قابل اعتماد برای مقایسه عملکرد مدل‌های گوناگون تبدیل می‌کند. این واقعیت که جفت‌های پرسش و پاسخ توسط انسان تأیید شده‌اند، درجه بالایی از دقت و قابلیت اطمینان را تضمین می‌کند، و بنیادی مستحکم برای ارزیابی قابلیت‌های مدل ایجاد می‌کند.

نتایج ارزیابی نشان می‌دهد که Llama Nemotron Nano VL دقت پیشرفته‌ای را در میان VLMهای فشرده روی معیار OCRBench v2 کسب می‌کند. این دستاورد عملکرد برتر مدل را در تکالیف درک سند برجسته می‌کند، و آن را به عنوان یک رقیب برجسته در این زمینه قرار می‌دهد. به طرز شگفت‌انگیزی، عملکرد آن با مدل‌های به طور قابل توجهی بزرگتر و کم‌بازده‌تر رقابت می‌کند، به ویژه در مسئولیت‌هایی که مستلزم استخراج داده‌های ساختاریافته (به عنوان مثال، جداول و جفت‌های کلید-مقدار) و پاسخ‌گویی به پرسش‌های وابسته به طرح‌بندی هستند. این اثر، کارایی و مقیاس‌پذیری مدل را برجسته می‌کند، و نشان می‌دهد که می‌تواند بدون نیاز به منابع محاسباتی گسترده به نتایج سطح بالا دست یابد.

توانایی مدل برای تعمیم موفقیت‌آمیز در اسناد غیرانگلیسی و اسناد با کیفیت اسکن پایین، بر استحکام و کاربرد عملی آن در سناریوهای دنیای واقعی تأکید می‌کند. این انطباق‌پذیری آن را برای استقرارها در زمینه‌های گوناگون مناسب می‌سازد، جایی که ممکن است اسنادی با کیفیت‌های زبانی و دیداری مختلف را تجربه کند. ظرفیت مقابله با کیفیت‌های اسکن پایین به طور خاص مهم است، چرا که مدل را قادر می‌سازد تا اثربخشی خود را حتی هنگام برخورد با اسناد ناقص یا قدیمی حفظ کند.

تصریح در مورد سناریوهای استقرار و رویه‌های کوانتیزاسیون

Llama Nemotron Nano VL به منظور استقرار عملکردی در نظر گرفته شده است، و از هر دو سناریوی استنتاج سرور و لبه پشتیبانی می‌کند. این تطبیق‌پذیری آن را قادر می‌سازد تا در آرایه‌ای گسترده از زمینه‌ها، از سرورهای مبتنی بر ابر گرفته تا دستگاه‌های لبه با محدودیت منابع، مستقر شود.

NVIDIA یک نسخه کوانتیزه شده 4 بیتی ارائه می‌دهد، که استنتاج سازنده را با TinyChat و TensorRT-LLM فعال می‌کند. این نسخه کوانتیزه شده همچنین با Jetson Orin و سایر تنظیمات با محدودیت منابع سازگاری دارد، و کاربرد آن را به آرایه‌ای گسترده از برنامه‌ها گسترش می‌دهد. کوانتیزاسیون یک روش بهینه‌سازی حیاتی است که اندازه و الزامات محاسباتی مدل را کاهش می‌دهد، و استقرار آن را روی دستگاه‌های با قابلیت‌های سخت‌افزاری محدود بسیار آسان‌تر می‌کند.

سازگاری مدل با TinyChat و TensorRT-LLM ادغام روان در جریان‌های کاری فعلی را تسهیل می‌کند، و مشتریان را قادر می‌سازد تا بدون ایجاد تغییرات اساسی در زیرساخت خود، از مزایای Llama Nemotron Nano VL بهره‌مند شوند. این سادگی ادغام یک مزیت قابل توجه است، چرا که مانع ورود را کاهش می‌دهد و امکان پذیرش سریع مدل را فراهم می‌سازد.

علاوه بر این، سازگاری مدل با Jetson Orin و سایر تنظیمات با محدودیت منابع، استقرارهای احتمالی آن را به سناریوهای محاسباتی لبه گسترش می‌دهد، جایی که می‌توان آن را روی دستگاه‌های با توان و قابلیت‌های محاسباتی محدود مستقر کرد. این فرصت‌های جدیدی را برای درک سند در زمان واقعی روی دستگاه‌هایی از جمله تلفن‌های هوشمند، تبلت‌ها و سیستم‌های تعبیه‌شده باز می‌کند.

بررسی دقیق спецификат های Технологӣ Ключевӣ

Llama Nemotron Nano VL دارای انواع گزینه‌های تکنیکی است که کارایی، تطبیق‌پذیری و سهولت استقرار آن را افزایش می‌دهد. این спецификат ها به طیف گسترده‌ای از الزامات برنامه پاسخ می‌دهند، و آن را به راه حلی انعطاف‌پذیر برای انجام تکالیف مختلف درک سند تبدیل می‌کنند.

پشتیبانی از NIM مدولار ادغام API را ساده می‌کند، و ادغام روان را در معماری‌های میکروسرویس فعال می‌کند. NIM (میکروسرویس استنباط NVIDIA) یک فرمت استقرار کانتینری است که یک رابط استاندارد برای دسترسی به توانایی‌های استنباطی تولید می‌کند. این مدولار بودن پیاده‌سازی و مدیریت مدل را ساده می‌کند، به ویژه در سیستم‌های پیچیده و مبتنی بر میکروسرویس.

دستیاری مدل برای صادرات ONNX و TensorRT سازگاری شتاب سخت‌افزاری را تضمین می‌کند، و عملکرد را در سراسر پلتفرم‌های متعدد بهینه می‌کند. ONNX (تبادل شبکه عصبی باز) یک استاندارد باز برای دلالت بر مدل‌های یادگیری ماشینی است، و قابلیت همکاری بین چارچوب‌ها و پلتفرم‌های سخت‌افزاری متنوع را فعال می‌کند. TensorRT اپتیامیزور و زمان اجرای استنباطی با عملکرد بالا NVIDIA است، که شتاب قابل توجهی را روی GPU‌های NVIDIA فراهم می‌کند.

گزینه جاسازی دیداری از پیش محاسبه شده با پیش پردازش اطلاعات دیداری، تأخیر برای اسناد تصویر ثابت را کاهش می‌دهد. این بهینه‌سازی به طور ویژه برای برنامه‌هایی مفید است که شامل اسناد ثابت هستند، جایی که嵌入های دیداری می‌توانند از پیش محاسبه شده و مجدداً استفاده شوند، در نتیجه زمان استنباط را به حداقل می‌رسانند و تجربه کلی کاربر را بهبود می‌بخشند. با پیش محاسبه ى эдеи ویрирарии видеарӣ модели андеа мата матаа матаа матаа амати амата амада мата Махари ى Малиди Мари Михри Маҳи Майдии Мандо Ман Махи Маш Михи Майдии Ммммх.

Зимни Иҷтимои Стратеги ва Ҷои Дароиқ Иҷтимонӣ

Аробаи NVIDIA аз Llama Nematron Nano Vl зинхоҳӣ ёфтани ёфтани якҷоя кардани инқиллими интихобӣ мебошад. Бо ёрии даруни ин аслими сахт дар бораи мо ё мутобиқи дарёбии дар дар саҳифаи оташин.

Поканиатон диҳанданду дараҷадоршавии таикиди дар Оксбреи В 2 таҷрибадори таҳияи худро идокадори созмон медиҳад тасмими тахирирашон дар ҳақиқат қарор мегирад.

Намояндаи дар дигаргуники ва дигар чорабиниҳо ба назар мерасад то ьин мубадити хидоёт қариб то сомон гузортаринро мубоддои саноат мекунад Ба эьтиьбор вогузории таьминоти хусузиятро роҳсози саноият ва ба манфиатьдориамон ёрм мебардорад чи бо духатрона сар ба нишаст дигаргун гунаи ахбори доштанди манти дастовардҳои ташвикамон инкишофи малматта доштие рохадаш идобати амалиоди дошкари гуногунаи маноои зиндагуниро бар бар бардоштани қаро бо зиндагуни машғул мубои мусоби мувофиқии дошта мемонад дар модар машғуленди амалиёт то дастовард.