NVIDIA اخیراً Llama Nemotron Nano VL را معرفی کرده است، یک مدل زبان-دید (VLM) که با دقت طراحی شده است تا با کارایی و دقت بینظیر، وظایف درک سطح سند را انجام دهد. این سیستم نوآورانه بر اساس معماری قوی Llama 3.1 ساخته شده و یک رمزگذار دیداری ساده را در خود جای داده است، که آن را به طور استثنایی برای کاربردهایی مناسب میسازد که نیاز به تجزیه و تحلیل دقیق از ساختارهای پیچیده سند دارند، مانند فرمهای اسکن شده، گزارشهای مالی دقیق و نمودارهای فنی پیچیده.
معماری مدل و بررسی اجمالی جامع
Llama Nemotron Nano VL به طور یکپارچه رمزگذار دیداری CRadioV2-H را با یک مدل زبانی Llama 3.1 8B Instruct که با دقت تنظیم شده است، ادغام میکند. این ترکیب قدرتمند یک خط لوله ایجاد میکند که قادر به پردازش همافزای ورودیهای چندوجهی است، در برگیرنده اسناد چند صفحهای که دارای هر دو جزء دیداری و متنی هستند.
معماری مدل به طور خاص برای کارایی بهینه توکن مهندسی شده است، و طول متن تا 16K را در هر دو دنباله تصویر و متن جای میدهد. توانایی آن در مدیریت چندین تصویر در کنار ورودی متنی، آن را به ویژه در وظایف طولانی مدت چندوجهی ماهر میسازد. تراز دیداری-متنی دقیق از طریق استفاده از لایههای پیشرفته طرحریزی و رمزگذاری موقعیتی چرخشی، که به طور سفارشی برای جاسازی تکههای تصویر طراحی شدهاند، به دست میآید.
رژیم آموزشی به طور استراتژیک به سه فاز متمایز تقسیم شد:
- فاز 1: از پیشآموزش تصویر-متن درهمتنیده بر روی مجموعههای داده گسترده تصویر و ویدیوی تجاری استفاده کرد. این فاز برای تثبیت مدل در یک آرایه گسترده از اطلاعات دیداری و متنی بسیار مهم بود.
- فاز 2: از تنظیم دستورالعمل چندوجهی برای فعال کردن درخواست تعاملی استفاده کرد، که امکان تعامل پویا و پاسخگویی بهبود یافته به پرسشهای کاربر را فراهم میکرد.
- فاز 3: دادههای دستورالعمل فقط متنی را دوباره ترکیب کرد تا عملکرد را در معیارهای استاندارد LLM اصلاح کند، و مهارت مدل را در درک و استدلال زبان عمومی افزایش دهد.
تمام فرآیند آموزش با استفاده از چارچوب Megatron-LLM NVIDIA با بارگذار داده Energon با عملکرد بالا اجرا شد. حجم کار در سراسر خوشههایی که توسط GPUهای پیشرفته A100 و H100 تغذیه میشدند، توزیع شد و از کارایی محاسباتی بهینه اطمینان حاصل شد.
تجزیه و تحلیل عمیق نتایج معیار و معیارهای ارزیابی
Llama Nemotron Nano VL تحت ارزیابی دقیق در OCRBench v2 قرار گرفت، یک معیار پیشرفته که برای ارزیابی جامع درک زبان-دید در سطح سند طراحی شده است. این معیار شامل انواع وظایف، از جمله OCR (تشخیص کاراکتر نوری)، تجزیه جدول و استدلال نمودار است. OCRBench شامل مجموعهای قابل توجه از بیش از 10000 جفت پرسش و پاسخ تأیید شده توسط انسان است که اسناد را از حوزههای گوناگونی مانند مالی، بهداشت و درمان، حقوقی و انتشارات علمی پوشش میدهد.
نتایج ارزیابی نشان میدهد که مدل به دقت پیشرفته در میان VLMهای فشرده در این معیار چالشبرانگیز دست مییابد. قابل توجه است که عملکرد آن با مدلهای به طور قابل توجهی بزرگتر و کمبازدهتر، به ویژه در وظایفی که شامل استخراج دادههای ساختاریافته (به عنوان مثال، جداول و جفتهای کلید-مقدار) و پاسخ دادن به پرسشهای وابسته به طرحبندی هستند، رقابت میکند.
توانایی مدل در تعمیم مؤثر در اسناد غیرانگلیسی و اسنادی با کیفیت اسکن پایین، بر استحکام و کاربرد عملی آن در سناریوهای دنیای واقعی تأکید میکند.
استراتژیهای استقرار، تکنیکهای کوانتیزاسیون و بهینهسازیهای کارایی
Llama Nemotron Nano VL برای استقرار انعطافپذیر مهندسی شده است، که از هر دو سناریوی استنتاج سرور و لبه پشتیبانی میکند. NVIDIA یک نسخه کوانتیزه شده 4 بیتی (AWQ) ارائه میدهد که استنتاج کارآمد را با استفاده از TinyChat و TensorRT-LLM امکانپذیر میکند. این نسخه کوانتیزه شده همچنین با Jetson Orin و سایر محیطهای محدود از نظر منابع سازگار است و کاربرد آن را به محدوده وسیعتری از برنامهها گسترش میدهد.
ویژگیهای فنی کلیدی که به کارایی و تطبیقپذیری آن کمک میکنند عبارتند از:
- پشتیبانی از NIM مدولار (NVIDIA Inference Microservice) که ادغام API را ساده میکند و استقرار یکپارچه را در معماریهای میکروسرویس تسهیل میکند.
- پشتیبانی از صادرات ONNX و TensorRT، اطمینان از سازگاری با شتاب سختافزاری و بهینهسازی عملکرد در پلتفرمهای مختلف.
- گزینه جاسازی دیداری از پیش محاسبه شده که با پیشپردازش اطلاعات دیداری، تأخیر را برای اسناد تصویر ثابت کاهش میدهد.
مبانی تکنولوژیکی اصلی
با ورود عمیقتر به جنبههای تکنولوژیکی Llama Nemotron Nano VL، تفکیک اجزای فردی و روشهای آموزشی که به توانایی آن در درک زبان دیداری کمک میکنند، بسیار مهم است. این مدل خود را از طریق ادغام یکپارچه معماری Llama 3.1 با رمزگذار دید CRadioV2-H متمایز میکند، که در یک خط لوله هماهنگ که در پردازش همزمان ورودیهای چندوجهی ماهر است، به اوج خود میرسد. این مستلزم ظرفیت برای تفسیر اسناد چند صفحهای است که شامل هر دو مؤلفه دیداری و متنی است، و آن را برای برنامههایی که نیاز به تجزیه و تحلیل جامع از تنظیمات پیچیده سند دارند، به طور قطع ارزشمند میسازد.
وجهه اصلی طراحی حول استخدام بهینه توکنها میچرخد، ویژگیای که این امکان را برای مدل فراهم میسازد که طول متنها را تا مرز 16K در هر دو دنباله تصویری و متنی جای دهد. این پنجره متنی گسترده مدل را قادر میسازد تا جزئیات متنی بیشتری را حفظ و استفاده کند، و دقت و قابلیت اطمینان آن را در تکالیف استدلال پیچیده به طور قابل توجهی افزایش میدهد. علاوه بر این، مهارت در مدیریت چند تصویر در کنار ورودی متنی آن را به طرز چشمگیری برای تکالیف چندوجهی گسترده مناسب میسازد، جایی که تعامل بین عناصر دیداری و متنی مختلف بسیار مهم است.
دستیابی به ترازبندی دقیق دیداری-متنی از طریق کاربرد لایههای طرحریزی پیشرفته و رمزگذاری موقعیتی چرخشی، که هوشمندانه برای جاسازی تکههای تصویر طراحی شدهاند، تحقق مییابد. این مکانیسمها اطمینان حاصل میکنند که دادههای دیداری و متنی به طور دقیق همگام شدهاند، و در نتیجه ظرفیت مدل را برای استخراج بینشهای معنادار از ورودیهای چندوجهی افزایش میدهند.
بررسی جامع فرآیند آموزش
الگوی آموزشی برای Llama Nemotron Nano VL به طور دقیق به سه فاز خاص ساختاردهی شده است، که هر کدام به مجموعه مهارتهای جامع مدل کمک میکنند. تقسیمبندی استراتژیک آموزش امکانات پیشرفتها و تنظیمات هدفمند را فراهم میسازد، و در نتیجه عملکرد نهایی مدل را به حداکثر میرساند.
فاز اولیه در بر گیرنده پیشآموزش تصویر-متن درهمتنیده بر روی مجموعههای داده گسترده تصویر و ویدیو تجاری است. این گام اساسی برای اعطای درک عمیق از هر دو نوع اطلاعات دیداری و متنی به مدل ضروری است، و در نتیجه بنیانی قدرتمند برای یادگیریهای بعدی بنا میکند. با قرار دادن مدل در معرض آرایهای گسترده از دادههای چندوجهی، ظرفیت را برای تشخیص تداعیها و الگوهای پیچیده که گسترهای از حالتهای ناهمگون را در بر میگیرند، کسب میکند.
فاز بعدی روی تنظیم دستورالعمل چندوجهی برای فعال کردن ایجاد درخواست تعاملی متمرکز میشود. این مرحله مستلزم تنظیم دقیق مدل با مجموعه متنوعی از مجموعههای داده مبتنی بر دستورالعمل است، در نتیجه آن را قادر میسازد تا با دقت به پرسشها و دستورالعملهای کاربر پاسخ دهد. ایجاد درخواست تعاملی مدل را قادر میسازد تا در تعاملات پویا شرکت کند، و پاسخهای مرتبط با متن را ارائه دهد که درک و مهارتهای استدلالی بهبود یافته آن را به نمایش میگذارد.
فاز پایانی در بر گیرنده بازترکیب دادههای دستورالعمل فقط متنی برای اصلاح عملکرد در معیارهای استاندارد LLM است. این فاز به عنوان گامی محوری در کامل کردن قابلیتهای درک زبان مدل عمل میکند. تنظیم دقیق مدل روی دادههای فقط متنی آن را قادر میسازد تا توانایی زبانآوری، همبستگی و دقت خود را در تکالیف زبانی بهبود بخشد.
بررسی کامل نتایج معیار و ارزیابی
Llama Nemotron Nano VL تحت ارزیابی دقیق روی معیار به طور گسترده شناخته شده OCRBench v2 قرار گرفت، یک فرآیند بازبینی کامل که برای ارزیابی دقیق قابلیتهای درک زبان دیداری-زبانی در سطح سند ایجاد شده است. این معیار مجموعهای گسترده از مسئولیتها، از جمله OCR، تجزیه جداول و اندیشیدن نمودار را پوشش میدهد، و ارزیابی جامعی از تواناییهای مدل در میان تکالیف پردازش سند گوناگون ارائه میدهد.
OCRBench شامل تلفیقی قابل توجه از جفتهای پرسش و پاسخ تأیید شده توسط انسان است، که آن را به یک شاخص قابل اعتماد برای مقایسه عملکرد مدلهای گوناگون تبدیل میکند. این واقعیت که جفتهای پرسش و پاسخ توسط انسان تأیید شدهاند، درجه بالایی از دقت و قابلیت اطمینان را تضمین میکند، و بنیادی مستحکم برای ارزیابی قابلیتهای مدل ایجاد میکند.
نتایج ارزیابی نشان میدهد که Llama Nemotron Nano VL دقت پیشرفتهای را در میان VLMهای فشرده روی معیار OCRBench v2 کسب میکند. این دستاورد عملکرد برتر مدل را در تکالیف درک سند برجسته میکند، و آن را به عنوان یک رقیب برجسته در این زمینه قرار میدهد. به طرز شگفتانگیزی، عملکرد آن با مدلهای به طور قابل توجهی بزرگتر و کمبازدهتر رقابت میکند، به ویژه در مسئولیتهایی که مستلزم استخراج دادههای ساختاریافته (به عنوان مثال، جداول و جفتهای کلید-مقدار) و پاسخگویی به پرسشهای وابسته به طرحبندی هستند. این اثر، کارایی و مقیاسپذیری مدل را برجسته میکند، و نشان میدهد که میتواند بدون نیاز به منابع محاسباتی گسترده به نتایج سطح بالا دست یابد.
توانایی مدل برای تعمیم موفقیتآمیز در اسناد غیرانگلیسی و اسناد با کیفیت اسکن پایین، بر استحکام و کاربرد عملی آن در سناریوهای دنیای واقعی تأکید میکند. این انطباقپذیری آن را برای استقرارها در زمینههای گوناگون مناسب میسازد، جایی که ممکن است اسنادی با کیفیتهای زبانی و دیداری مختلف را تجربه کند. ظرفیت مقابله با کیفیتهای اسکن پایین به طور خاص مهم است، چرا که مدل را قادر میسازد تا اثربخشی خود را حتی هنگام برخورد با اسناد ناقص یا قدیمی حفظ کند.
تصریح در مورد سناریوهای استقرار و رویههای کوانتیزاسیون
Llama Nemotron Nano VL به منظور استقرار عملکردی در نظر گرفته شده است، و از هر دو سناریوی استنتاج سرور و لبه پشتیبانی میکند. این تطبیقپذیری آن را قادر میسازد تا در آرایهای گسترده از زمینهها، از سرورهای مبتنی بر ابر گرفته تا دستگاههای لبه با محدودیت منابع، مستقر شود.
NVIDIA یک نسخه کوانتیزه شده 4 بیتی ارائه میدهد، که استنتاج سازنده را با TinyChat و TensorRT-LLM فعال میکند. این نسخه کوانتیزه شده همچنین با Jetson Orin و سایر تنظیمات با محدودیت منابع سازگاری دارد، و کاربرد آن را به آرایهای گسترده از برنامهها گسترش میدهد. کوانتیزاسیون یک روش بهینهسازی حیاتی است که اندازه و الزامات محاسباتی مدل را کاهش میدهد، و استقرار آن را روی دستگاههای با قابلیتهای سختافزاری محدود بسیار آسانتر میکند.
سازگاری مدل با TinyChat و TensorRT-LLM ادغام روان در جریانهای کاری فعلی را تسهیل میکند، و مشتریان را قادر میسازد تا بدون ایجاد تغییرات اساسی در زیرساخت خود، از مزایای Llama Nemotron Nano VL بهرهمند شوند. این سادگی ادغام یک مزیت قابل توجه است، چرا که مانع ورود را کاهش میدهد و امکان پذیرش سریع مدل را فراهم میسازد.
علاوه بر این، سازگاری مدل با Jetson Orin و سایر تنظیمات با محدودیت منابع، استقرارهای احتمالی آن را به سناریوهای محاسباتی لبه گسترش میدهد، جایی که میتوان آن را روی دستگاههای با توان و قابلیتهای محاسباتی محدود مستقر کرد. این فرصتهای جدیدی را برای درک سند در زمان واقعی روی دستگاههایی از جمله تلفنهای هوشمند، تبلتها و سیستمهای تعبیهشده باز میکند.
بررسی دقیق спецификат های Технологӣ Ключевӣ
Llama Nemotron Nano VL دارای انواع گزینههای تکنیکی است که کارایی، تطبیقپذیری و سهولت استقرار آن را افزایش میدهد. این спецификат ها به طیف گستردهای از الزامات برنامه پاسخ میدهند، و آن را به راه حلی انعطافپذیر برای انجام تکالیف مختلف درک سند تبدیل میکنند.
پشتیبانی از NIM مدولار ادغام API را ساده میکند، و ادغام روان را در معماریهای میکروسرویس فعال میکند. NIM (میکروسرویس استنباط NVIDIA) یک فرمت استقرار کانتینری است که یک رابط استاندارد برای دسترسی به تواناییهای استنباطی تولید میکند. این مدولار بودن پیادهسازی و مدیریت مدل را ساده میکند، به ویژه در سیستمهای پیچیده و مبتنی بر میکروسرویس.
دستیاری مدل برای صادرات ONNX و TensorRT سازگاری شتاب سختافزاری را تضمین میکند، و عملکرد را در سراسر پلتفرمهای متعدد بهینه میکند. ONNX (تبادل شبکه عصبی باز) یک استاندارد باز برای دلالت بر مدلهای یادگیری ماشینی است، و قابلیت همکاری بین چارچوبها و پلتفرمهای سختافزاری متنوع را فعال میکند. TensorRT اپتیامیزور و زمان اجرای استنباطی با عملکرد بالا NVIDIA است، که شتاب قابل توجهی را روی GPUهای NVIDIA فراهم میکند.
گزینه جاسازی دیداری از پیش محاسبه شده با پیش پردازش اطلاعات دیداری، تأخیر برای اسناد تصویر ثابت را کاهش میدهد. این بهینهسازی به طور ویژه برای برنامههایی مفید است که شامل اسناد ثابت هستند، جایی که嵌入های دیداری میتوانند از پیش محاسبه شده و مجدداً استفاده شوند، در نتیجه زمان استنباط را به حداقل میرسانند و تجربه کلی کاربر را بهبود میبخشند. با پیش محاسبه ى эдеи ویрирарии видеарӣ модели андеа мата матаа матаа матаа амати амата амада мата Махари ى Малиди Мари Михри Маҳи Майдии Мандо Ман Махи Маш Михи Майдии Ммммх.
Зимни Иҷтимои Стратеги ва Ҷои Дароиқ Иҷтимонӣ
Аробаи NVIDIA аз Llama Nematron Nano Vl зинхоҳӣ ёфтани ёфтани якҷоя кардани инқиллими интихобӣ мебошад. Бо ёрии даруни ин аслими сахт дар бораи мо ё мутобиқи дарёбии дар дар саҳифаи оташин.
Поканиатон диҳанданду дараҷадоршавии таикиди дар Оксбреи В 2 таҷрибадори таҳияи худро идокадори созмон медиҳад тасмими тахирирашон дар ҳақиқат қарор мегирад.
Намояндаи дар дигаргуники ва дигар чорабиниҳо ба назар мерасад то ьин мубадити хидоёт қариб то сомон гузортаринро мубоддои саноат мекунад Ба эьтиьбор вогузории таьминоти хусузиятро роҳсози саноият ва ба манфиатьдориамон ёрм мебардорад чи бо духатрона сар ба нишаст дигаргун гунаи ахбори доштанди манти дастовардҳои ташвикамон инкишофи малматта доштие рохадаш идобати амалиоди дошкари гуногунаи маноои зиндагуниро бар бар бардоштани қаро бо зиндагуни машғул мубои мусоби мувофиқии дошта мемонад дар модар машғуленди амалиёт то дастовард.