NVIDIA کی جدتیں: لاما نیمٹرون الٹرا اور پیراکیٹ – جوئی کونوے کے ساتھ ایک خصوصی انٹرویو
ایک معلوماتی گفتگو میں، NVIDIA کے جوئی کونوے اوپن سورس بڑے لسانی ماڈلز (LLMs) اور خودکار تقریر شناسی (ASR) میں کمپنی کی تازہ ترین پیشرفت پر گہرائی سے روشنی ڈالتے ہیں۔ یہ گفتگو لاما نیمٹرون الٹرا اور پیراکیٹ پر مرکوز ہے، جو دو اہم منصوبے ہیں جو NVIDIA کی AI ٹیکنالوجی کی حدود کو آگے بڑھانے کے عزم کو ظاہر کرتے ہیں۔
NVIDIA کی اوپن سورس حکمت عملی
NVIDIA تیزی سے اوپن سورس AI کے میدان میں ایک اہم قوت کے طور پر ابھر رہا ہے۔ لاما نیمٹرون الٹرا اور پیراکیٹ TDT جیسے جدید ماڈلز کا اجراء AI ٹیکنالوجی کو جمہوری بنانے اور کمیونٹی کے اندر جدت طرازی کو فروغ دینے کی جانب ایک اسٹریٹجک اقدام کو ظاہر کرتا ہے۔ ان جدید ترین ٹولز کو دستیاب کر کے، NVIDIA کا مقصد مختلف صنعتوں میں AI حل کی تحقیق، ترقی اور تعیناتی کو تیز کرنا ہے۔
لاما نیمٹرون الٹرا: کارکردگی اور استعداد کی نئی تعریف
لاما نیمٹرون الٹرا، 253 ارب پیرامیٹرز پر مشتمل ایک ماڈل، NVIDIA کی انجینئرنگ کی مہارت کا منہ بولتا ثبوت ہے۔ جو چیز اسے ممتاز کرتی ہے وہ اس کی کارکردگی پیش کرنے کی صلاحیت ہے جو اس کے سائز سے دوگنے ماڈلز، جیسے لاما 405B اور ڈیپ سیک آر 1 کے برابر ہے۔ یہ قابل ذکر کامیابی اسے 8x H100 نوڈ پر تعینات کرنے کی اجازت دیتی ہے، جو اسے صارفین کی ایک وسیع رینج کے لیے قابل رسائی بناتی ہے۔
خفیہ جزو: ایف ایف این فیوژن
لاما نیمٹرون الٹرا کی متاثر کن کارکردگی بڑی حد تک ایف ایف این (فیڈ فارورڈ نیٹ ورک) فیوژن نامی ایک جدید تکنیک سے منسوب ہے۔ NVIDIA کی پزل نیورل آرکیٹیکچر سرچ کے ذریعے دریافت کی گئی یہ اصلاحی حکمت عملی، غیر ضروری توجہ کے تہوں کو کم کر کے ماڈل کے آرکیٹیکچر کو ہموار کرتی ہے۔
ایف ایف این تہوں کو ترتیب میں ہم آہنگ کر کے، یہ تکنیک GPUs پر زیادہ متوازی کمپیوٹیشن کو قابل بناتی ہے۔ بقیہ تہوں کو ضم یا فیوز کرنے سے کارکردگی زیادہ سے زیادہ ہوتی ہے، خاص طور پر میٹا کے لاما 3.1 - 405B پر مبنی بڑے ماڈلز کے لیے۔ ایف ایف این فیوژن کے دو فائدے ہیں: یہ تھرو پٹ کو نمایاں طور پر بہتر بناتا ہے، 3 سے 5 گنا تک رفتار بڑھاتا ہے، اور ماڈل کے میموری فٹ پرنٹ کو کم کرتا ہے۔ کم سائز ایک بڑے کے وی کیشے کے استعمال کی اجازت دیتا ہے، جس سے ماڈل کو سیاق و سباق کی زیادہ لمبائی کو سنبھالنے کے قابل بنایا جاتا ہے۔
ڈیمانڈ پر استدلال: ایک گیم بدلنے والی خصوصیت
لاما نیمٹرون الٹرا کی سب سے منفرد اور قیمتی خصوصیات میں سے ایک اس کی "استدلال آن/آف" کی صلاحیت ہے۔ یہ ماڈل کے استدلال کے عمل پر بے مثال کنٹرول کی اجازت دیتا ہے، جو پیداواری تعیناتیوں اور لاگت کی اصلاح کے لیے اہم فوائد پیش کرتا ہے۔
سسٹم پرامپٹ کے ذریعے استدلال کو آن اور آف کرنے کی صلاحیت کاروباری اداروں کو درستگی کو تاخیر اور لاگت کے ساتھ متوازن کرنے کی لچک فراہم کرتی ہے۔ استدلال، اگرچہ پیچیدہ مسائل کو حل کرنے کے لیے بہت ضروری ہے، لیکن زیادہ ٹوکن تیار کرتا ہے، جس سے زیادہ تاخیر اور لاگت آتی ہے۔ واضح کنٹرول فراہم کر کے، NVIDIA صارفین کو باخبر فیصلے کرنے کے لیے بااختیار بناتا ہے کہ کب استدلال کو استعمال کرنا ہے، اس طرح کارکردگی اور وسائل کے استعمال کو بہتر بناتا ہے۔
اس خصوصیت کو نافذ کرنے کے لیے، NVIDIA نے واضح طور پر ماڈل کو سکھایا کہ کب استدلال کرنا ہے اور کب نہیں، نگرانی شدہ فائن ٹیوننگ مرحلے کے دوران۔ اس میں ایک ہی سوال کو دو مختلف جوابات کے ساتھ پیش کرنا شامل تھا: ایک تفصیلی استدلال کے ساتھ اور دوسرا اس کے بغیر، بنیادی طور پر اس مخصوص مقصد کے لیے ڈیٹا سیٹ کو دوگنا کرنا۔ نتیجہ ایک واحد ماڈل ہے جہاں صارفین آسانی سے پرامپٹ میں "تفصیلی سوچ کا استعمال آن" یا "تفصیلی سوچ کا استعمال آف" شامل کر کے استدلال کے عمل کو کنٹرول کر سکتے ہیں۔
پیراکیٹ ٹی ڈی ٹی کے ساتھ تقریر شناسی میں انقلاب
پیراکیٹ ٹی ڈی ٹی، NVIDIA کا اسٹیٹ آف دی آرٹ اے ایس آر ماڈل، نے تقریر شناسی میں رفتار اور درستگی کے لیے بینچ مارکس کی نئی تعریف کی ہے۔ یہ صرف ایک سیکنڈ میں ایک گھنٹے کی آڈیو کو 6% کی قابل ذکر لفظ غلطی کی شرح کے ساتھ نقل کر سکتا ہے – جو دوسرے اوپن سورس متبادلوں سے 50 گنا تیز ہے۔
آرکیٹیکچرل جدتیں: پیراکیٹ کی کارکردگی کا "کَیسے"
پیراکیٹ ٹی ڈی ٹی کی متاثر کن کارکردگی آرکیٹیکچرل انتخاب اور مخصوص اصلاحات کا نتیجہ ہے۔ یہ ایک فاسٹ کنفارمر آرکیٹیکچر پر مبنی ہے، جو تکنیکوں جیسے کہ ڈیپتھ وائز سیپریبل کنوولیشنل ڈاؤن سیمپلنگ اور محدود سیاق و سباق توجہ سے بڑھائی گئی ہے۔
ان پٹ مرحلے پر ڈیپتھ وائز سیپریبل کنوولیشن ڈاؤن سیمپلنگ پروسیسنگ کے لیے کمپیوٹیشنل لاگت اور میموری کی ضروریات کو نمایاں طور پر کم کرتی ہے۔ محدود سیاق و سباق توجہ، آڈیو کے چھوٹے، اوورلیپنگ حصوں پر توجہ مرکوز کر کے، پروسیسنگ میں تیزی حاصل کرتے ہوئے درستگی کو برقرار رکھتی ہے۔ انکوڈر سائیڈ پر، ایک سلائیڈنگ ونڈو توجہ تکنیک ماڈل کو لمبی آڈیو فائلوں کو مختصر حصوں میں تقسیم کیے بغیر پروسیس کرنے کی اجازت دیتی ہے، جو طویل فارم آڈیو کو سنبھالنے کے لیے بہت ضروری ہے۔
ٹوکن دورانیہ ٹرانسڈیوسر (ٹی ڈی ٹی): رفتار کی کلید
کنفارمر آرکیٹیکچر سے آگے، پیراکیٹ ٹی ڈی ٹی ایک ٹوکن اور دورانیہ ٹرانسڈیوسر (ٹی ڈی ٹی) کو شامل کرتا ہے۔ روایتی اعادی نیورل نیٹ ورک (آر این این) ٹرانسڈیوسر ٹیکنالوجی آڈیو فریم بہ فریم پروسیس کرتی ہے۔ ٹی ڈی ٹی ماڈل کو ٹوکن اور ان ٹوکن کی متوقع مدت دونوں کی پیش گوئی کرنے کے قابل بناتا ہے، جس سے اسے غیر ضروری فریموں کو چھوڑنے اور نقل کے عمل کو نمایاں طور پر تیز کرنے کی اجازت ملتی ہے۔
یہ ٹی ڈی ٹی جدت اکیلے تقریباً 1.5 سے 2 گنا تیزی میں حصہ ڈالتی ہے۔ مزید برآں، ایک لیبل لوپنگ الگورتھم بیچ انفرنس کے دوران مختلف نمونوں کے لیے ٹوکن کی آزادانہ پیش رفت کی اجازت دیتا ہے، جس سے ڈی کوڈنگ کے عمل کو مزید تیز کیا جاتا ہے۔ ڈی کوڈر سائیڈ پر کمپیوٹیشن کے کچھ حصے کو CUDA گراف میں منتقل کرنے سے ایک اور 3 گنا رفتار بڑھتی ہے۔ یہ جدتیں پیراکیٹ ٹی ڈی ٹی کو کنکشنسٹ ٹیمپورل کلاسیفیکیشن (سی ٹی سی) ڈیکوڈرز کے مقابلے میں رفتار حاصل کرنے کے قابل بناتی ہیں، جو اپنی رفتار کے لیے مشہور ہیں، جبکہ اعلیٰ درستگی کو برقرار رکھتے ہیں۔
اوپن ڈیٹا کے ساتھ AI کو جمہوری بنانا
اوپن سورس کمیونٹی کے لیے NVIDIA کا عزم ماڈل ریلیز سے آگے بڑھ کر زبان اور تقریر دونوں کے لیے بڑے پیمانے پر، اعلیٰ معیار کے ڈیٹا سیٹس کا اشتراک بھی شامل ہے۔ ڈیٹا کیوریشن کے لیے کمپنی کا نقطہ نظر شفافیت اور کھلے پن پر زور دیتا ہے، جس کا مقصد اپنے ڈیٹا، تکنیکوں اور ٹولز کے بارے میں زیادہ سے زیادہ معلومات کا اشتراک کرنا ہے تاکہ کمیونٹی انہیں سمجھ سکے اور استعمال کر سکے۔
لاما نیمٹرون الٹرا کے لیے ڈیٹا کیوریشن
لاما نیمٹرون الٹرا کے لیے ڈیٹا کیوریشن کا بنیادی مقصد کئی اہم ڈومینز میں درستگی کو بہتر بنانا تھا، بشمول ریاضی اور کوڈنگ جیسے استدلال کے کام، نیز غیر استدلال کے کام جیسے ٹول کالنگ، ہدایات پر عمل کرنا اور چیٹ۔
اس حکمت عملی میں ان علاقوں میں کارکردگی کو بڑھانے کے لیے مخصوص ڈیٹا سیٹس تیار کرنا شامل تھا۔ نگرانی شدہ فائن ٹیوننگ کے عمل کے اندر، NVIDIA نے "استدلال آن" اور "استدلال آف" منظرناموں میں فرق کیا۔ کمیونٹی کے اعلیٰ معیار کے ماڈلز کو مخصوص ڈومینز میں "ماہرین" کے طور پر استعمال کیا گیا۔ مثال کے طور پر، ڈیپ سیک آر-1 کو ریاضی اور کوڈنگ کے کاموں میں وسیع پیمانے پر استعمال کیا گیا، جبکہ لاما اور کیو وین جیسے ماڈلز کو غیر استدلال کے کاموں جیسے بنیادی ریاضی، کوڈنگ، چیٹ اور ٹول کالنگ کے لیے استعمال کیا گیا۔ اس تیار کردہ ڈیٹا سیٹ، جو تقریباً 30 ملین سوال و جواب کے جوڑوں پر مشتمل ہے، کو عوامی طور پر Hugging Face پر دستیاب کر دیا گیا ہے۔
ڈیٹا کے معیار کو یقینی بنانا: ایک کثیر سطحی نقطہ نظر
یہ دیکھتے ہوئے کہ ڈیٹا کا ایک اہم حصہ دوسرے ماڈلز کا استعمال کرتے ہوئے تیار کیا گیا تھا، NVIDIA نے ایک سخت کثیر سطحی معیار کی یقین دہانی کا عمل نافذ کیا۔ اس میں شامل ہیں:
- ہر ماہر ماڈل کا استعمال کرتے ہوئے ایک ہی پرامپٹ کے لیے متعدد امیدوار ردعمل تیار کرنا۔
- ان امیدواروں کا درستگی، ہم آہنگی اور پرامپٹ پر عمل درآمد کی بنیاد پر جائزہ لینے کے لیے "نقاد" ماڈلز کا ایک الگ سیٹ استعمال کرنا۔
- ایک اسکورنگ میکانزم نافذ کرنا جہاں تیار کردہ ہر سوال و جواب کے جوڑے کو ناقد ماڈل کی تشخیص کی بنیاد پر ایک معیاری اسکور موصول ہوا، جس میں قبولیت کے لیے ایک اعلیٰ حد مقرر کی گئی۔
- انسانی جائزے کو مختلف مراحل میں ضم کرنا، جس میں ڈیٹا سائنسدانوں اور انجینئرز نے تیار کردہ ڈیٹا کے نمونوں کا بغور معائنہ کیا تاکہ کسی بھی منظم غلطی، تعصب یا فریب کاری کی مثالوں کی نشاندہی کی جا سکے۔
- تولید کردہ اعداد و شمار کے تنوع پر توجہ مرکوز کرنا تاکہ ہر ڈومین کے اندر مثالوں کی ایک وسیع رینج کو یقینی بنایا جا سکے۔
- اس تیار کردہ ڈیٹا پر لاما نیمٹرون الٹرا کی تربیت کے بعد بینچ مارک ڈیٹا سیٹس اور حقیقی دنیا کے استعمال کے معاملات کے خلاف وسیع پیمانے پر تشخیص کرنا۔
پیراکیٹ ٹی ڈی ٹی کے لیے ایک تقریر ڈیٹا سیٹ کو اوپن سورس کرنا
NVIDIA ایک بڑا تقریر ڈیٹا سیٹ، تقریباً 100,000 گھنٹے، اوپن سورس کرنے کا ارادہ رکھتا ہے، جسے حقیقی دنیا کے تنوع کی عکاسی کرنے کے لیے احتیاط سے تیار کیا گیا ہے۔ اس ڈیٹا سیٹ میں صوتی سطحوں، سگنل ٹو شور تناسب، پس منظر کے شور کی اقسام اور یہاں تک کہ کال سینٹرز کے لیے متعلقہ ٹیلیفون آڈیو فارمیٹس میں تغیرات شامل ہوں گے۔ اس کا مقصد کمیونٹی کو اعلیٰ معیار، متنوع ڈیٹا فراہم کرنا ہے جو ماڈلز کو حقیقی دنیا کے منظرناموں کی ایک وسیع رینج میں اچھی کارکردگی کا مظاہرہ کرنے کے قابل بناتا ہے۔
مستقبل کی سمتیں: چھوٹے ماڈلز، کثیر لسانی تعاون، اور ریئل ٹائم اسٹریمنگ
مستقبل کے لیے NVIDIA کے وژن میں کثیر لسانی معاونت میں مزید پیش رفت، اس سے بھی چھوٹے ایج آپٹمائزڈ ماڈلز اور تقریر شناسی کے لیے ریئل ٹائم اسٹریمنگ میں بہتری شامل ہیں۔
کثیر لسانی صلاحیتیں
متعدد زبانوں کی حمایت بڑے کاروباری اداروں کے لیے بہت ضروری ہے۔ NVIDIA کا مقصد چند اہم زبانوں پر توجہ مرکوز کرنا اور ان کے اندر استدلال، ٹول کالنگ اور چیٹ کے لیے عالمی معیار کی درستگی کو یقینی بنانا ہے۔ یہ ممکنہ طور پر توسیع کا اگلا بڑا علاقہ ہے۔
ایج آپٹمائزڈ ماڈلز
NVIDIA تقریباً 50 ملین پیرامیٹرز تک کے ماڈلز پر غور کر رہا ہے تاکہ ایج پر استعمال کے ان معاملات کو حل کیا جا سکے جہاں چھوٹے فٹ پرنٹ کی ضرورت ہوتی ہے، جیسے کہ شور والے ماحول میں روبوٹ کے لیے ریئل ٹائم آڈیو پروسیسنگ کو فعال کرنا۔
پیراکیٹ ٹی ڈی ٹی کے لیے ریئل ٹائم اسٹریمنگ
تکنیکی طور پر، NVIDIA ٹی ڈی ٹی کے لیے اسٹریمنگ صلاحیتوں پر کام کرنے کا ارادہ رکھتا ہے تاکہ ریئل ٹائم، لائیو ٹرانسکرپشن کو فعال کیا جا سکے۔
پروڈکشن کے لیے تیار AI: حقیقی دنیا کی تعیناتی کے لیے ڈیزائننگ
لاما نیمٹرون الٹرا اور پیراکیٹ ٹی ڈی ٹی دونوں کو حقیقی دنیا کی تعیناتی کے چیلنجوں کو مدنظر رکھتے ہوئے ڈیزائن کیا گیا ہے، درستگی، کارکردگی اور لاگت کی تاثیر پر توجہ مرکوز کرتے ہوئے۔
اسکیل ایبلٹی اور لاگت کی کارکردگی کے لیے استدلال آن/آف
ضرورت سے زیادہ است
دلال اسکیل ایبلٹی کے مسائل اور پیداواری ماحول میں تاخیر میں اضافہ کا باعث بن سکتا ہے۔ لاما نیمٹرون الٹرا میں متعارف کرائی گئی استدلال آن/آف فیچر استدلال کو فی سوال کی بنیاد پر کنٹرول کرنے کی لچک فراہم کرتی ہے، جو متعدد پیداواری استعمال کے معاملات کو قابل بناتی ہے۔
درستگی اور کارکردگی کو متوازن کرنا
درستگی اور کارکردگی کو متوازن کرنا ایک مسلسل چیلنج ہے۔ NVIDIA کے نقطہ نظر میں تربیت کے دوران ہر مہارت کے لیے ادوار کی تعدادپر احتیاط سے غور کرنا اور درستگی کی مسلسل پیمائش کرنا شامل ہے۔ اس کا مقصد تمام اہم شعبوں میں کارکردگی کو بہتر بنانا ہے۔
اوپن سورس ماحولیاتی نظام میں NVIDIA کے ماڈلز کا کردار
NVIDIA Llama Nemotron Ultra اور Parakeet TDT کے کردار کو وسیع تر اوپن سورس اور LLM ماحولیاتی نظام میں موجودہ بنیادوں پر تعمیر کرنے اور مخصوص شعبوں پر توجہ مرکوز کرنے کے طور پر دیکھتا ہے تاکہ اہم قدر میں اضافہ کیا جا سکے۔ کمپنی ان مخصوص شعبوں کی نشاندہی کرنا جاری رکھنے کا ارادہ رکھتی ہے جہاں وہ اپنا حصہ ڈال سکتی ہے، جبکہ دیگر کاروباری پیداوار کے لیے موزوں بہترین عمومی مقصد ماڈل بناتے رہتے ہیں۔
اہم نکات: اوپن سورس، تیز، ہائی تھرو پٹ، لاگت سے موثر
لاما نیمٹرون الٹرا اور پیراکیٹ ٹی ڈی ٹی پر NVIDIA کے کام سے حاصل ہونے والے اہم نکات ہر چیز کو اوپن سورس کرنے کا عزم، اسٹیٹ آف دی آرٹ درستگی حاصل کرنا، تاخیر اور تھرو پٹ کے لحاظ سے موثر GPU استعمال کے لیے فٹ پرنٹ کو بہتر بنانا اور کمیونٹی کو بااختیار بنانا ہیں۔
تمام ماڈلز اور ڈیٹا سیٹس Hugging Face پر دستیاب ہیں۔ انہیں چلانے کے لیے سافٹ ویئر اسٹیک NVIDIA سے آتا ہے اور یہ NGC پر دستیاب ہے، اس کی مواد کی ریپوزٹری۔ بہت سا بنیادی سافٹ ویئر بھی اوپن سورس ہے اور اسے GitHub پر پایا جا سکتا ہے۔ Nemo فریم ورک اس سافٹ ویئر اسٹیک کا مرکزی مرکز ہے۔