MiniMax کی لکیری توجہ پر شرط: ژونگ ییران سے بات | ur

غیر روایتی تکنیکی راستے پر ایک علمبردار

کیا آپ اپنا مختصر تعارف کروا سکتے ہیں؟

میں ژونگ ییران ہوں، منی میکس میں سینئر ریسرچ ڈائریکٹر، جہاں میں بنیادی طور پر نیٹ ورک آرکیٹیکچرز اور ملٹی موڈل انڈرسٹینڈنگ بڑے ماڈلز کے ڈیزائن کی نگرانی کرتا ہوں۔ منی میکس میں، میری بنیادی ذمہ داری منی میکس-01 نیٹ ورک ڈھانچے کے ڈیزائن کی قیادت کرنا ہے۔

اس سے قبل، میں شنگھائی آرٹیفیشل انٹیلیجنس لیبارٹری میں نیو آرکیٹیکچر ایکسپلوریشن گروپ کے لیے بطور پی آئی خدمات انجام دے چکا ہوں، جہاں غیر ٹرانسفارمر آرکیٹیکچرز کے لیے موثر ٹریننگ ماڈلنگ طریقوں اور بصری-آڈیو-لینگویج ملٹی موڈل فیوژن پر تحقیق پر توجہ مرکوز تھی۔

آپ نے لکیری توجہ پر تحقیق کب شروع کی، اور آپ نے یہ تکنیکی راستہ کیوں منتخب کیا؟

میں نے جولائی 2021 کے آس پاس لکیری توجہ پر تحقیق شروع کی۔ اس کی وجہ 2020 میں میرے پی ایچ ڈی کے لیے کام کرنے والا ایک مقالہ تھا، ‘انورٹیبل اٹینشن’۔ اس وقت، انورٹیبل نیورل نیٹ ورکس اور توجہ کے میکانزم دونوں کافی مقبول تھے، اس لیے ہم نے اپنی تحقیق میں ان دونوں کو یکجا کیا۔

بعد میں، ہماری ٹیم کے کچھ ارکان ریاضی میں بہت دلچسپی لینے لگے۔ لکیری توجہ جیسے موثر سیکوینس ماڈلنگ طریقوں کے لیے ایک مضبوط ریاضیاتی بنیاد کی ضرورت ہوتی ہے اور اس میں متعدد فارمولوں کا اشتقاق شامل ہوتا ہے، جو ٹیم کی دلچسپیوں کے عین مطابق تھا، اس لیے ہم نے اس سمت کا انتخاب کیا۔

اس وقت صنعت میں لکیری توجہ کی کیا حیثیت تھی؟

یہ بہت غیر روایتی تھا، اس پر کام کرنے والے بہت کم لوگ تھے۔ زیادہ تر محققین ٹرانسفارمرز پر توجہ مرکوز کر رہے تھے، جو کہ بنیادی طور پر این ایل پی میں غالب قوت بن چکے تھے۔

ہم نے سوچا کہ ٹرانسفارمر کی تحقیق کرنے والی بھیڑ میں ایک اور چہرہ بننے کے بجائے، ہمیں کچھ مختلف کرنا چاہیے۔

آپ نے لکیری توجہ کے راستے کی تکنیکی صلاحیت کا اندازہ کیسے لگایا؟

ہماری ابتدائی ترغیب سیدھی سادی تھی: ٹرانسفارمرز کی چوکور حسابی پیچیدگی کو حل کرنا۔ ہم نے مختلف طریقوں کا تجربہ کیا، بشمول اسپارس ٹرانسفارمرز اور لکیری توجہ۔

ہم نے پایا کہ اسپارس ٹرانسفارمرز نے کام کیا، ٹرانسفارمرز کے مقابلے میں تیز رفتار اور کم میموری استعمال کی پیشکش کی۔ تاہم، لکیری توجہ نے ناقص کارکردگی کا مظاہرہ کیا اور سست بھی تھا۔ اس کے باوجود، ہم نے لکیری توجہ کو آگے بڑھانے کا انتخاب کیا۔

ایک وجہ اس کی ریاضیاتی کشش تھی – ہمیں یقین تھا کہ اس کی کارکردگی بہتر ہونی چاہیے۔ دوسری وجہ یہ تھی کہ ہمیں محسوس ہوا کہ اسپارس توجہ کی اوپری حد مکمل توجہ ہے، جس سے آگے نکلنا مشکل ہے۔ دوسری طرف، لکیری توجہ میں اس سے تجاوز کرنے کی صلاحیت تھی۔

کیا آپ بتا سکتے ہیں کہ لکیری توجہ کیا ہے؟

لکیری توجہ بنیادی طور پر ایک کرنل ٹرک ہے۔ ٹرانسفارمرز میں، Q، K، اور V میٹرکس کو ضرب دینے میں مختلف حسابی پیچیدگیاں شامل ہوتی ہیں اس پر منحصر ہے کہ آپ پہلے QK کو ضرب دیتے ہیں یا KV کو، مختلف جہتوں کی وجہ سے۔

KV کو پہلے ضرب دینے سے حسابی پیچیدگی کو لکیری تک کم کیا جا سکتا ہے۔ تاہم، مسئلہ یہ ہے کہ QK ضرب کے بعد ایک سوفٹ میکس آپریشن ہوتا ہے، جو کموٹیٹو پراپرٹی کو پورا نہیں کرتا اور اسے KVfirst کو ضرب دینے میں آسانی سے تقسیم نہیں کیا جا سکتا۔ لہذا، لکیری توجہ میں پہلا قدم سوفٹ میکس کو ہٹانا ہے۔

لیکن سوفٹ میکس کو ہٹانے سے نتائج متاثر ہوتے ہیں۔ اس کے بعد کا کام سوفٹ میکس کے بغیر نتائج میں مستقل مزاجی برقرار رکھنا ہے، جس کا مقصد لکیری توجہ حاصل کرنا ہے۔

لکیری توجہ، اسپارس توجہ، اور لکیری آر این این آرکیٹیکچرز میں بنیادی اختلافات کیا ہیں؟

اسپارس توجہ اب بھی بنیادی طور پر ایک سوفٹ میکس توجہ ہے۔ یہ صرف ایک گھنے توجہ میٹرکس کے مقابلے میں کم پوائنٹس کا حساب لگاتا ہے۔ مثال کے طور پر، سلائیڈنگ ونڈو توجہ صرف ایک ونڈو کے اندر توجہ کے اسکور کا حساب لگاتی ہے، جس سے حساب کی مقدار کو کم کرکے تیزی حاصل کی جاتی ہے۔

لکیری آر این این اور لکیری توجہ بنیادی طور پر ایک ہی چیز ہیں، صرف کچھ لوگ انہیں آر این این کہتے ہیں اور کچھ توجہ۔

ہر چیز کو آر این این شکل میں لکھا جا سکتا ہے۔ مثال کے طور پر، لائٹننگ توجہ RWKV-4 کے مساوی ہے، جبکہ RWKV-7 گیٹڈ ڈیلٹا نیٹ کا ایک بہتر ورژن ہے۔ اگرچہ وہ جوہر میں ملتے جلتے ہیں، لیکن ان کی عمل درآمد کی تفصیلات مختلف ہیں۔

لکیری توجہ کے میکانزم کی تحقیق میں اہم سنگ میل کیا ہیں؟

2018-19 کے آس پاس، تحقیق سے پتہ چلا کہ ٹرانسفارمر سوفٹ میکس توجہ کی نظریاتی حسابی پیچیدگی کو کرنل ٹرکس کا استعمال کرتے ہوئے کم کیا جا سکتا ہے، لیکن نتائج ناقص تھے، اور کارکردگی کم تھی۔

2019-20 میں، اسپارس توجہ غالب تھی، گوگل جیسی کمپنیوں نے اسپارس توجہ کی بہت سی قسمیں تجویز کیں۔ بعد میں، لکیری توجہ ابھرنا شروع ہوئی، لیکن اسے ناقص کارکردگی اور سست رفتار کے چیلنج کا سامنا کرنا پڑا۔

محققین نے بنیادی طور پر بہتری کے لیے دو طریقے اپنائے: ایک سوفٹ میکس فنکشن کا تخمینہ لگانا تھا، تقسیم کو سوفٹ میکس کے مطابق بنانا؛ دوسرا، جسے ہم نے منتخب کیا، مکمل طور پر مختلف طریقوں کا استعمال کرتے ہوئے ماڈل بنانا تھا، بغیر سوفٹ میکس کا تخمینہ لگانے کی فکر کیے ہوئے۔

ہم نے اکتوبر 2021 میں اپنا پہلا مقالہ، ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’ شائع کیا، جس میں سوفٹ میکس آپریشن کو کوسائن فنکشن سے تبدیل کیا گیا، جس سے حساب کو تقسیم کرنے کی اجازت ملی۔

2022 کی پہلی ششماہی میں، ہم نے ایک دوسرا مقالہ، ‘The Devil in Linear Transformer’ شائع کیا، جس میں لکیری توجہ کی کارکردگی میں کمی کی وجوہات کا تجزیہ کیا گیا اور حل فراہم کیے گئے۔ یہ لائٹننگ توجہ کا پیش خیمہ تھا۔

بعد میں، ہم نے خاص طور پر لکیری توجہ اور لمبی کنوولوشنز کے لیے پوزیشن انکوڈنگز پر بھی تحقیق کی، TNN شائع کیا، ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’، S4 (Mamba کا پیشرو) سے ملتا جلتا ایک طریقہ۔

آخر میں، ہم نے لائٹننگ توجہ کا آغاز کیا، جس نے بہتر زوال کے طریقوں اور نیٹ ورک ڈھانچے کے ذریعے ٹرانسفارمرز کی کارکردگی سے مماثلت رکھی۔ ہم نے اسے تیز تر بنانے کے لیے ایک ٹائلنگ تکنیک بھی استعمال کی۔

غیر ٹرانسفارمر آرکیٹیکچر تکنیکی راستوں کے بارے میں آپ کے کیا خیالات ہیں؟

لکیری توجہ دراصل ایک غیر ٹرانسفارمر طریقہ ہے۔ فی الحال، آر این این جیسے طریقوں کے علاوہ، دیگر غیر ٹرانسفارمر آرکیٹیکچرز زوال پذیر ہیں۔

مثال کے طور پر، CNNs جیسے لمبی کنوولوشنز اور بڑے کرنل کنوولوشنز، ایسا لگتا ہے کہ ناقص کارکردگی کی وجہ سے انہیں بتدریج ختم کر دیا گیا ہے، لیکن وہ حقیقت میں کچھ پہلوؤں میں کافی مضبوط ہیں، اب بھی سیکوینس ماڈلنگ میں کچھ اثر رکھتے ہیں، جیسے غیر معمولی پتہ لگانے کے کام۔

دراصل صرف تین غیر ٹرانسفارمر آرکیٹیکچرز ہیں: لکیری توجہ، لمبی کنوولوشنز، اور لکیری آر این این۔

لیکن حقیقت میں، ان تینوں کو ایک میں متحد کیا جا سکتا ہے، جسے ہم لکیری پیچیدگی ماڈل کہتے ہیں۔ ہم نے ایک مضمون لکھا جس میں تینوں شامل ہیں۔

لائٹننگ توجہ اور ممبا اور آر ڈبلیو کے وی میں بنیادی اختلافات کیا ہیں؟

سب سے اہم فرق یہ ہے کہ لائٹننگ توجہ سب سے آسان لکیری توجہ ہے۔ ممبا اور آر ڈبلیو کے وی دونوں ڈیٹا پر منحصر زوال کا استعمال کرتے ہیں، جبکہ لائٹننگ توجہ رفتار کے لیے ہاتھ سے تیار کردہ زوال کا استعمال کرتی ہے۔

اگرچہ سیکھنے کے قابل زوال بہتر نتائج حاصل کر سکتا ہے، لیکن یہ رفتار کی قربانی دیتا ہے۔ مثال کے طور پر، RWKV-7 گیٹنگ ڈیلٹا نیٹ سے 10-15% سست ہے، جبکہ گیٹڈ ڈیلٹا نیٹ لائٹننگ توجہ کی رفتار کا تقریباً نصف ہے۔

آر ڈبلیو کے وی کا ماڈلنگ اثر لائٹننگ توجہ سے واقعی بہتر ہے، لیکن یہ سست ہے اور اس نے ابھی تک بازیافت کے مسئلے کو حل نہیں کیا ہے۔

کیا اب یہ صنعت کا اتفاق رائے ہے کہ لکیری توجہ کی ایک اعلیٰ اور قابل عمل اوپری حد ہے؟

نہیں، اگر یہ اتفاق رائے ہوتا، تو ہر کوئی لکیری توجہ ماڈلز کو بڑھا رہا ہوتا۔ اور یہ اب بھی اتفاق رائے نہیں ہے۔ اگر یہ ہوتا تو ہر کوئی لکیری کر رہا ہوتا، لیکن جیسا کہ آپ دیکھ سکتے ہیں، ایسا نہیں ہے۔

لیکن ہمارے لیے، ہم نے یہ پہلے ہی 2023 کی دوسری ششماہی میں دیکھ لیا تھا۔ اس وقت، میں نے بہت سے لوگوں سے پوچھا اور بہتوں سے بات کی، اور سب سے عام نقطہ جو انہوں نے اٹھایا وہ یہ تھا کہ وہ جانتے تھے کہ لکیری توجہ چھوٹے پیمانے پر کام کرتی ہے، لیکن انہیں لگا کہ ایک بار اسے بڑھا دیا جائے تو یہ ناکام ہو جائے گی۔

اس وقت، میں نے سوچا کہ میں اسے سب کے دیکھنے کے لیے بڑھا دوں گا۔ اب جب کہ منی میکس-01 باہر ہے، کسی کو بھی بڑے پیمانے پر لکیری توجہ کی صلاحیت پر شک نہیں ہے۔

چھوٹے تجربات سے لے کر بڑے پیمانے پر عمل درآمد تک

کیا آپ کو لگتا ہے کہ لکیری توجہ کی اوپری حد مکمل توجہ سے تجاوز کر سکتی ہے؟

اب ہم دیکھ سکتے ہیں کہ ہائبرڈ آرکیٹیکچرز خالص ٹرانسفارمرز سے بہتر ہیں۔ لیکن خالص لکیری توجہ کے ساتھ سب سے بڑا مسئلہ بازیافت کی صلاحیت ہے، جو کہ اکیڈمیا کے لیے حل کرنا ایک مشکل مسئلہ ہے۔

موجودہ طریقے، اگرچہ پیچیدہ اور سست ہیں، پھر بھی اسے مکمل طور پر حل نہیں کر سکتے، یہی وجہ ہے کہ ہائبرڈ آرکیٹیکچرز کی طرف بڑھنا ضروری ہے۔

آپ نے کون سا نوڈ دیکھا جس نے آپ کو لیب سے باہر آنے کا فیصلہ کرنے پر مجبور کیا؟

مئی-جون 2023 میں، ہمارے پاس اندرونی طور پر لائٹننگ توجہ 2 پہلے ہی موجود تھی، جو کہ دنیا کا پہلا لکیری توجہ عمل درآمد تھا جو فلیش توجہ سے تیز تھا۔

ہمیں یقین ہے کہ اس نے صنعتی سرخ لکیر کو عبور کر لیا ہے، اور اس کی تکنیکی پختگی بہت زیادہ ہے اور اسے بڑھایا جا سکتا ہے۔

آپ اس صنعتی سرخ لکیر کی وضاحت کیسے کرتے ہیں؟

سب سے پہلے، اثر ٹرانسفارمر سے بہتر ہے، اور دوسرا، یہ ٹرانسفارمر سے تیز ہے۔ یہ اسے ٹرانسفارمر کو تبدیل کرنے کی صلاحیت دیتا ہے۔ ہم نے اس کی تصدیق اس وقت 15B پیمانے کے گھنے ماڈل پر کی۔

جب آپ لیب سے باہر آئے تو آپ نے بالآخر منی میکس کے ساتھ مل کر یہ سب کچھ کیوں کیا؟

دراصل، میں نے اس وقت کچھ بڑی کمپنیوں سے بات کی تھی۔ لیکن آخر میں، میں نے یہ منی میکس کے ساتھ کیا۔

سب سے پہلے، cosformer ایک مضمون ہے جس پر میں نے جن جی کے ساتھ تعاون کیا۔ ہمارے پاس تعاون کی بنیاد ہے۔ جب جن جی SenseTime میں تھے تو وہ میرے باس تھے۔ 23 کے آخر میں، جن جی نے مجھے رات کے کھانے پر مدعو کیا۔ انہیں ان جدید ٹیکنالوجیز کے امکانات پر زیادہ اعتماد ہے۔ میری سمجھ یہ ہے کہ وہ اس وقت ایک تکنیکی پیش رفت کی تلاش میں تھے۔

اس وقت، منی میکس نے مو پر تحقیق مکمل کر لی تھی، اور اگلے مرحلے کے لیے بہت کم تکنیکی پیش رفت کے نکات تھے۔ اس وقت، لائٹننگ توجہ جاری ہو چکی تھی، اور ممبا بھی مقبول تھی، اس لیے ان کی نظر میں، یہ ایک قابل عمل سمت تھی۔

کیا اس کا تعلق منی میکس کے انٹرایکٹو کمپینئن پروڈکٹ سے ہے؟

اس کا کوئی تعلق نہیں ہے۔ یان جن جی ماڈل کی اوپری حد اور اس حد کو مزید کیسے توڑا جائے اس پر زیادہ فکر مند ہیں۔

عوامی نظر میں لکیری توجہ شاید کارکردگی کو توڑنے کی سمت زیادہ ہے، بجائے اس کے کہ حد کو توڑا جائے۔

یہاں نقطہ یہ ہے کہ، سب سے پہلے، ہر مینوفیکچرر کی کمپیوٹنگ طاقت مستقل ہے۔ ماڈل کو جتنی جلدی تیز کیا جا سکتا ہے، وہ اتنا ہی زیادہ ڈیٹا کھا سکتا ہے، اور اتنا ہی بہتر ماڈل تیار ہوتا ہے۔ جب کمپیوٹنگ طاقت مستقل ہوتی ہے، تو ماڈل جتنا تیز ہوتا ہے، اتنا ہی بہتر ہوتا ہے۔

کیا آپ نے ایسی صورتحال دیکھی ہے جہاں ڈیٹا اپنی انتہا کو پہنچ گیا ہو؟

ابھی تک نہیں، ٹھیک ہے؟ ڈیٹا اب بھی مسلسل اسکیلنگ کے مرحلے میں ہے، لیکن یہ 23 کی طرح جارحانہ نہیں ہو سکتا ہے۔

کیونکہ ڈیٹا ہمیشہ بڑھ رہا ہے، اور ہر روز نیا ڈیٹا سامنے آتا ہے۔ ماڈل کے لیے، اس کے پاس ہر روز پروسیس کرنے کے لیے نیا ڈیٹا ہوتا ہے۔ انٹرنیٹ کے ذریعے ہر روز اتنا زیادہ ڈیٹا تیار کیا جاتا ہے۔ صفائی کے ذریعے، ہم اب بھی نیا ڈیٹا نکال سکتے ہیں۔

انسانی ترقی کے اتنے سالوں سے موجود ڈیٹا کے مقابلے میں، کیا ڈیٹا کی شرح نمو میں کمی آئی ہے؟

دراصل، ضروری نہیں ہے۔ چین کی پانچ ہزار سالہ تاریخ کو دیکھیں، اور صرف وہی چند کتابیں جمع ہوئی ہیں۔ لیکن انٹرنیٹ کی ترقی کے ساتھ، ڈیٹا کی مقدار میں اضافہ ایک بہت ہی تیز رفتار منحنی خطوط ہے۔ انٹرنیٹ سے پہلے پیدا ہونے والا مجموعی ڈیٹا شاید بعد میں ایک سال میں پیدا ہونے والے ڈیٹا کے برابر نہیں ہے۔

اسکیل اپ کے عمل کے دوران، لائٹننگ توجہ کو کن چیلنجوں کا سامنا کرنا پڑا؟

اس کی اسکیل ایبلٹی کی تصدیق کے لیے، ہم نے سب سے پہلے اسکیلنگ قانون کے تجربات کیے، آہستہ آہستہ چھوٹے ماڈلز سے 7B، 9B تک بڑھتے ہوئے اور آخر میں 400B سے زیادہ کے ماڈلز تک اسکیلنگ کی۔

اور ہم نے نظریاتی طور پر ثابت کیا کہ لکیری کی صلاحیت ٹرانسفارمر سے زیادہ ہے۔

ہم صلاحیت کو آر این این کی موجودہ حالتوں کے سائز کے طور پر بیان کرتے ہیں۔ ٹرانسفارمر کے لیے، صلاحیت کا سائز O(d) ہے، جہاں d سائز ہے؛ لکیری توجہ کے لیے، صلاحیت کا سائز d²/h ہے۔ چونکہ d h سے بہت بڑا ہے، اس لیے صلاحیت زیادہ ہے۔

آخر میں، ہم نے یہ بھی تصدیق کی کہ ہائبرڈ ماڈل خالص ٹرانسفارمر سے بہتر ہے۔

4M لمبائی کی سیکوینس ونڈو کیسے حاصل کی جاتی ہے؟

لائٹننگ کے لیے، تربیتی لمبائی صوابدیدی ہو سکتی ہے۔ جب تک کہ کمپیوٹنگ طاقت مکمل طور پر استعمال کی جاتی ہے، 8K، 32K، یا 128K کی تربیت کی رفتار ایک جیسی ہوتی ہے، اور TGS (ٹوکن فی جی پی یو فی سیکنڈ) ایک جیسا ہوتا ہے۔

کیونکہ ٹرانسفارمر n² حسابی پیچیدگی ہے، سیکوینس جتنی لمبی ہوگی، حسابی پیچیدگی اتنی ہی تیزی سے بڑھے گی، اور تاخیر ایک چوکور منحنی خطوط میں بڑھ جاتی ہے۔ 1M لمبائی پر، سوفٹ میکس توجہ کی تاخیر لائٹننگ توجہ کے مقابلے میں 2,700 گنا زیادہ ہے۔

مستقبل میں لامحدود سیاق و سباق ونڈو حاصل کرنے کے لیے کن تکنیکی چیلنجوں سے نمٹنے کی ضرورت ہے؟

ہمارے موجودہ ہائبرڈ آرکیٹیکچر میں، اب بھی 1/8 سوفٹ میکس توجہ ہے۔ یہ 1M لمبائی پر ایک رکاوٹ ہے۔ اس 1/8 کی وجہ سے آنے والی تاخیر باقی 7/8 لکیری توجہ سے کہیں زیادہ ہے۔

اگر ہم لمبے متن کو بہتر بنانا چاہتے ہیں، تو ہمیں سوفٹ میکس توجہ کے حصے کو بہتر بنانے پر غور کرنا چاہیے۔ ہم اسے تیز تر اور ہلکا بنانے کے لیے اسپارس توجہ کے طریقوں سے سیکھ سکتے ہیں۔

اس کے علاوہ، ہم سوفٹ میکس اور لکیری توجہ کے اختلاط کے تناسب کو مزید انتہا پسند بنانے پر بھی غور کر رہے ہیں، اب 1/8 نہیں، بلکہ ممکنہ طور پر 1/16 یا 1/32۔ سب سے زیادہ بنیادی حل یہ ہے کہ پورے ماڈل میں صرف ایک پرت سوفٹ میکس کی رکھی جائے، لیکن بیمہ کے لیے، ہم نے اسے نہیں اپنایا، بنیادی طور پر بازیافت کی صلاحیت پر اثرات پر غور کرتے ہوئے۔

ماڈل کے لیے بازیافت کی صلاحیت اتنی اہم کیوں ہے؟

بازیافت سیاق و سباق میں سیکھنے کی بنیاد ہے اور ایک ضروری شرط ہے۔

سیاق و سباق میں معلومات کو یاد رکھنا ضروری ہے تاکہ سیاق و سباق میں سیکھا جا سکے، اور سیاق و سباق میں سیکھنا موجودہ بڑے ماڈلز کی تمام جدید صلاحیتوں کی بنیاد ہے، جیسے کہ CoT (Chain of Thought)، خاص طور پر لمبی CoT، جو سب بازیافت کی صلاحیت پر انحصار کرتے ہیں۔

فیصلہ کن نیا فن تعمیر

کیا آپ نے صنعت میں FFN اور توجہ میں تازہ ترین تعمیراتی بہتری پر توجہ دی ہے؟

FFN کی بہتری Moe ہے۔ میں نے بائٹ کی الٹرا میم پر بھی توجہ دی، لیکن مجھے لگتا ہے کہ یہ ایک ضائع ہونے والی چیز ہے، ایک ضائع ہونے والا کمپریشن۔ اگر اسے مستقبل میں بڑھایا جائے تو مسائل ہو سکتے ہیں، لیکن ہم نے اسے نہیں بڑھایا ہے، اس لیے میں صرف یہ کہہ سکتا ہوں کہ مسائل ہو سکتے ہیں۔

کیونکہ FFN بنیادی طور پر یہ ہیں۔ Moe کے علاقے میں ہماری بہتری اس سے زیادہ نہیں ہے کہ پچھلے بڑے ماہر کو موجودہ چھوٹے ماہر موڈ میں تبدیل کر دیا جائے، اسے مزید اسپارس بنایا جائے، اور پھر کچھ تیزی لائی جائے، جس کے لیے مزید تحقیق کی ضرورت ہے۔

اگر آپ اسے مزید بہتر بنانا چاہتے ہیں، کیونکہ FFN میٹرکس ضرب ہے، تو بہتری صرف Nvidia کی طرف سے CUDA کی سطح پر کی جا سکتی ہے، میٹرکس ضرب کی کچھ نچلی سطح کی اصلاحات کی جا سکتی ہیں۔

کیا آپ نے صنعت میں توجہ کے فن تعمیر میں بہتری پر توجہ دی ہے؟

توجہ میں بہتری بنیادی طور پر لکیری ہے۔ ہم یہ بھی غور کر رہے ہیں کہ مستقبل میں ایک مضبوط لکیری بنائی جائے، اور موجودہ بنیاد پر لکیری توجہ کو مزید تیز کیا جائے۔

بہتر بنانے کے بہت سے طریقے ہیں، ایک زوال کو تبدیل کرنا ہے، اور دوسرا اندرونی طور پر کچھ چھوٹی چالیں تبدیل کرنا ہے۔ آپ ہمارے نئے مقالے کے منتظر رہ سکتے ہیں۔

کیا سیاق و سباق کی لمبائی اور تخمینی لاگت کا ہمارا موجودہ تناسب نسبتاً جدید ہے؟

ایک بار جب اس میں سیکوینس کی لمبائی کو بڑھانا شامل ہوتا ہے، تو ہمارے پاس کمپیوٹنگ پاور لاگت کا بہت واضح فائدہ ہوتا ہے۔ یہ جتنا لمبا ہوگا، لاگت کا فائدہ اتنا ہی واضح ہوگا، چاہے وہ تخمینہ ہو یا تربیت۔

مثال کے طور پر، 1M پر، لکیری توجہ کے ذریعے استعمال ہونے والی کمپیوٹنگ پاور مکمل توجہ کا 1/2700 ہے۔ اس کے مقابلے میں، چونکہ ہمارے پاس اب بھی 1/8 مکمل توجہ ہے، اس لیے یہ بنیادی طور پر ٹرانسفارمر فن تعمیر کا 1/8 ہے، کیونکہ لکیری توجہ بنیادی طور پر ایک خرچ کے طور پر شمار نہیں ہوتی ہے۔

اگر حساب کی لاگت اتنی کم ہے، تو کیا یہ حساب کی رکاوٹ حاصل کر سکتا ہے؟

اب یہ واقعی ایک میموری رسائی کی رکاوٹ ہے۔ ڈی کوڈنگ ایک میموری رسائی کی رکاوٹ ہے، حساب کی رکاوٹ نہیں۔ کیونکہ لائٹننگ بہت تیز ہے، یہ اتنا تیز ہے کہ میموری رسائی کو حساب کے مقابلے میں کم وسائل پر قبضہ کرنے کی اجازت دی جائے۔ اس کی بنیادی وجہ یہ ہے کہ اصل ایپلی کیشنز میں سیکوینس کی لمبائی اتنی لمبی نہیں ہے۔

مستقبل میں اسے حساب کی رکاوٹ کیسے بنایا جائے اس کا انحصار اس پر ہے کہ میموری رسائی کو کیسے بہتر بنایا جائے۔ یہ وہ چیزیں ہوں گی جن کی ذمہ داری انجینئرنگ ڈیپارٹمنٹ پر ہوگی۔

اگر لکیری فن تعمیر اگلی نسل کا مرکزی دھارے کا فن تعمیر بن جاتا ہے، تو کون سی ہارڈویئر موافقت کی بہتری اس کے لیے زیادہ موزوں ہوگی؟

یہاں ایک بہت مشکل بات یہ ہے کہ ہمیں سیکوینس کی لمبائی پر غور کرنے کی ضرورت ہے۔ اگر آپ کی سیکوینس کی لمبائی 8K یا 32K پر مرکوز ہے، تو توجہ صرف دس فیصد سے تھوڑا سا زیادہ ہے، اور باقی اسی فیصد FFN حصہ ہے۔

یہاں تک کہ اگر آپ توجہ کو انتہائی حد تک بہتر بناتے ہیں، 0 تک، تو آپ نے صرف دس فیصد سے تھوڑا سا زیادہ تاخیر کو بہتر بنایا ہے۔ لیکن اگر آپ سیکوینس کی لمبائی کو بڑھاتے ہیں، تو توجہ کا تناسب بڑا ہوتا جائے گا۔ یہ مکمل توجہ کے مقابلے میں ہے، لیکن لکیری توجہ کے لیے، اس کا تناسب تبدیل نہیں ہوتا ہے۔

کیونکہ FFN بھی لکیری ہے، اور لکیری توجہ بھی لکیری ہے، اس کا تناسب تقریباً 10% ہے، جو تقریباً تبدیل نہیں ہوتا، یہاں تک کہ 1M کی صورت میں بھی۔

لیکن اگر یہ مکمل توجہ ہے، تو توجہ کے حساب میں 99% حصہ ہو سکتا ہے، اور مندرجہ ذیل FFN صرف 1% ہے۔ اس لیے لکیری توجہ کے صرف لمبے متن میں فوائد ہیں۔

اگر لکیری فن تعمیر مرکزی دھارے میں شامل ہو جاتا ہے، تو اس کے بعد کم توانائی والے ہارڈویئر کی تلاش ہو سکتی ہے، صرف توانائی کی کھپت کو کم کرنا۔ بشمول سپائیکنگ نیورل نیٹ ورک (SNN) چپس زیادہ موزوں ہو سکتی ہیں، اور کچھ لوگ دراصل اسے کر رہے ہیں۔

AGI کی راہ پر آگے دیکھتے ہوئے

ماڈل اوپن سورس اثر کے لیے آپ کی کیا توقعات ہیں؟

پہلا تشہیر کا اثر ہے۔ میں ذاتی طور پر سوچتا ہوں کہ کچھ عضلات دکھانے کے علاوہ، اوپن سورس کے لیے سب سے اہم چیز یہ دیکھنا ہے کہ ہر کوئی اسے مستقبل میں کیسے استعمال کر سکتا ہے۔ مجھے لگتا ہے کہ چھوٹے ماڈل اوپن سورس وہ ہو سکتا ہے جس پر ہم مستقبل میں زیادہ غور کر رہے ہیں۔

اور ہر ایک کے لیے فائن ٹیون کرنے کے لیے کچھ بنیادی ڈھانچہ کیسے بنایا جائے اس پر بھی غور کرنے کی ضرورت پڑ سکتی ہے۔ اوپن سورس مستقبل میں ہمارے لیے ایک طویل مدتی چیز ہے، اور فلیگ شپ ماڈلز کو اوپن سورس کیا جانا جاری رہنا چاہیے۔

کیا یہ ممکن ہے کہ کوئی خالص خون والا فن تعمیر جو ہائبرڈ نہ ہو مستقبل میں ختم ہو جائے؟

فی الحال، کوئی ایسا طریقہ نہیں ہے جو ہائبرڈ سے بہتر کر سکے، خاص طور پر رفتار کے لحاظ سے۔ سوفٹ میکس توجہ کا تھوڑا سا حصہ شامل کرنے سے، رفتار کا فائدہ بہت واضح ہوتا ہے جب سیکوینس کی لمبائی خاص طور پر لمبی نہیں ہوتی ہے، خاص طور پر فلیش توجہ کے ابھرنے کے بعد۔

خالص خون والے فن تعمیر پر تحقیق ابھی بھی جاری ہے، لیکن یہ بہت مشکل ہے، اور اب زیادہ نیچے لٹکنے والے پھل نہیں ہیں۔ ہمارے پاس کچھ تکنیکی حل ہیں، لیکن ان کا نفاذ آسان نہیں ہے، اور یہ بالآخر اس پر منحصر ہے کہ ہمیں سیکوینس کی کتنی لمبائی حاصل کرنے کی ضرورت ہے۔

ایک اور سوال یہ ہے کہ کیا الٹرا لمبے متن کی مضبوط مانگ ہے؟ اگرچہ Claude جیسے ماڈلز 200K سیاق و سباق تک پہنچ چکے ہیں، لیکن صارفین موجودہ لمبائی سے بہت مطمئن نظر آتے ہیں۔ ایجنٹ ایپلی کیشنز مستقبل میں الٹرا لمبی سیکوینس کی مانگ لا سکتی ہیں، لیکن ابھی تک کوئی پختہ بینچ مارک نہیں ہے۔

لیکن مجھے لگتا ہے کہ یہ مسئلہ اس طرح ہے جیسے Nvidia مستقبل کے گیمز کے لیے اعلی درجے کی کارکردگی والے گرافکس کارڈ تیار کر رہا ہے، حالانکہ ان کی اب ضرورت نہیں ہے، یہ مستقبل کی ٹیکنالوجی ہے۔

مثال کے طور پر، گہری تحقیق کے لیے ماڈل کو درجنوں ویب سائٹس کے مواد کو پڑھنے کی ضرورت ہوتی ہے، اور پروسیسنگ کا وقت دسیوں منٹوں کا ہوتا ہے، جو لمبے متن کے لیے ایک ایپلی کیشن سمت ہو سکتی ہے۔

آپ کے خیال میں CoT کے بعد اگلی بڑی چیز کیا ہو سکتی ہے؟

ہم نے اس کے بارے میں سوچا ہے۔ سب سے پہلے، موجودہ استدلال ماڈل نسبتاً مقبول ہے، اور اس سال کا مرکزی دھارا اب بھی استدلال کا حصہ ہوگا۔ اس کے بعد، ہمارے لیے خالص لسانی ماڈلز کے مستقبل میں کسی خاص طور پر بڑی تبدیلی کے بارے میں سوچنا مشکل ہے۔

میں نے دوسرے اساتذہ سے بھی بات کی ہے، اور ان کا احساس یہ ہے کہ ہر کوئی ماڈل کی لاگت کو دوبارہ کم کر دے گا، تاکہ استدلال کی رفتار تیز تر اور تیز تر ہو جائے، اور اس کی قیمت کم اور کم ہو جائے، اور اثر کو برقرار رکھتے ہوئے لاگت کو کم کیا جائے۔

کیونکہ حد تیزی سے قریب آرہی ہے، زیادہ تر معاملات بڑے ماڈلز کی صلاحیتوں میں خلا کو چیک کر رہے ہیں اور بھر رہے ہیں۔ لیکن اگر اس سے بھی زیادہ تکنیکی کامیابیاں ہیں، تو وہ قلیل مدت میں نسبتاً نایاب ہو سکتی ہیں، اور ہم نے انہیں ابھی تک نہیں دیکھا ہے۔

MiniMax کے لکیری توجہ کی تلاش کے بعد، دریافت کرنے کی اگلی سمت کیا ہو سکتی ہے؟

اگلی چیز ملٹی موڈل کے فن تعمیر کو تلاش کرنا ہو سکتی ہے، خاص طور پر کیا ہم اس مقامی نسل اور سمجھ کی متحد بڑی ماڈل فن تعمیر کو کرنا چاہتے ہیں۔

AGI کے اختتامی نقطہ کے طور پر، O(n²) یا O(n) کی حسابی پیچیدگی والا کون سا ماڈل ایک بہتر جواب ہوگا؟

یقینا، یہ O(n) ہے۔ انسانیت کی جانب سے، لوگوں کی پیچیدگی O(n) ہونی چاہیے۔ مثال کے طور پر، اگر کسی شخص کی پیچیدگی O(n²) ہے، تو جس رفتار سے میں آپ سے بات کرتا ہوں وہ سست اور سست تر ہوتی جائے گی۔

کیونکہ ٹرانسفارمر کے لیے، اس کی تخمینی پیچیدگی O(n²) حسابی پیچیدگی ہے، یعنی پہلے ٹوکن کو تھوکنے اور 100 ویں ٹوکن کو تھوکنے کی تاخیر مختلف ہے۔

ہم انسانایسی چیز کا تصور نہیں کر سکتے، کیونکہ لوگ پیدا ہونے کے بعد کبھی دوبارہ شروع نہیں ہوئے ہیں، اور ہر وقت چیزیں تھوک رہے ہیں، اس لیے لوگوں کی حسابی پیچیدگی مستقل ہے۔

کیا انسان ضروری طور پر ذہانت کا بہترین حل ہے؟

ہم اس وقت صرف ایسا ہی سوچ سکتے ہیں۔ کچھ لوگ بایونک انٹیلیجنس کا راستہ بھی اختیار کر رہے ہیں، لیکن ہم نے ان سمتوں پر زیادہ توجہ نہیں دی۔

AGI کے آخری گیم کے طور پر، ماڈل کی بہتری کے کون سے شعبے سب سے اہم ہیں؟

زبانی ماڈلنگ کے علاوہ، سیکھنے کے طریقوں کا مسئلہ بھی ہے۔ آپ کیسے سیکھتے ہیں، اور ماحول سے سیکھتے ہیں، ماحول کے ساتھ تعامل سے سیکھنا بہت اہم ہے۔ سب کے بعد، موجودہ ملٹی موڈل انڈرسٹینڈنگ میں ابھی بھی ڈیٹا کی بہت کمی ہے۔

اور یہاں تک کہ مشینوں کی چند شاٹ سیکھنا فی الحال لیبل لگا ہوا ہے، لیکن انسانی سیکھنا غیر لیبل لگا ہوا ہے۔ لہذا خود ساختہ فریم ورک کے تحت ہر چیز کو کیسے متحد کیا جائے یہ بھی ایک مسئلہ ہے۔

پر اپ ڈیٹ کیا گیا 2025-04-19

# LLM # AGI # MiniMax