Gemma 3n: آلہ پر استنتاج کا انقلاب

گوگل نے Gemma 3n کا انکشاف کیا ہے، جو کہ ایک نئی نسل کا ملٹی موڈل سمال لینگویج ماڈل ہے جو اب LiteRT Hugging Face کمیونٹی پر پیش منظر میں دستیاب ہے، اس کے ساتھ پہلے سے لانچ کیے گئے ماڈلز کی ایک صف بھی ہے۔ Gemma 3n کو ان پٹس کی ایک مختلف رینج پر کارروائی کرنے کے لیے تیار کیا گیا ہے، بشمول متن، تصاویر، ویڈیو اور آڈیو۔ مزید برآں، یہ AI Edge SDKs کے ذریعے تقویت یافتہ، ریٹریول-آگمینٹڈ جنریشن (RAG) اور فنکشن کالنگ کے ذریعے باریک ٹیوننگ، حسب ضرورت کی سہولت فراہم کرتا ہے۔

Gemma 3n: اندر کی طاقت کا انکشاف

Gemma 3n کو دو الگ پیرامیٹر ویریئنٹس میں پیش کیا گیا ہے: Gemma 3n 2B اور Gemma 3n 4B۔ دونوں تکراریں متن اور تصویری ان پٹس کو سنبھالنے کے لیے لیس ہیں، آڈیو سپورٹ کو مستقبل قریب میں ضم کرنے کا منصوبہ ہے، گوگل کے تخمینوں کے مطابق۔ یہ اس کے پیشرو، نان ملٹی موڈل Gemma 3 1B کے مقابلے میں پیمانے میں ایک اہم چھلانگ کی نشاندہی کرتا ہے، جس نے اس سال کے شروع میں ڈیبیو کیا تھا اور موبائل GPU پر متاثر کن 2,585 ٹوکن فی سیکنڈ کا انتظام کرنے کے لیے محض 529MB کی ضرورت تھی۔

گوگل کی تکنیکی خصوصیات کے مطابق، Gemma 3n سلیکٹو پیرامیٹر ایکٹیویشن کا فائدہ اٹھاتا ہے، جو کہ موثر پیرامیٹر مینجمنٹ کے لیے ڈیزائن کی گئی ایک اختراعی تکنیک ہے۔ اس کا مطلب یہ ہے کہ دونوں ماڈلز میں 2B یا 4B سے زیادہ پیرامیٹرز شامل ہیں جو استنتاج کے دوران فعال طور پر مشغول ہیں۔ یہ اسٹریٹجک نقطہ نظر وسائل کے استعمال کو بہتر بناتا ہے اور کارکردگی کو بڑھاتا ہے۔

باریک ٹیوننگ اور کوانٹائزیشن: حسب ضرورت کو کھولنا

گوگل اس صلاحیت پر زور دیتا ہے کہ ڈویلپرز بیس ماڈل کو باریک ٹیوننگ کر سکیں اور اس کے بعد گوگل AI Edge کے ذریعے قابل رسائی جدید کوانٹائزیشن ٹولز کا استعمال کرتے ہوئے اسے تبدیل اور کوانٹائز کر سکیں۔ یہ ڈویلپرز کو ماڈل کو مخصوص ایپلیکیشنز کے مطابق بنانے اور اس کی کارکردگی کی خصوصیات کو بہتر بنانے کے لیے بااختیار بناتا ہے۔

RAG انضمام: متنی ڈیٹا کے ساتھ لینگویج ماڈلز کو افزودہ کرنا

باریک ٹیوننگ کے متبادل کے طور پر، Gemma 3n ماڈلز کو آن ڈیوائس ریٹریول آگمینٹڈ جنریشن (RAG) کے لیے تعینات کیا جا سکتا ہے، جو کہ ایک ایسا طریقہ کار ہے جو ایپلیکیشن کے مخصوص ڈیٹا کے ساتھ لینگویج ماڈل کو افزودہ کرتا ہے۔ اس اضافہ کو AI Edge RAG لائبریری کے ذریعے آسان بنایا گیا ہے، جو فی الحال صرف اینڈرائیڈ کے لیے ہے لیکن پائپ لائن میں دوسرے پلیٹ فارمز تک توسیع کے منصوبوں کے ساتھ ہے۔

RAG لائبریری کئی اہم مراحل پر مشتمل ایک ہموار پائپ لائن کے ذریعے کام کرتی ہے:

  • ڈیٹا درآمد: متعلقہ ڈیٹا کو سسٹم میں داخل کرنا۔
  • چنکنگ اور انڈیکسنگ: موثر بازیافت کے لیے ڈیٹا کو تقسیم کرنا اور منظم کرنا۔
  • ایمبیڈنگز جنریشن: سیمینٹک تفہیم کے لیے ڈیٹا کی ویکٹر نمائندگی بنانا۔
  • معلومات کی بازیافت: صارف کے سوالات کی بنیاد پر متعلقہ معلومات کی شناخت اور نکالنا۔
  • جواب کی تخلیق: ایک LLM کا استعمال کرتے ہوئے مربوط اور متنی طور پر متعلقہ جوابات تیار کرنا۔

یہ مضبوط فریم ورک RAG پائپ لائن کی جامع تخصیص کو ممکن بناتا ہے، جس میں کسٹم ڈیٹا بیسز، چنکنگ حکمت عملیوں اور بازیافت کے افعال کے لیے سپورٹ شامل ہے۔

AI Edge آن ڈیوائس فنکشن کالنگ SDK: ماڈلز اور حقیقی دنیا کے اقدامات کے درمیان خلاء کو پُر کرنا

Gemma 3n کی نقاب کشائی کے ساتھ ہی، گوگل نے AI Edge آن ڈیوائس فنکشن کالنگ SDK متعارف کرایا، جو ابتدائی طور پر صرف اینڈرائیڈ پر دستیاب ہے۔ یہ SDK ماڈلز کو مخصوص افعال کو طلب کرنے کا اختیار دیتا ہے، اس طرح حقیقی دنیا کے اقدامات کو انجام دیتا ہے۔

ایک LLM کو بیرونی فنکشن کے ساتھ بغیر کسی رکاوٹ کے مربوط کرنے کے لیے، فنکشن کو اس کے نام کی وضاحت کر کے، ایک وضاحتی بیانیہ جس میں یہ واضح کیا گیا ہو کہ LLM کو اسے کب استعمال کرنا چاہیے، اور مطلوبہ پیرامیٹرز کے ذریعہ احتیاط سے بیان کیا جانا چاہیے۔ یہ میٹا ڈیٹا ایک ٹول آبجیکٹ کے اندر بند ہے، جسے بعد میں GenerativeModel کنسٹرکٹر کے ذریعے بڑے لینگویج ماڈل کو پاس کیا جاتا ہے۔ فنکشن کالنگ SDK فراہم کردہ تفصیل کی بنیاد پر LLM سے فنکشن کالز وصول کرنے اور عمل درآمد کے نتائج کو واپس LLM تک پہنچانے کے لیے سپورٹ کو شامل کرتا ہے۔

صلاحیت کو تلاش کرنا: گوگل AI ایج گیلری

ان لوگوں کے لیے جو ان شاندار ٹولز میں گہرائی میں جانا چاہتے ہیں، گوگل AI ایج گیلری ایک انمول وسیلے کے طور پر کھڑی ہے۔ یہ تجرباتی ایپلیکیشن ماڈلز کی متنوع صف کو ظاہر کرتی ہے اور متن، تصویر اور آڈیو پروسیسنگ میں سہولت فراہم کرتی ہے۔

گہرائی میں غوطہ لگانا: Gemma 3n اور اس کے ماحولیاتی نظام کی باریکیاں

Gemma 3n کی آمد آن ڈیوائس مشین لرننگ کے ارتقاء میں ایک اہم قدم کی نشاندہی کرتی ہے، جو کارکردگی، موافقت اور فعالیت کا ایک طاقتور امتزاج پیش کرتی ہے۔ اس کی ملٹی موڈل صلاحیتوں، RAG اور فنکشن کالنگ کے لیے معاونت کے ساتھ، ڈویلپرز کے لیے ذہین اور سیاق و سباق سے باخبر ایپلیکیشنز بنانے کے خواہشمندوں کے لیے امکانات کا ایک ان گنت کھولتا ہے۔

انتخابی پیرامیٹر ایکٹیویشن: ایک گہری غوطہ

Gemma 3n کے ذریعہ استعمال کی جانے والی انتخابی پیرامیٹر ایکٹیویشن تکنیک کو مزید جانچ پڑتال کی ضمانت ہے۔ یہ اختراعی طریقہ کار ماڈل کو متحرک طور پر صرف ان پیرامیٹرز کو فعال کرنے کی اجازت دیتا ہے جو کسی خاص کام کے لیے ضروری ہیں، اس طرح کمپیوٹیشنل اوور ہیڈ کو کم سے کم کرتے ہیں اور کارکردگی کو زیادہ سے زیادہ کرتے ہیں۔ یہ آن ڈیوائس تعیناتی کے لیے خاص طور پر اہم ہے، جہاں وسائل اکثر محدود ہوتے ہیں۔

انتخابی پیرامیٹر ایکٹیویشن کے پیچھے بنیادی اصول اس مشاہدے میں مضمر ہے کہ نیورل نیٹ ورک میں تمام پیرامیٹرز تمام کاموں کے لیے یکساں طور پر اہم نہیں ہوتے ہیں۔ سب سے زیادہ متعلقہ پیرامیٹرز کو منتخب طور پر فعال کر کے، ماڈل نمایاں طور پر کم کمپیوٹیشنل لاگت کے ساتھ موازنہ کارکردگی حاصل کر سکتا ہے۔

انتخابی پیرامیٹر ایکٹیویشن کے نفاذ میں عام طور پر کسی دی گئی ان پٹ کے لیے کون سے پیرامیٹرز کو فعال کرنا ہے اس کا تعین کرنے کے لیے ایک طریقہ کار شامل ہوتا ہے۔ یہ مختلف تکنیکوں کے ذریعے حاصل کیا جا سکتا ہے، جیسے کہ:

  • توجہ کے طریقہ کار: ان پٹ کے سب سے زیادہ متعلقہ حصوں پر توجہ دینا اور اس کے مطابق پیرامیٹرز کو فعال کرنا۔
  • گیٹنگ میکانزم: نیٹ ورک کے مختلف حصوں میں معلومات کے بہاؤ کو کنٹرول کرنے کے لیے گیٹنگ فنکشن کا استعمال کرنا۔
  • کم تربیتی: نیٹ ورک کو کم کنکشن سیکھنے کے لیے تربیت دینا، تاکہ استنتاج کے دوران صرف پیرامیٹرز کا ایک ذیلی سیٹ فعال ہو۔

تکنیک کا انتخاب ماڈل کے مخصوص فن تعمیر اور کام کی خصوصیات پر منحصر ہے۔ تاہم، سب سے بڑا مقصد صرف ان پیرامیٹرز کی نشاندہی کرنا اور فعال کرنا ہے جو دی گئی ان پٹ کے لیے سب سے زیادہ متعلقہ ہیں، اس طرح کمپیوٹیشنل لاگت کو کم کرنا اور کارکردگی کو بہتر بنانا ہے۔

آر اے جی: علم اور سیاق و سباق کو بڑھانا

ریٹریول آگمینٹڈ جنریشن (RAG) اس طریقے میں ایک مثالی تبدیلی کی نمائندگی کرتا ہے جس طرح لینگویج ماڈل استعمال ہوتے ہیں۔ بیرونی علمی ذرائع کو مربوط کرکے، RAG لینگویج ماڈلز کو زیادہ باخبر، درست اور متنی طور پر متعلقہ جوابات پیدا کرنے کے قابل بناتا ہے۔

RAG پائپ لائن کئی اہم مراحل پر مشتمل ہے:

  1. ڈیٹا انڈیکسنگ: اس مرحلے میں، متعلقہ معلومات کی موثر بازیافت کو فعال کرنے کے لیے بیرونی علمی ماخذ کو انڈیکس کیا جاتا ہے۔ اس میں عام طور پر علمی ماخذ میں ہر دستاویز کی ایک ویکٹر نمائندگی بنانا شامل ہوتا ہے، جسے پھر فوری طور پر ان دستاویزات کی شناخت کے لیے استعمال کیا جا سکتا ہے جو کسی دیئے گئے سوال سے ملتی جلتی ہیں۔
  2. معلومات کی بازیافت: جب کوئی سوال موصول ہوتا ہے، تو RAG سسٹم انڈیکسڈ نالج ماخذ سے سب سے زیادہ متعلقہ دستاویزات کو بازیافت کرتا ہے۔ یہ عامطور پر ایک مماثلت تلاش کے الگورتھم کا استعمال کرتے ہوئے کیا جاتا ہے، جو سوال کی ویکٹر نمائندگی کا موازنہ علمی ماخذ میں دستاویزات کی ویکٹر نمائندگیوں سے करता ہے۔
  3. متنیات: بازیافت شدہ دستاویزات کو پھر سوال کے تناظر کو بڑھانے کے لیے استعمال کیا जाता ہے۔ یہ بازیافت شدہ دستاویزات کو سوال کے ساتھ جوڑ کر، یا بازیافت شدہ دستاویزات سے معلومات کو سوال کی نمائندگی میں مربوط کرنے کے لیے ایک زیادہ نفیس تکنیک کا استعمال करके किया जा सकता है।
  4. رسپانس جنریشن: آخر میں، بڑھائے گئے سوال کو ایک لینگویج ماڈل میں ڈالا جاتا ہے، جو سوال اور بازیافت شدہ دستاویزات کی مشترکہ معلومات پر مبنی जवाब तैयार करता है।

RAG روایتی لینگویج ماڈلز کے मुकाबले متعدد فوائد पेश کرتا ہے:

  • زیادہ درستگی: بیرونی علم کو شامل કરીને، RAG ماڈلز زیادہ درست اور حقیقت پر مبنی جوابات تیار کر سکتے ہیں۔
  • بہتر متنی سمجھ: RAG ماڈلز بازیافت شدہ دستاویزات میں معلوماتを利用 करके سوال کے سیاق و سباق کو بہتر طور پر سمجھ سکتے ہیں۔
  • کم برم: RAG ماڈلز کے بھٹک जाने या गैरसेंसिकल جوابات تیار کرنے کا امکان کم होता है, क्योंकि वे बाहरी जानकारी में आधारित होते हैं।
  • نئی معلومات کے لیے موافقت پذیری: RAG ماڈلز انڈیکسڈ نالج ماخذ کو اپڈیٹ करके نئی जानकारी کے مطابق آسانی سے ڈھال सकते ہیں۔

فنکشن کالنگ: حقیقی دنیا کے ساتھ تعامل

AI ایج آن ڈیوائس فنکشن کالنگ SDK لینگویج ماڈلز کو حقیقی دنیا کے ساتھ تعامل کے قابل बनाने की दिशा میں ایک მნიშვნელოვანი कदम کی نمائندگی करता ہے। ماڈلز کو بیرونی افعال कोInvoke करने کی اجازت دے کر, SDK ذہین اور سیاق و سباق سے باخبر ایپلی کیشنز بنانے के लिए امکانات کی ایک विस्तृत श्रृंखला खोलता है।

فنکشن کالنگ के प्रोसेस में आमतौर पर निम्नलिखित चरण शामिल होते हैं:

  1. فنکشن کی تعریف: ڈویلپر उन افعال کی وضاحت کرتا ہے جو لینگویج माڈل Invoke ک कर सकता है। اس में فنکشن کا نام, اس فنکشن کی وضاحت शामिल है जो کرتا हैऔरوہ پیرامیٹرز جو فنکشن قبول करता है।
  2. ٹول آبجیکٹ تخلیق: ڈویلپر एक ٹول آبجیکٹ बनाता है जो فنکشن کی تعریف कोEncapsulate کرتا ہے۔ اس آبجیکٹ کو پھر لینگویج ماڈل میں پاس کیا جاتا ہے۔
  3. فنکشن کال జనరేషన్: جب لینگویج মাڈل کو حقیقی دنیا کا عمل کرنے کی ضرورت ہوتی ہے, تو वहایک فنکشن کال उत्पन्न کرتا ہے۔ اس کال میں فنکشن کا نام शामिल ہوتا ہے जिसे Invoke किया जाना है और ان پیرامیٹرز کی اقدار जिनھیں فنکشن میں پاس کیا جانا ہے۔
  4. فنکشن ఎಕ್ಸಿిక్యూషన్: فنکشن कॉલ کو پھر سسٹم کے ذریعے Execute کیا جاتا ہے۔ اس में عام طور पर 대응ی API یا سروس کو Invoke करना शामिल है।
  5. نتیجہ ٹرانسمیشن: فنکشن Эక్జিক్యూషన్ کے نتائج کو پھر वापस لینگویج माڈল میں منتقل کیا جاتا ہے۔
  6. جواب رد जनరేషన్: آخر میں, لینگویج মাڈল فنکشن