Google کی جانب سے Gemma 3n کا اجراء جنریٹو AI میں ایک نئے باب کا اضافہ ہے۔ یہ ماڈل نہ صرف چھوٹا اور تیز ہے بلکہ اس کی سب سے خاص بات یہ ہے کہ یہ فون پر آف لائن بھی چل سکتا ہے، جس سے جدید آرٹیفیشل انٹیلی جنس (Artificial Intelligence) ٹیکنالوجی ہماری روزمرہ کی زندگی میں استعمال ہونے والے آلات تک رسائی حاصل کر سکتی ہے۔ Gemma 3n نہ صرف آڈیو، تصاویر اور ٹیکسٹ کو سمجھنے کی صلاحیت رکھتا ہے بلکہ اس کی درستگی بھی کافی متاثر کن ہے، اور Chatbot Arena پر اس کی کارکردگی GPT-4.1 Nano سے بھی بہتر ہے۔
Gemma 3n کا اختراعی فن تعمیر
ڈیوائس پر AI کے مستقبل کو مدنظر رکھتے ہوئے، Google DeepMind نے Qualcomm Technologies, MediaTek اور Samsung System LSI جیسی موبائل ہارڈویئر کمپنیوں کے ساتھ مل کر ایک نئے فن تعمیر (Architecture) پر کام کیا ہے۔
اس فن تعمیر کا مقصد جنریٹو AI کی کارکردگی کو محدود وسائل والے آلات، جیسے فون، ٹیبلٹ اور لیپ ٹاپ پر بہتر بنانا ہے۔ اس مقصد کو حاصل کرنے کے لیے، فن تعمیر میں تین اہم اختراعات شامل کی گئی ہیں: پرت بہ پرت ایمبیڈنگ (PLE) کیشنگ، MatFormer فن تعمیر اور مشروط پیرامیٹر لوڈنگ۔
PLE کیشنگ: میموری کی حدود کو عبور کرنا
PLE کیشنگ ایک ایسا طریقہ کار ہے جو ماڈل کو اپنی کارکردگی کو متاثر کیے بغیر میموری کے استعمال کو نمایاں طور پر کم کرنے کی اجازت دیتا ہے۔ یہ ماڈل پیرامیٹرز کو تیز بیرونی میموری میں منتقل کرتا ہے۔ یہ پیرامیٹرز ماڈل کی آپریٹنگ میموری سے باہر تیار کیے جاتے ہیں اور ضرورت پڑنے پر بازیافت کیے جاتے ہیں، جس سے وسائل کی کمی والے آلات پر بھی موثر آپریشن ممکن ہوتا ہے۔
تصور کریں کہ آپ ایک پیچیدہ AI ماڈل چلا رہے ہیں، لیکن آپ کے آلے میں میموری محدود ہے۔ PLE کیشنگ ایک ذہین لائبریرین کی طرح ہے جو غیر استعمال شدہ کتابوں (پیرامیٹرز) کو قریبی گودام (بیرونی میموری) میں محفوظ کرتا ہے۔ جب ماڈل کو ان پیرامیٹرز کی ضرورت ہوتی ہے، تو لائبریرین انہیں فوری طور پر بازیافت کر لیتا ہے، اس بات کو یقینی بناتا ہے کہ ماڈل قیمتی میموری وسائل کو استعمال کیے بغیر آسانی سے چلتا رہے۔
خاص طور پر، PLE کیشنگ درج ذیل طریقوں سے میموری کے استعمال اور کارکردگی کو بہتر کرتا ہے:
میموری کے استعمال کو کم کرنا: غیر استعمال شدہ پیرامیٹرز کو بیرونی میموری میں محفوظ کر کے، PLE کیشنگ ماڈل کو چلانے کے لیے درکار میموری کی مقدار کو کم کرتا ہے۔ اس سے وسائل کی کمی والے آلات پر بڑے AI ماڈل چلانا ممکن ہو جاتا ہے۔
کارکردگی کو بہتر بنانا: اگرچہ بیرونی میموری سے پیرامیٹرز کو بازیافت کرنے میں کچھ وقت لگتا ہے، لیکن PLE کیشنگ ذہانت سے یہ پیش گوئی کرتا ہے کہ کون سے پیرامیٹرز مستقبل میں استعمال ہوں گے اور انہیں پہلے سے کیش میں لوڈ کر لیتا ہے، جس سے تاخیر کو کم سے کم کیا جاتا ہے۔ اس سے یہ یقینی ہوتا ہے کہ ماڈل تقریباً حقیقی وقت میں چل سکتا ہے۔
بڑے ماڈلز کو سپورٹ کرنا: میموری کی ضروریات کو کم کر کے، PLE کیشنگ ہمیں بڑے اور زیادہ پیچیدہ AI ماڈل بنانے کی اجازت دیتا ہے۔ یہ ماڈل زیادہ اظہار خیال کرنے کی صلاحیت رکھتے ہیں اور زیادہ پیچیدہ کام انجام دے سکتے ہیں۔
MatFormer فن تعمیر: روسی گڑیا کی طرح عمدہ ڈیزائن
Matryoshka Transformer (MatFormer) فن تعمیر ایک نیسٹڈ ٹرانسفارمر ڈیزائن متعارف کراتا ہے، جہاں چھوٹے ذیلی ماڈلز بڑے ماڈلز میں ایمبیڈ ہوتے ہیں، بالکل روسی گڑیا کی طرح۔ یہ ساخت ذیلی ماڈلز کو منتخب طور پر فعال کرنے کی اجازت دیتی ہے، جس سے ماڈل کو ٹاسک کی بنیاد پر اپنی کارکردگی کو متحرک طور پر ایڈجسٹ کرنے کی صلاحیت ملتی ہے۔ یہ لچک کمپیوٹیشنل لاگت، رسپانس ٹائم اور توانائی کی کھپت کو کم کرتی ہے، جو اسے ایج اور کلاؤڈ دونوں جگہوں پر تعیناتی کے لیے مثالی بناتی ہے۔
MatFormer فن تعمیر کا بنیادی خیال یہ ہے کہ تمام ٹاسک کو مکمل AI ماڈل کی ضرورت نہیں ہوتی ہے۔ سادہ ٹاسک کے لیے، صرف چھوٹے ذیلی ماڈلز کو فعال کرنا کمپیوٹیشنل وسائل کو بچا سکتا ہے۔ پیچیدہ ٹاسک کے لیے، زیادہ درستگی حاصل کرنے کے لیے بڑے ذیلی ماڈلز کو فعال کیا جا سکتا ہے۔
آئیے ایک مثال کے ذریعے MatFormer فن تعمیر کے فوائد کو واضح کرتے ہیں۔ فرض کریں کہ آپ تصاویر میں موجود اشیاء کی شناخت کے لیے ایک AI ماڈل استعمال کر رہے ہیں۔ سادہ تصاویر کے لیے، جیسے کہ صرف ایک شے پر مشتمل تصویر، آپ ایک چھوٹا ذیلی ماڈل فعال کر سکتے ہیں جو خاص طور پر اس مخصوص قسم کی شے کی شناخت کے لیے ڈیزائن کیا گیا ہے۔ پیچیدہ تصاویر کے لیے، جیسے کہ متعدد اشیاء پر مشتمل تصویر، آپ ایک بڑا ذیلی ماڈل فعال کر سکتے ہیں جو مختلف قسم کی اشیاء کی شناخت کرنے کی صلاحیت رکھتا ہے۔
MatFormer فن تعمیر کے فوائد یہ ہیں:
کمپیوٹیشنل لاگت میں کمی: صرف مطلوبہ ذیلی ماڈلز کو فعال کر کے، MatFormer فن تعمیر کمپیوٹیشنل لاگت کو نمایاں طور پر کم کر سکتا ہے۔ یہ وسائل کی کمی والے آلات پر AI ماڈل چلانے کے لیے بہت ضروری ہے۔
رسپانس ٹائم میں کمی: چونکہ MatFormer فن تعمیر ماڈل کے سائز کو ٹاسک کی بنیاد پر متحرک طور پر ایڈجسٹ کر سکتا ہے، اس لیے رسپانس ٹائم کو کم کیا جا سکتا ہے۔ اس سے AI ماڈل صارف کی درخواستوں کا تیزی سے جواب دینے کے قابل ہو جاتے ہیں۔
توانائی کی کھپت میں کمی: کمپیوٹیشنل لاگت کو کم کر کے، MatFormer فن تعمیر توانائی کی کھپت کو بھی کم کر سکتا ہے۔ یہ بیٹری کی زندگی کو طول دینے کے لیے ضروری ہے۔
مشروط پیرامیٹر لوڈنگ: ضرورت کے مطابق لوڈنگ، وسائل کی اصلاح
مشروط پیرامیٹر لوڈنگ ڈویلپرز کو غیر استعمال شدہ پیرامیٹرز (جیسے آڈیو یا بصری پروسیسنگ کے لیے استعمال ہونے والے پیرامیٹرز) کو میموری میں لوڈ کرنے سے روکنے کی اجازت دیتی ہے۔ اگر ضرورت ہو تو، ان پیرامیٹرز کو رن ٹائم پر متحرک طور پر لوڈ کیا جا سکتا ہے، جس سے میموری کے استعمال کو مزید بہتر بنایا جا سکتا ہے اور ماڈل کو مختلف آلات اور ٹاسک کے مطابق ڈھالنے کی صلاحیت ملتی ہے۔
تصور کریں کہ آپ ٹیکسٹ پروسیسنگ کے لیے ایک AI ماڈل استعمال کر رہے ہیں۔ اگر آپ کے ٹاسک کو کسی آڈیو یا بصری پروسیسنگ کی ضرورت نہیں ہے، تو آڈیو یا بصری پروسیسنگ کے لیے استعمال ہونے والے پیرامیٹرز کو لوڈ کرنا وسائل کا ضیاع ہوگا۔ مشروط پیرامیٹر لوڈنگ ماڈل کو صرف وہی پیرامیٹرز لوڈ کرنے کی اجازت دیتی ہے جن کی ضرورت ہے، جس سے میموری کا استعمال کم سے کم ہوتا ہے اور کارکردگی میں اضافہ ہوتا ہے۔
مشروط پیرامیٹر لوڈنگ کا طریقہ کار درج ذیل ہے:
- ماڈل موجودہ ٹاسک کا تجزیہ کرتا ہے اور ان پیرامیٹرز کی نشاندہی کرتا ہے جن کی ضرورت ہے۔
- ماڈل صرف ان پیرامیٹرز کو میموری میں لوڈ کرتا ہے۔
- جب ٹاسک مکمل ہو جاتا ہے، تو ماڈل ان پیرامیٹرز کو جاری کر دیتا ہے جن کی اب ضرورت نہیں ہے۔
مشروط پیرامیٹر لوڈنگ کے فوائد یہ ہیں:
میموری کے استعمال کو بہتر بنانا: صرف مطلوبہ پیرامیٹرز کو لوڈ کر کے، مشروط پیرامیٹر لوڈنگ میموری کے استعمال کو نمایاں طور پر بہتر بنا سکتی ہے۔ یہ وسائل کی کمی والے آلات پر AI ماڈل چلانے کے لیے بہت ضروری ہے۔
کارکردگی کو بہتر بنانا: لوڈ کیے جانے والے پیرامیٹرز کی تعداد کو کم کر کے، مشروط پیرامیٹر لوڈنگ کارکردگی کو بہتر بنا سکتی ہے۔ اس سے AI ماڈل صارف کی درخواستوں کا تیزی سے جواب دینے کے قابل ہو جاتے ہیں۔
آلات کی وسیع رینج کو سپورٹ کرنا: میموری کے استعمال کو بہتر بنا کر، مشروط پیرامیٹر لوڈنگ AI ماڈل کو آلات کی وسیع رینج پر چلانے کے قابل بناتی ہے، بشمول محدود میموری والے آلات۔
Gemma 3n کی نمایاں خصوصیات
Gemma 3n متعدد اختراعی ٹیکنالوجیز اور خصوصیات متعارف کراتا ہے جو ڈیوائس پر AI کے امکانات کو دوبارہ متعین کرتی ہیں۔
آئیے اس کی اہم خصوصیات پر گہری نظر ڈالتے ہیں:
ڈیوائس پر بہتر کارکردگی اور استعداد: Gemma 3n اپنے پیشرو (Gemma 3 4B) سے تقریباً 1.5 گنا تیز ہے، جبکہ اس کی آؤٹ پٹ کوالٹی بھی کافی بہتر ہے۔ اس کا مطلب ہے کہ آپ کو کلاؤڈ کنکشن پر انحصار کیے بغیر آلات پر زیادہ درست نتائج تیزی سے مل سکتے ہیں۔
PLE کیشنگ: PLE کیشنگ سسٹم Gemma 3n کو پیرامیٹرز کو تیز لوکل اسٹوریج میں محفوظ کرنے کی اجازت دیتا ہے، جس سے میموری کا استعمال کم ہوتا ہے اور کارکردگی میں اضافہ ہوتا ہے۔
MatFormer فن تعمیر: Gemma 3n MatFormer فن تعمیر استعمال کرتا ہے، جو ماڈل پیرامیٹرز کو مخصوص درخواست کی بنیاد پر منتخب طور پر فعال کرتا ہے۔ یہ ماڈل کو اپنی کارکردگی کو متحرک طور پر ایڈجسٹ کرنے کی صلاحیت دیتا ہے، جس سے وسائل کے استعمال کو بہتر بنایا جاتا ہے۔
مشروط پیرامیٹر لوڈنگ: میموری وسائل کو بچانے کے لیے، Gemma 3n غیر ضروری پیرامیٹرز کو لوڈ کرنے سے گریز کر سکتا ہے، مثال کے طور پر بصری یا آڈیو پروسیسنگ کی ضرورت نہ ہونے پر متعلقہ پیرامیٹرز لوڈ نہیں کیے جاتے۔ یہ مزید استعداد میں اضافہ کرتا ہے اور بجلی کی کھپت کو کم کرتا ہے۔
رازداری اور آف لائن تیاری کو ترجیح: انٹرنیٹ کنکشن کی ضرورت کے بغیر مقامی طور پر AI فنکشنز کو چلانا صارف کی رازداری کو یقینی بناتا ہے۔ اس کا مطلب ہے کہ آپ کا ڈیٹا آپ کے آلے کو نہیں چھوڑتا ہے، اور آپ انٹرنیٹ کنکشن کے بغیر AI فنکشنز استعمال کر سکتے ہیں۔
ملٹی موڈل تفہیم: Gemma 3n آڈیو، ٹیکسٹ، امیجز اور ویڈیو ان پٹ کے لیے اعلیٰ درجے کی سپورٹ پیش کرتا ہے، جو حقیقی وقت میں پیچیدہ ملٹی موڈل تعامل کو ممکن بناتا ہے۔ یہ AI ماڈل کو مختلف قسم کے ان پٹ کو سمجھنے اور جواب دینے کی صلاحیت دیتا ہے، جس سے صارف کا تجربہ زیادہ فطری اور بدیہی ہوتا ہے۔
آڈیو افعال: یہ خودکار تقریر کی شناخت (ASR) اور تقریر سے متن ترجمہ فراہم کرتا ہے، جس میں اعلیٰ معیار کی نقل اور کثیر لسانی معاونت شامل ہے۔ اس کا مطلب ہے کہ آپ Gemma 3n کا استعمال کرتے ہوئے زبانی کلام کو متن میں تبدیل کر سکتے ہیں اور ایک زبان میں تقریر کو دوسری زبان میں ترجمہ کر سکتے ہیں۔
بہتر کثیر لسانی صلاحیت: جاپانی، جرمن، کورین، ہسپانوی اور فرانسیسی جیسی زبانوں میں کارکردگی کو نمایاں طور پر بہتر بنایا گیا ہے۔ اس سے Gemma 3n مختلف زبانوں میں متن کو زیادہ درستگی سے سمجھنے اور تیار کرنے کے قابل ہو جاتا ہے۔
32K ٹوکن سیاق و سباق: یہ ایک ہی درخواست میں بڑی مقدار میں ڈیٹا پر کارروائی کر سکتا ہے، جس سے طویل گفتگو اور زیادہ پیچیدہ کام ممکن ہوتے ہیں۔ اس کا مطلب ہے کہ آپ Gemma 3n کو لمبا ٹیکسٹ ان پٹ فراہم کر سکتے ہیں بغیر اس کے سیاق و سباق کی حدود سے تجاوز کرنے کی فکر کیے بغیر۔
Gemma 3n کے ساتھ فوری آغاز
Gemma 3n کا استعمال شروع کرنا بہت آسان ہے، اور ڈویلپرز اس طاقتور ماڈل کو دریافت اور ضم کرنے کے لیے دو اہم طریقے استعمال کر سکتے ہیں۔
1. Google AI Studio: فوری پروٹوٹائپ ڈیزائن
صرف Google AI Studio میں لاگ ان کریں، اسٹوڈیو پر جائیں، Gemma 3n E4B ماڈل منتخب کریں، اور Gemma 3n کی خصوصیات کو دریافت کرنا شروع کریں۔ یہ اسٹوڈیو ان ڈویلپرز کے لیے بہترین ہے جو مکمل نفاذ سے پہلے اپنے آئیڈیاز کو تیزی سے پروٹوٹائپ کرنے اور جانچنے کی امید رکھتے ہیں۔
آپ ایک API کلید حاصل کر سکتے ہیں اور ماڈل کو اپنے مقامی AI چیٹ بوٹ میں ضم کر سکتے ہیں، خاص طور پر Msty ایپلی کیشن کے ذریعے۔
اس کے علاوہ، آپ Google GenAI Python SDK استعمال کر سکتے ہیں، جو آپ کو کوڈ کی چند لائنوں کے ساتھ ماڈل کو اپنی ایپلی کیشن میں ضم کرنے کی اجازت دیتا ہے۔ اس سے Gemma 3n کو اپنے پروجیکٹس میں ضم کرنا بہت آسان ہو جاتا ہے۔
2. Google AI Edge کے ساتھ آلات پر ترقی: مقامی ایپلیکیشنز کی تعمیر
ان ڈویلپرز کے لیے جو Gemma 3n کو براہ راست اپنی ایپلی کیشنز میں ضم کرنا چاہتے ہیں، Google AI Edge ان ٹولز اور لائبریریوں کو فراہم کرتا ہے جن کی Android اور Chrome آلات پر آلات پر ترقی کے لیے ضرورت ہوتی ہے۔ یہ طریقہ ان ایپلیکیشنز کی تعمیر کے لیے بہترین ہے جو مقامی طور پر Gemma 3n کی خصوصیات سے فائدہ اٹھاتی ہیں۔
Google AI Edge ٹولز اور لائبریریوں کی ایک رینج پیش کرتا ہے جو ڈویلپرز کے لیے Gemma 3n کو اپنی ایپلی کیشنز میں ضم کرنا آسان بناتا ہے۔ ان ٹولز میں شامل ہیں:
- TensorFlow Lite: موبائل آلات پر AI ماڈل چلانے کے لیے ایک ہلکا پھلکا فریم ورک۔
- ML Kit: موبائل ایپلیکیشنز میں مشین لرننگ فنکشنز شامل کرنے کے لیے APIs کا ایک مجموعہ۔
- Android Neural Networks API (NNAPI): آلات پر ہارڈویئر ایکسلریٹر کا استعمال करते ہوئے AI ماڈل چلانے کے لیے ایک API۔
Google AI Edge کا استعمال کرتے ہوئے، ڈویلپرز مختلف قسم کی اختراعی ایپلی کیشنز بنا سکتے ہیں، بشمول:
- آف لائن تقریر کی شناخت: صارفین کو انٹرنیٹ کنکشن کے بغیر صوتی کمانڈز کا استعمال کرتے ہوئے اپنے آلات کو کنٹرول کرنے کی اجازت دینا۔
- ریئل ٹائم امیج کی شناخت: صارفین کو کلاؤڈ پر امیجز اپ لوڈ کیے بغیر ان میں موجود اشیاء کی شناخت کرنے کی اجازت دینا۔
- سمارٹ ٹیکسٹ جنریشن: صارفین کو مختلف قسم کے متن تیار کرنے کی اجازت دینا، جیسے کہ ای میلز، مضامین اور کوڈ۔