گوگل نے I/O 2025 میں اپنے Gemini 2.5 ماڈل سیریز میں انقلابی اپڈیٹس کی ایک سیریز کا اعلان کیا، اور اس کے ساتھ ہی ایک جدید تجرباتی فیچر، ڈیپ تھنک (Deep Think) بھی متعارف کرایا گیا، جو کہ 2.5 پرو (2.5 Pro) ماڈل کی استدلال کی صلاحیتوں کو بڑھانے کے لیے ڈیزائن کیا گیا ہے۔ یہ پیش رفت مصنوعی ذہانت کے میدان میں ایک اہم قدم ہے، جو ڈویلپرز (developers) اور صارفین کو یکساں طور پر کارکردگی، افادیت اور استعداد کی بے مثال سطحیں فراہم کرتی ہے۔
Gemini 2.5 پرو ماڈل نے کوڈنگ (coding) کے کاموں کے لیے ایک بہترین حل کے طور پر ڈویلپرز سے وسیع پیمانے پر تعریف حاصل کی ہے، جبکہ 2.5 فلیش (2.5 Flash) ماڈل کو ایک اہم اپ گریڈ ملنے والا ہے۔ مزید یہ کہ گوگل اپنے ماڈلز میں نئی صلاحیتوں کی ایک رینج متعارف کروا رہا ہے، جس میں ڈیپ تھنک (Deep Think) بھی شامل ہے، جو کہ ایک تجرباتی بہتر استدلال موڈ ہے، جو خاص طور پر 2.5 پرو ماڈل کے لیے تیار کیا گیا ہے۔
ایک سابقہ اعلان میں، گوگل نے Gemini 2.5 پرو کی نقاب کشائی کی، جو کہ اب تک کا اس کا سب سے ذہین ماڈل ہے، اور ڈویلپرز کو غیر معمولی ویب (web) ایپلی کیشنز (applications) بنانے کے لیے بااختیار بنانے کے لیے اس کی I/O اپڈیٹ کی ریلیز (release) میں تیزی لائی گئی۔ آج، کمپنی Gemini 2.5 ماڈل سیریز میں مزید اصلاحات شیئر (share) کر رہی ہے، جو قابل ذکر کامیابیوں پر فخر کرتی ہے:
Gemini 2.5 پرو نے تمام توقعات کو پیچھے چھوڑ دیا ہے، اور تعلیمی بینچ مارکس (benchmarks) پر غیر معمولی کارکردگی کا مظاہرہ کیا ہے۔ اب یہ WebDev Arena اور LMArena لیڈر بورڈ (leaderboards) پر سرفہرست مقام رکھتا ہے، اور کوڈنگ اور سیکھنے کی معاونت کے لیے دنیا کے معروف ماڈل کے طور پر اپنی حیثیت کو مستحکم کرتا ہے۔
نئی خصوصیات کو 2.5 پرو اور 2.5 فلیش دونوں میں ضم کیا جا رہا ہے، جس میں زیادہ قدرتی اور دل چسپ مکالماتی تجربے کے لیے مقامی آڈیو آؤٹ پٹ (audio output)، جدید حفاظتی اقدامات، اور پروجیکٹ میرینر (Project Mariner) کی کمپیوٹر (computer) کے استعمال کی صلاحیتوں کا انضمام شامل ہے۔ 2.5 پرو ماڈل کو ڈیپ تھنک (Deep Think) کے ساتھ مزید بہتر کیا جائے گا، جو کہ ایک تجرباتی موڈ ہے، جو پیچیدہ ریاضیاتی اور کوڈنگ کے مسائل کے لیے استدلال کو بہتر بنانے کے لیے ڈیزائن کیا گیا ہے۔
گوگل Gemini API اور Vertex AI میں سوچ کے خلاصوں کے انضمام کے ذریعے ڈویلپر کے تجربے کو بہتر بنانے کے لیے پرعزم ہے۔ یہ خلاصے زیادہ شفافیت، 2.5 پرو کے لیے توسیعی سوچ کے بجٹ پیش کرتے ہیں تاکہ زیادہ سے زیادہ کنٹرول (control) کو یقینی بنایا جا سکے، اور اوپن سورس (open-source) ٹولز (tools) کی وسیع رینج تک رسائی کے لیے Gemini API اور SDK میں MCP ٹولز (tools) کے لیے سپورٹ (support) فراہم کرتے ہیں۔
2.5 فلیش ماڈل اب Gemini ایپ میں عالمی طور پر دستیاب ہے۔ ایک اپڈیٹڈ (updated) ورژن (version) جلد ہی گوگل AI سٹوڈیو (Google AI Studio) میں ڈویلپرز اور Vertex AI میں انٹرپرائزز (enterprises) کے لیے دستیاب ہوگا، جو جون کے اوائل میں متوقع ہے، اور اس کے بعد 2.5 پرو بھی دستیاب ہوگا۔
یہ قابل ذکر پیش رفت گوگل کی ٹیموں کی انتھک لگن کا نتیجہ ہے، جو اپنی ٹیکنالوجیز (technologies) کو مسلسل بہتر بنانے اور انہیں محفوظ اور ذمہ دارانہ طریقے سے تعینات کرنے کے لیے پرعزم ہیں۔
2. 5 پرو کی اعلیٰ کارکردگی کا انکشاف
- 5 پرو ماڈل کو حال ہی میں ڈویلپرز کو زیادہ انٹرایکٹو (interactive) اور فیچر رچ (feature-rich) ویب ایپلی کیشنز بنانے کے لیے بااختیار بنانے کے لیے اپڈیٹ (update) کیا گیا ہے۔ صارفین اور ڈویلپرز کی طرف سے موصول ہونے والی مثبت آراء کو بہت سراہا جاتا ہے، اور صارف کے ان پٹ (input) کی بنیاد پر جاری بہتری کو نافذ کرنا جاری رہے گا۔
تعلیمی بینچ مارکس پر اس کی شاندار کارکردگی کے علاوہ، 2.5 پرو کے تازہ ترین تکرار نے مقبول کوڈنگ لیڈر بورڈ، WebDev Arena پر بھی سرفہرست مقام حاصل کیا ہے، جس میں 1415 کا متاثر کن ای ایل او (ELO) اسکور (score) ہے۔ یہ LMArena کے تمام لیڈر بورڈ میں بھی سبقت رکھتا ہے، جو مختلف معیاروں کی بنیاد پر انسانی ترجیح کا جائزہ لیتا ہے۔ مزید یہ کہ 1 ملین ٹوکن (token) کنٹیکسٹ (context) ونڈو (window) سے لیس، 2.5 پرو طویل کنٹیکسٹ اور ویڈیو (video) کی تفہیم میں اسٹیٹ آف دی آرٹ (state-of-the-art) کارکردگی فراہم کرتا ہے۔
LearnLM کو ضم کرتے ہوئے، تعلیمی ماہرین کے اشتراک سے تیار کردہ ماڈلز کا ایک خاندان، 2.5 پرو سیکھنے کے لیے ایک بہترین ماڈل بن گیا ہے۔ براہ راست موازنہ میں اس کی تدریس اور تاثیر کا جائزہ لیتے ہوئے، اساتذہ اور ماہرین نے مختلف منظرناموں میں Gemini 2.5 پرو کو دوسرے ماڈلز پر ترجیح دی۔ اس نے سیکھنے کے سائنس کے تمام پانچ اصولوں میں بھی سرفہرست ماڈلز کو پیچھے چھوڑ دیا، جو سیکھنے کے لیے AI سسٹم (system) بنانے کے لیے استعمال ہوتے ہیں۔ یہ تعلیمی سیاق و سباق میں اس کی تاثیر کو اجاگر کرتا ہے، جو تیار کردہ اور موثر تدریسی حکمت عملی پیش کرتا ہے۔
ڈیپ تھنک: استدلال کی حدود کو آگے بڑھانا
گوگل Gemini کی علمی صلاحیتوں کی حدود کو فعال طور پر تلاش کر رہا ہے اور ایک بہتر استدلال موڈ کے ساتھ تجربہ کرنا شروع کر رہا ہے جسے ڈیپ تھنک (Deep Think) کہا جاتا ہے۔ یہ جدید موڈ جدید ریسرچ (research) تکنیکوں کو استعمال کرتا ہے، جو ماڈل کو جواب تیار کرنے سے پہلے متعدد مفروضوں کا جائزہ لینے کے قابل بناتا ہے۔ یہ نقطہ نظر فیصلہ سازی کے عمل کو بہتر بناتا ہے، جس سے پیچیدہ حالات میں زیادہ نفیس اور باریک نتائج برآمد ہوتے ہیں۔
Gemini 2.5 پرو ڈیپ تھنک نے 2025 کے USAMO پر ایک متاثر کن اسکور حاصل کیا، جو وسیع پیمانے پر سب سے مشکل ریاضیاتی بینچ مارکس میں سے ایک کے طور پر تسلیم کیا جاتا ہے۔ یہ LiveCodeBench پر بھی بہترین کارکردگی کا مظاہرہ کرتا ہے، جو مسابقت کی سطح کی کوڈنگ کے لیے ایک مطالبہ کرنے والا بینچ مارک ہے، اور MMMU پر 84.0 فیصد اسکور حاصل کرتا ہے، جو ملٹی ماڈل (multimodal) استدلال کا جائزہ لیتا ہے۔ یہ نتائج پیچیدہ کاموں کو سنبھالنے میں ڈیپ تھنک کی غیر معمولی کارکردگی کو اجاگر کرتے ہیں، جو جدید AI مسئلہ حل کرنے کے لیے ایک امید افزا مستقبل کی تجویز کرتے ہیں۔
اس بات کو مدنظر رکھتے ہوئے کہ 2.5 پرو ڈیپ تھنک اس بات کی سرحدوں کو آگے بڑھا رہا ہے کہ کیا ممکن ہے، گوگل اضافی وقت لے رہا ہے تاکہ حفاظتی تشخیصات کی مکمل جانچ پڑتال کی جا سکے اور حفاظتی ماہرین سے مزید ان پٹ حاصل کیے جا سکیں۔ کمپنی منتخب ٹیسٹرز (testers) کو Gemini API تک رسائی بھی فراہم کرے گی تاکہ اسے وسیع پیمانے پر دستیاب کرنے سے پہلے آراء جمع کی جا سکیں۔ یہ محتاط اور جان بوجھ کر کیا جانے والا نقطہ نظر جدید AI ٹیکنالوجی کی ذمہ دارانہ تعیناتی کو یقینی بنانے کا ارادہ رکھتا ہے۔
ایک بہتر 2.5 فلیش متعارف کرانا
- 5 فلیش ماڈل، جو اپنی افادیت اور کفایت شعاری کے لیے جانا جاتا ہے، کو متعدد جہتوں میں بہتر بنایا گیا ہے۔ اس نے استدلال، ملٹی ماڈلیٹی، کوڈ ہینڈلنگ (code handling) اور طویل کنٹیکسٹ کے لیے اہم بینچ مارکس پر بہتری دکھائی ہے، جبکہ بیک وقت زیادہ موثر ہوتا جا رہا ہے، تشخیص میں 20-30 فیصد کم ٹوکن استعمال کر رہا ہے۔ یہ اس کی بہتر کارکردگی اور وسائل کے انتظام کو اجاگر کرتا ہے۔
نیا 2.5 فلیش فی الحال ڈویلپرز کے لیے گوگل AI اسٹوڈیو میں، انٹرپرائز ایپلی کیشنز کے لیے Vertex AI میں، اور عام صارفین کے لیے Gemini ایپ میں پیش نظارہ کے لیے دستیاب ہے۔ یہ جون کے اوائل میں عام دستیابی کے لیے طے شدہ ہے، جو اسے پیداواری ماحول کے لیے قابل رسائی بناتا ہے۔
Gemini 2.5 کی نئی صلاحیتیں
نیٹیو آڈیو آؤٹ پٹ اور لائیو API میں اضافہ
لائیو API آڈیو ویژوول (audio-visual) ان پٹ اور نیٹیو آڈیو آؤٹ پٹ ڈائیلاگ (dialogue) کا پیش نظارہ ورژن متعارف کراتا ہے، جو صارفین کو Gemini کے ساتھ زیادہ قدرتی اور تاثراتی مکالماتی تجربات تخلیق کرنے کے قابل بناتا ہے۔ یہ فیچر زیادہ دل چسپ اور انٹرایکٹو ایپلی کیشنز کو قابل بناتا ہے۔ AI کی جانب سے زندگی سے بھرپور آڈیو جوابات تیار کرنے کی صلاحیت صارف کے تعامل کو نمایاں طور پر بڑھاتی ہے، اور بات چیت کرنے کا زیادہ بدیہی طریقہ تخلیق کرتی ہے۔
لائیو API صارفین کو ماڈل کے لہجے، تلفظ اور بولنے کے انداز کو چلانے کی طاقت دیتا ہے۔ مثال کے طور پر، ماڈل کو ہدایت کی جا سکتی ہے کہ وہ کہانی بیان کرتے وقت ڈرامائی آواز اپنائے۔ یہ ٹول کے استعمال کی بھی حمایت کرتا ہے، جس سے اسے صارف کی جانب سے تلاشیاں کرنے کی اجازت ملتی ہے۔ آواز کے کنٹرول میں لچک اور بیرونی ٹولز تک رسائی ماڈل کو غیر معمولی طور پر ورسٹائل اور مختلف ایپلی کیشن منظرناموں میں قیمتی بناتی ہے۔
صارفین مختلف ابتدائی خصوصیات کے ساتھ تجربہ کر سکتے ہیں، بشمول:
متاثر کن ڈائیلاگ: ماڈل صارف کی آواز میں جذبات کا پتہ لگاتا ہے اور اس کے مطابق جواب دیتا ہے۔ یہ فعالیت AI میں جذباتی ذہانت کی تہیں شامل کرتی ہے، جس سے تعامل زیادہ ذاتی نوعیت کا ہو جاتا ہے۔
فعال آڈیو: ماڈل پس منظر کی گفتگو کو نظر انداز کرتا ہے اور جانتا ہے کہ کب جواب دینا ہے، مداخلتوں کو کم سے کم کرتا ہے اور وضاحت کو بہتر بناتا ہے۔ یہ فیچر تعامل کے معیار کو بڑھاتا ہے، جس سے زیادہ موثر اور مرکوز مواصلات کی اجازت ملتی ہے۔
لائیو API میں سوچنا: ماڈل زیادہ پیچیدہ کاموں میں مدد کے لیے Gemini کی سوچنے کی صلاحیتوں کو استعمال کرتا ہے۔ یہ پیچیدہ کاموں سے نمٹنے کے وقت گہرے تجزیے اور غور و فکر کی اجازت دیتا ہے، جو اسے ان شعبوں میں غیر معمولی طور پر قیمتی بناتا ہے جن میں درست اور بصیرت افروز حل کی ضرورت ہوتی ہے۔
گوگل 2.5 پرو اور 2.5 فلیش دونوں میں ٹیکسٹ ٹو اسپیچ (text-to-speech) فعالیت کے لیے نئے پیش نظارے بھی جاری کر رہا ہے۔ یہ متعدد اسپیکرز (speakers) کے لیے اپنی نوعیت کی پہلی سپورٹ فراہم کرتے ہیں، جو مقامی آڈیو آؤٹ پٹ کے ذریعے دو آوازوں کے ساتھ ٹیکسٹ ٹو اسپیچ کو فعال کرتے ہیں۔ یہ فیچر خاص طور پر ملٹی میڈیا ایپلی کیشنز میں دل چسپ بیانیے اور ڈائیلاگز تخلیق کرنے کے لیے قیمتی ہے۔
نیٹیو آڈیو ڈائیلاگ کی طرح، ٹیکسٹ ٹو اسپیچ بھی تاثراتی ہے اور باریک باریکیوں کو حاصل کر سکتا ہے، جیسے کہ سرگوشیاں۔ یہ 24 سے زیادہ زبانوں کی حمایت کرتا ہے اور ان کے درمیان بغیر کسی رکاوٹ کے تبدیل ہوتا ہے، جو اسے عالمی مواصلات کے لیے ایک ورسٹائل ٹول بناتا ہے۔ زبان کے استعمال میں یہ نزاکتیں صارف کے تجربے کو تقویت بخشتی ہیں، اور زیادہ باریک اور ذاتی نوعیت کے مواصلاتی عمل کو آسان بناتی ہیں۔
یہ ٹیکسٹ ٹو اسپیچ کی صلاحیت آج بعد میں Gemini API میں دستیاب ہوگی۔
بہتر کمپیوٹر انٹرفیس
گوگل پروجیکٹ میرینر کی کمپیوٹر کے استعمال کی صلاحیتوں کو Gemini API اور Vertex AI میں متعارف کرا رہا ہے۔ فارورڈ تھنکنگ کمپنیاں جیسے کہ آٹومیشن اینی ویئر (Automation Anywhere)، یو آئی پاتھ (UiPath)، براؤزر بیس (Browserbase)، آٹو ٹیب (Autotab)، دی انٹرایکشن کمپنی (The Interaction Company)، اور کارٹ وہیل (Cartwheel) اس کی صلاحیت کو تلاش کر رہی ہیں۔ گوگل ڈویلپرز کے لیے اس موسم گرما میں اس صلاحیت کے ساتھ تجربہ کرنے کے لیے ایک وسیع رول آؤٹ کا منتظر ہے، جو جدید منصوبوں اور حلوں کی راہ ہموار کرتا ہے۔ AI ماڈلز کو براہ راست کمپیوٹر انٹرفیس کے ساتھ ضم کرنے کی صلاحیت متنوع صنعتوں میں زیادہ ہموار، نتیجہ خیز ورک فلو (workflow) حل کی طرف لے جاتی ہے۔
اعلیٰ حفاظتی تدابیر
گوگل نے حفاظتی خطرات، جیسے کہ بالواسطہ پرامپٹ انجیکشنز (prompt injections) کے خلاف اپنی حفاظت کو نمایاں طور پر مضبوط کیا ہے۔ اس میں AI ماڈل کے ذریعے بازیافت کردہ ڈیٹا میں بدنیتی پر مبنی ہدایات کو ایمبیڈ (embed) کرنا شامل ہے۔ گوگل کے نئے حفاظتی نقطہ نظر نے ٹول کے استعمال کے دوران بالواسطہ پرامپٹ انجیکشن حملوں کے خلاف Gemini کی تحفظ کی شرح میں نمایاں اضافہ کیا ہے، جس سے Gemini 2.5 اب تک کا سب سے محفوظ ماڈل خاندان بن گیا ہے۔ یہ بہتر حفاظت صارفین کو AI سے چلنے والے حلوں کو اپنانے کے وقت محفوظ اور قابل اعتماد تجربے کا یقین دلاتی ہے۔
ایک بہتر ڈویلپر کا تجربہ
سوچ کے خلاصے
اب 2.5 پرو اور فلیش دونوں میں Gemini API اور Vertex AI میں سوچ کے خلاصے شامل ہوں گے۔ یہ خلاصے ماڈل کی خام سوچوں کو لیتے ہیں اور انہیں ہیڈر (header)، اہم تفصیلات، اور ماڈل ایکشنز (actions) کے بارے میں معلومات کے ساتھ ایک واضح فارمیٹ میں منظم کرتے ہیں، جیسے کہ وہ ٹولز کب استعمال کرتے ہیں۔ AI کے تجزیاتی عمل میں بصیرت پیش کرتے ہوئے، سوچ کے خلاصے AI سسٹم کے اندر مسائل کو سمجھنے اور ڈیبگ (debug) کرنے میں مدد کرتے ہیں، کارکردگی اور سسٹم ڈیزائن کو بہتر بناتے ہیں۔
ماڈل کے سوچنے کے عمل پر زیادہ منظم، ہموار فارمیٹ کے ساتھ، ڈویلپرز اور صارفین کو Gemini ماڈلز کے ساتھ تعامل کو سمجھنا اور ڈیبگ کرنا آسان لگے گا۔
سوچنے کے بجٹ
گوگل نے دیر (latency) اور معیار کو متوازن کرکے لاگت پر زیادہ کنٹرول دینے کے لیے سوچنے کے بجٹ کے ساتھ 2.5 فلیش لانچ (launch) کیا۔ یہ صلاحیت اب 2.5 پرو تک بڑھا دی گئی ہے، جو آپ کو زیادہ باریک ٹیوننگ (tuning) کے اختیارات فراہم کرتی ہے۔ استعمال کیے گئے ٹوکنز کو کنٹرول کرکے اور وسائل کو بہتر بنا کر، ڈویلپرز حسابی لاگت اور حل کی تاثیر کے درمیان مناسب توازن حاصل کر سکتے ہیں، جس سے AI کا نفاذ اقتصادی اور موثر دونوں ہو جاتا ہے۔
یہ اس بات پر مکمل کنٹرول کی اجازت دیتا ہے کہ ماڈل جواب دینے سے پہلے کتنے ٹوکن استعمال کرتا ہے تاکہ وہ سوچ سکے، یا یہاں تک کہ اس کے سوچنے کی صلاحیتوں کو بند بھی کر سکے۔
بجٹ کے ساتھ Gemini 2.5 پرو آنے والے ہفتوں میں عام طور پر دستیاب ماڈل کے ساتھ مستحکم پیداوار کے استعمال کے لیے عام طور پر دستیاب ہوگا۔
MCP ٹولز کے لیے سپورٹ
گوگل نے اوپن سورس ٹولز کے ساتھ آسان انضمام کے لیے Gemini API میں ماڈل کنٹیکسٹ پروٹوکول (Model Context Protocol) (MCP) کی تعریفوں کے لیے مقامی SDK سپورٹ شامل کی ہے۔ مختلف تعیناتی کے طریقوں، جیسے کہ MCP سرورز اور ہوسٹڈ ٹولز (hosted tools) کو تلاش کیا جاتا ہے تاکہ صارفین کے لیے ایجنٹک ایپلی کیشنز (agentic applications) بنانا آسان بنایا جا سکے۔ یہ ٹول انضمام اور پروجیکٹس پر تعاون کے لیے اختیارات کی وسیع رینج کے ذریعے AI ڈویلپمنٹ کے ماحول کو بہتر بناتا ہے۔
ماڈلز اور ڈویلپر کے تجربے کو بہتر بنانے کے لیے جاری عزم میں مسلسل جدت طرازی کلیدی ہے، جو انہیں زیادہ موثر، پرفارمنٹ، اور ڈویلپر کی آراء کے لیے جواب دہ بناتی ہے۔ Gemini کی صلاحیتوں کی سرحد کو آگے بڑھانے کے لیے بنیادی تحقیق کی وسعت اور گہرائی پر دوگنا کریں۔ مستقبل میں مزید کچھ آنے والا ہے۔