گوگل کا انقلابی AI: سادہ ٹیکسٹ کمانڈز سے تصویر میں ترمیم

تصویری ہیرا پھیری کا ایک نیا دور

بہت سے موجودہ AI امیج ٹولز کے برعکس جو بنیادی طور پر شروع سے مکمل طور پر نئی تصاویر بنانے پر توجہ مرکوز کرتے ہیں، Gemini 2.0 Flash اپنی موجودہ تصاویر کو سمجھنے اور ان میں ترمیم کرنے کی صلاحیت کے ذریعے خود کو ممتاز کرتا ہے۔ یہ سسٹم کسی تصویر کے مواد کو اتنی اچھی طرح سمجھتا ہے کہ یہ بات چیت کی ہدایات کی بنیاد پر مخصوص تبدیلیاں کر سکتا ہے، یہ سب کچھ اصل تصویر کے جوہر کو محفوظ رکھتے ہوئے کرتا ہے۔

یہ شاندار کارنامہ Gemini 2.0 کی مقامی طور پر ملٹی موڈل نوعیت کے ذریعے حاصل کیا گیا ہے۔ یہ بیک وقت متن اور تصاویر دونوں پر بغیر کسی رکاوٹ کے کارروائی کرتا ہے۔ ماڈل ذہانت سے تصاویر کو ‘ٹوکنز’ میں تبدیل کرتا ہے – وہی بنیادی اکائیاں جو یہ ٹیکسٹ پروسیسنگ کے لیے استعمال کرتا ہے۔ یہ اسے بصری مواد کو اسی عصبی راستوں کا استعمال کرتے ہوئے جوڑ توڑ کرنے کی اجازت دیتا ہے جسے وہ زبان کو سمجھنے کے لیے استعمال کرتا ہے۔ یہ متحد نقطہ نظر مختلف میڈیا اقسام کو سنبھالنے کے لیے علیحدہ، خصوصی ماڈلز کی ضرورت کو ختم کرتا ہے، پورے عمل کو ہموار کرتا ہے۔

گوگل نے اپنے سرکاری اعلان میں کہا، ‘Gemini 2.0 Flash ملٹی موڈل ان پٹ، بہتر استدلال، اور قدرتی زبان کی سمجھ کا فائدہ اٹھاتا ہے تاکہ تصاویر بنائی جاسکیں۔’ ‘تصور کریں کہ Gemini 2.0 Flash کو کہانی سنانے کے لیے استعمال کیا جا رہا ہے، اور یہ تصویروں کے ساتھ اس کی وضاحت کرتا ہے، کرداروں اور ترتیبات میں مستقل مزاجی کو برقرار رکھتا ہے۔ فیڈ بیک فراہم کریں، اور ماڈل کہانی کو ڈھال لے گا یا اپنی ڈرائنگ کے انداز میں ترمیم کرے گا۔’

یہ نقطہ نظر گوگل کو OpenAI جیسے حریفوں سے الگ کرتا ہے۔ جب کہ ChatGPT Dall-E 3 کا استعمال کرتے ہوئے تصاویر بنا سکتا ہے اور قدرتی زبان کو سمجھتے ہوئے اپنی تخلیقات پر تکرار کر سکتا ہے، یہ اس کو حاصل کرنے کے لیے ایک علیحدہ AI ماڈل پر انحصار کرتا ہے۔ جوہر میں، ChatGPT وژن کے لیے GPT-V، زبان کے لیے GPT-4o، اور امیج جنریشن کے لیے Dall-E 3 کے درمیان ایک پیچیدہ باہمی ربط کو ترتیب دیتا ہے۔ تاہم، OpenAI مستقبل کے GPT-5 کے ساتھ ایک واحد، ہمہ جہت ماڈل حاصل کرنے کی توقع رکھتا ہے۔

ایک متوازی تصور اوپن سورس دائرے میں OmniGen کے ساتھ موجود ہے، جسے بیجنگ اکیڈمی آف آرٹیفیشل انٹیلی جنس کے محققین نے تیار کیا ہے۔ اس کے تخلیق کار ‘زبان کی نسل میں GPT کے کام کرنے کے طریقے کی طرح، اضافی پلگ ان یا آپریشنز کی ضرورت کے بغیر، من مانی طور پر ملٹی موڈل ہدایات کے ذریعے براہ راست مختلف قسم کی تصاویر بنانے’ کا تصور کرتے ہیں۔

OmniGen آبجیکٹ میں تبدیلی، منظر کو ضم کرنے، اور جمالیاتی ایڈجسٹمنٹ جیسی صلاحیتوں کا حامل ہے۔ تاہم، یہ نئے Gemini کے مقابلے میں کافی کم صارف دوست ہے، کم ریزولوشنز کے ساتھ کام کرتا ہے، زیادہ پیچیدہ کمانڈز کا مطالبہ کرتا ہے، اور بالآخر گوگل کی پیشکش کی سراسر طاقت کا فقدان ہے۔ بہر حال، یہ مخصوص صارفین کے لیے ایک زبردست اوپن سورس متبادل پیش کرتا ہے۔

Gemini 2.0 Flash کا تجربہ

Gemini 2.0 Flash کی صلاحیتوں اور حدود کو صحیح معنوں میں سمجھنے کے لیے، مختلف ترمیمی منظرناموں کی تلاش میں، عملی تجربات کا ایک سلسلہ منعقد کیا گیا۔ نتائج متاثر کن طاقتوں اور بہتری کے لیے کچھ شعبوں دونوں کو ظاہر کرتے ہیں۔

حقیقی مضامین میں درستگی کے ساتھ ترمیم کرنا

ماڈل حقیقی مضامین میں ترمیم کرنے کا کام سونپے جانے پر قابل ذکر ہم آہنگی کا مظاہرہ کرتا ہے۔ مثال کے طور پر، سیلف پورٹریٹ ٹیسٹ میں، پٹھوں کی تعریف شامل کرنے کی درخواست نے مطلوبہ نتیجہ دیا۔ اگرچہ چہرے میں معمولی تبدیلیاں ہوئیں، لیکن مجموعی طور پر پہچان برقرار رہی۔

اہم طور پر، تصویر کے اندر موجود دیگر عناصر بڑی حد تک اچھوتے رہے، جس سے AI کی صرف مخصوص ترمیم پر توجہ مرکوز کرنے کی صلاحیت کا مظاہرہ ہوتا ہے۔ یہ ٹارگٹڈ ایڈیٹنگ کی صلاحیت عام تخلیقی طریقوں سے بالکل متصادم ہے جو اکثر پوری تصاویر کو دوبارہ تعمیر کرتی ہیں، ممکنہ طور پر ناپسندیدہ تبدیلیاں متعارف کراتی ہیں۔

ماڈل کے بلٹ ان حفاظتی انتظامات کو نوٹ کرنا بھی ضروری ہے۔ یہ بچوں کی تصاویر میں ترمیم کرنے سے مسلسل انکار کرتا ہے اور عریانیت سے متعلق کسی بھی مواد کو سنبھالنے سے گریز کرتا ہے، جو ذمہ دار AI ترقی کے لیے گوگل کے عزم کی عکاسی کرتا ہے۔ مزید خطرناک تصویری ہیرا پھیری کو دریافت کرنے کے خواہاں صارفین کے لیے، OmniGen ایک زیادہ موزوں آپشن ہو سکتا ہے۔

اسٹائل ٹرانسفارمیشنز میں مہارت حاصل کرنا

Gemini 2.0 Flash اسٹائل کنورژنز کے لیے ایک قابل ذکر اہلیت کا مظاہرہ کرتا ہے۔ ڈونلڈ ٹرمپ کی ایک تصویر کو جاپانی مانگا کے انداز میں تبدیل کرنے کی درخواست نے چند کوششوں کے بعد ایک کامیاب دوبارہ تصور کیا۔

ماڈل مہارت سے اسٹائل ٹرانسفرز کے ایک وسیع اسپیکٹرم کو ہینڈل کرتا ہے، تصاویر کو ڈرائنگ، آئل پینٹنگز، یا عملی طور پر کسی بھی فنکارانہ انداز میں تبدیل کرتا ہے۔ صارفین درجہ حرارت کی ترتیبات کو ایڈجسٹ کرکے اور مختلف فلٹرز کو ٹوگل کرکے نتائج کو ٹھیک کر سکتے ہیں۔ تاہم، یہ بات قابل غور ہے کہ درجہ حرارت کی اعلیٰ ترتیبات ایسے ٹرانسفارمیشنز پیدا کرتی ہیں جو اصل تصویر کے لیے کم وفادار ہوتے ہیں۔

ایک قابل ذکر حد اس وقت سامنے آتی ہے جب مخصوص فنکاروں سے وابستہ طرزوں کی درخواست کی جاتی ہے۔ لیونارڈو ڈا ونچی، مائیکل اینجیلو، بوٹیسیلی، یا وان گوگ کے طرزوں پر مشتمل ٹیسٹوں کے نتیجے میں AI نے ان ماسٹرز کی اصل پینٹنگز کو دوبارہ پیش کیا، بجائے اس کے کہ ان کی الگ الگ تکنیکوں کو سورس امیج پر لاگو کیا جائے۔

کچھ پرامپٹ ریفائنمنٹ اور چند تکرار کے ساتھ، ایک قابل استعمال، اگرچہ معمولی، نتیجہ حاصل کیا جا سکتا ہے۔ عام طور پر، مخصوص فنکار کے بجائے مطلوبہ آرٹ اسٹائل کو پرامپٹ کرنا زیادہ موثر ہے۔

عنصر کی ہیرا پھیری کا فن

عملی ترمیمی کاموں کے لیے، Gemini 2.0 Flash واقعی بہترین ہے۔ یہ مہارت سے ان پینٹنگ اور آبجیکٹ ہیرا پھیری کو ہینڈل کرتا ہے، درخواست پر مخصوص اشیاء کو بغیر کسی رکاوٹ کے ہٹاتا ہے یا کمپوزیشن میں نئے عناصر شامل کرتا ہے۔ ایک ٹیسٹ میں، AI کو ایک باسکٹ بال کو ایک بڑے ربڑ کے چکن سے بدلنے کا اشارہ دیا گیا، جس سے ایک مزاحیہ لیکن سیاق و سباق کے لحاظ سے مناسب نتیجہ نکلا۔

اگرچہ مضامین میں کبھی کبھار معمولی تبدیلیاں ہو سکتی ہیں، لیکن یہ عام طور پر سیکنڈوں کے معاملے میں معیاری ڈیجیٹل ایڈیٹنگ ٹولز کے ساتھ آسانی سے درست کی جا سکتی ہیں۔

شاید سب سے زیادہ متنازعہ طور پر، ماڈل کاپی رائٹ کے تحفظات کو ہٹانے میں مہارت کا مظاہرہ کرتا ہے – ایک ایسی خصوصیت جس نے X جیسے پلیٹ فارمز پر کافی بحث چھیڑ دی ہے۔ جب واٹر مارکس والی تصویر پیش کی گئی اور تمام حروف، لوگو اور واٹر مارکس کو ختم کرنے کی ہدایت کی گئی، تو Gemini نے ایک صاف ستھری تصویر تیار کی جو عملی طور پر غیر واٹر مارک شدہ اصل سے الگ نہیں تھی۔

نقطہ نظر کی تبدیلیوں کو نیویگیٹ کرنا

Gemini کے سب سے زیادہ تکنیکی طور پر متاثر کن پہلوؤں میں سے ایک نقطہ نظر کو تبدیل کرنے کی صلاحیت ہے – ایک ایسا کارنامہ جس کے ساتھ مرکزی دھارے کے ڈفیوژن ماڈلز عام طور پر جدوجہد کرتے ہیں۔ AI ایک منظر کو مختلف زاویوں سے دوبارہ تصور کر سکتا ہے، حالانکہ نتائج بنیادی طور پر نئی تخلیقات ہیں نہ کہ اصل کی درست تبدیلیاں۔

جبکہ نقطہ نظر کی تبدیلیاں بے عیب نتائج نہیں دیتی ہیں – ماڈل، آخر کار، دو جہتی ان پٹ کی بنیاد پر سہ جہتی جگہ کی AI کی سمجھ میں ایک اہم پیش رفت کی نمائندگی کرتا ہے۔

پس منظر میں ہیرا پھیری کرنے کے لیے ماڈل کو ہدایت دیتے وقت مناسب جملہ بندی بہت ضروری ہے۔ یہ اکثر پوری تصویر میں ترمیم کرتا ہے، جس کے نتیجے میں ایک بالکل مختلف کمپوزیشن ہوتی ہے۔

مثال کے طور پر، ایک ٹیسٹ میں، Gemini سے کہا گیا کہ وہ ایک تصویر کا پس منظر تبدیل کرے، ایک بیٹھے ہوئے روبوٹ کو اس کے اصل مقام کی بجائے مصر میں رکھے۔ ہدایت میں واضح طور پر کہا گیا ہے کہ موضوع کو تبدیل نہ کیا جائے۔ تاہم، ماڈل نے اس مخصوص کام کو درست طریقے سے سنبھالنے کے لیے جدوجہد کی، اس کے بجائے اہرام کی خصوصیات والی ایک مکمل طور پر نئی کمپوزیشن فراہم کی، جس میں ایک روبوٹ کھڑا تھا، لیکن بنیادی توجہ کے طور پر نہیں۔

ایک اور مشاہدہ شدہ حد یہ ہے کہ جب کہ ماڈل ایک ہی تصویر پر کئی بار تکرار کر سکتا ہے، تفصیلات کا معیار ہر لگاتار تکرار کے ساتھ کم ہوتا جاتا ہے۔ لہذا، وسیع ترامیم کرتے وقت ممکنہ معیار کے انحطاط کو ذہن میں رکھنا ضروری ہے۔

یہ تجرباتی ماڈل فی الحال Google AI Studio اور Gemini API کے ذریعے تمام معاون علاقوں میں ڈویلپرز کے لیے قابل رسائی ہے۔ یہ ان صارفین کے لیے Hugging Face پر بھی دستیاب ہے جو گوگل کے ساتھ اپنی معلومات شیئر نہ کرنے کو ترجیح دیتے ہیں۔

آخر میں، گوگل کی جانب سے یہ نئی پیشکش ایک پوشیدہ جوہر معلوم ہوتی ہے، بالکل NotebookLM کی طرح۔ یہ کچھ ایسا حاصل کرتا ہے جو دوسرے ماڈلز نہیں کر سکتے، اور یہ مہارت کی ایک اچھی سطح کے ساتھ ایسا کرتا ہے، پھر بھی یہ نسبتاً ریڈار کے نیچے رہتا ہے۔ یہ بلاشبہ ان صارفین کے لیے دریافت کرنے کے قابل ہے جو تصویری ترمیم میں تخلیقی AI کی صلاحیت کے ساتھ تجربہ کرنا چاہتے ہیں اور راستے میں کچھ تخلیقی تفریح ​​کرنا چاہتے ہیں۔ سادہ زبان میں مطلوبہ تبدیلیوں کو بیان کرنے کی صلاحیت آرام دہ صارفین اور پیشہ ور افراد دونوں کے لیے امکانات کی ایک دنیا کھولتی ہے، جو تصویری ہیرا پھیری کو جمہوری بنانے میں ایک اہم قدم کی نشاندہی کرتی ہے۔ اس ٹیکنالوجی میں بصری مواد کے ساتھ ہمارے تعامل کے طریقے کو نئی شکل دینے کی صلاحیت ہے، جس سے جدید ترمیمی تکنیکوں کو ہر کسی کے لیے قابل رسائی بنایا جا سکتا ہے، قطع نظر اس کی کہ ان کی تکنیکی مہارتیں کیا ہیں۔ اس کے مضمرات وسیع ہیں، ذاتی تصویر میں اضافہ سے لے کر پیشہ ورانہ ڈیزائن کے کام کے بہاؤ تک، اور یہاں تک کہ بصری فن کی مکمل طور پر نئی شکلوں کی تخلیق تک۔ جیسے جیسے ٹیکنالوجی تیار ہوتی رہتی ہے، تخلیقی منظر نامے پر اس کے اثرات کو دیکھنا دلچسپ ہوگا۔