رونمایی از جمینی: نسل بعدی خانواده هوش مصنوعی گوگل
جمینی (Gemini) ورود جاهطلبانه گوگل به نسل بعدی مدلهای هوش مصنوعی است. جمینی که از طریق تلاشهای مشترک DeepMind و Google Research، آزمایشگاههای تحقیقاتی پیشرو هوش مصنوعی گوگل، توسعه یافته است، یک موجودیت یکپارچه نیست، بلکه خانوادهای از مدلها است که هر کدام برای وظایف و سطوح عملکرد خاصی طراحی شدهاند. این خانواده شامل موارد زیر است:
- Gemini Ultra: قویترین عضو خانواده، طراحی شده برای وظایف بسیار پیچیده که به قدرت محاسباتی قابل توجهی نیاز دارند. (در حال حاضر در دسترس نیست)
- Gemini Pro: یک مدل قوی، کوچکتر از Ultra، اما قادر به انجام طیف گستردهای از وظایف. Gemini 2.0 Pro، آخرین نسخه، در حال حاضر به عنوان پرچمدار گوگل شناخته میشود.
- Gemini Flash: یک نسخه ساده و “تقطیر شده” از Pro، که سرعت و کارایی را در اولویت قرار میدهد.
- Gemini Flash-Lite: نسخه ای کمی کاهش یافته و سریعتر از Gemini Flash.
- Gemini Flash Thinking: مدلی که تواناییهای “استدلال” را به نمایش میگذارد.
- Gemini Nano: شامل دو مدل فشرده، Nano-1 و Nano-2 که کمی قویتر است، برای عملکرد آفلاین در دستگاهها مهندسی شده است.
یکی از ویژگیهای بارز تمام مدلهای جمینی، چندوجهی بودن ذاتی آنهاست. برخلاف مدلهایی که صرفاً بر روی دادههای متنی آموزش دیدهاند، مانند LaMDA گوگل، مدلهای جمینی در پردازش و تجزیه و تحلیل انواع دادههای متنوع مهارت دارند. آنها بر روی مجموعه داده عظیمی شامل صدا، تصاویر، ویدئوها، کدهای برنامه نویسی و متن به زبانهای مختلف، به صورت عمومی، اختصاصی و دارای مجوز، آموزش دیدهاند.
این ماهیت چندوجهی به جمینی اجازه میدهد تا از محدودیتهای مدلهای فقط متنی فراتر رود. در حالی که LaMDA به ورودی و خروجی مبتنی بر متن محدود میشود، مدلهای جمینی، به ویژه نسخههای جدیدتر Flash و Pro، میتوانند به طور بومی تصاویر و صدا را در کنار متن تولید کنند.
با این حال، پیامدهای اخلاقی و قانونی آموزش مدلهای هوش مصنوعی بر روی دادههای در دسترس عموم، که اغلب بدون رضایت صریح صاحبان داده انجام میشود، همچنان یک مسئله پیچیده است. در حالی که گوگل یک خطمشی جبران خسارت هوش مصنوعی را برای محافظت از مشتریان خاص Google Cloud در برابر دعاوی احتمالی ارائه میدهد، این خطمشی محدودیتهایی دارد. کاربران، به ویژه آنهایی که قصد دارند از جمینی برای مقاصد تجاری استفاده کنند، باید احتیاط کنند.
برنامههای جمینی در مقابل مدلهای جمینی: درک تمایز
بسیار مهم است که بین مدلهای جمینی و برنامههای جمینی موجود در پلتفرمهای وب و موبایل (که قبلاً به عنوان Bard شناخته میشد) تمایز قائل شویم.
برنامههای جمینی به عنوان کلاینت عمل میکنند، به مدلهای مختلف جمینی متصل میشوند و یک رابط کاربری دوستانه و شبیه چتبات ارائه میدهند. آنها به عنوان بخش جلویی برای تعامل با قابلیتهای هوش مصنوعی مولد گوگل عمل میکنند.
در دستگاههای Android، برنامه جمینی جایگزین برنامه Google Assistant میشود. در iOS، برنامههای Google و Google Search به عنوان کلاینتهای جمینی عمل میکنند.
کاربران Android میتوانند یک پوشش جمینی را برای پرسیدن سؤال در مورد محتوای نمایش داده شده روی صفحه نمایش خود، مانند یک ویدیوی YouTube، فراخوانی کنند. این پوشش با فشار دادن و نگه داشتن دکمه پاور تلفن هوشمند پشتیبانی شده یا با استفاده از دستور صوتی “Hey Google” فعال میشود.
برنامههای جمینی همهکاره هستند و تصاویر، دستورات صوتی و متن را به عنوان ورودی میپذیرند. آنها میتوانند فایلهایی مانند PDF را پردازش کنند، چه مستقیماً آپلود شوند و چه از Google Drive وارد شوند، و تصاویر تولید کنند. مکالمات آغاز شده با برنامههای جمینی در تلفن همراه، به شرطی که کاربر به همان حساب Google وارد شده باشد، به طور یکپارچه با جمینی در وب همگامسازی میشوند.
Gemini Advanced: باز کردن قفل ویژگیهای ممتاز هوش مصنوعی
برنامههای جمینی تنها دروازه استفاده از قدرت مدلهای جمینی نیستند. گوگل به تدریج در حال ادغام ویژگیهای مبتنی بر جمینی در برنامهها و خدمات اصلی خود، از جمله Gmail و Google Docs است.
برای استفاده کامل از این قابلیتها، کاربران معمولاً به Google One AI Premium Plan نیاز دارند. این طرح، که از نظر فنی جزئی از Google One است، ماهانه 20 دلار هزینه دارد و امکان دسترسی به جمینی را در برنامههای Google Workspace مانند Docs, Maps, Slides, Sheets, Drive و Meet فراهم میکند. همچنین “Gemini Advanced” را باز میکند و دسترسی به مدلهای پیشرفتهتر جمینی گوگل را در برنامههای جمینی فراهم میکند.
کاربران Gemini Advanced از مزایای دیگری مانند دسترسی اولویتدار به ویژگیها و مدلهای جدید، توانایی اجرای و اصلاح کد Python مستقیماً در جمینی و محدودیتهای گسترده برای NotebookLM، ابزار گوگل برای تبدیل PDF به پادکستهای تولید شده توسط هوش مصنوعی، برخوردار میشوند. یکی از ویژگیهای جدید Gemini Advanced، قابلیت حافظه است که ترجیحات کاربر را ذخیره میکند و جمینی را قادر میسازد تا به مکالمات گذشته ارجاع دهد و زمینهای برای تعاملات فعلی فراهم کند.
یکی از جذابترین ویژگیهای انحصاری Gemini Advanced، “Deep Research” است. این ویژگی از مدلهای جمینی با قابلیتهای استدلال پیشرفته برای تولید خلاصههای دقیق استفاده میکند. در پاسخ به یک درخواست، مانند “چگونه باید آشپزخانه خود را بازسازی کنم؟”، Deep Research یک برنامه تحقیقاتی چند مرحلهای را تدوین میکند، وب را جستجو میکند و یک پاسخ جامع را گردآوری میکند.
در Gmail، جمینی در یک پنل کناری قرار دارد و قادر به نوشتن ایمیل و خلاصهسازی رشتههای پیام است. یک پنل مشابه در Docs ظاهر میشود و به نوشتن، اصلاح و ایدهپردازی محتوا کمک میکند. در Slides، جمینی اسلایدها و تصاویر سفارشی تولید میکند. در Google Sheets، به ردیابی، سازماندهی و ایجاد فرمول دادهها کمک میکند.
حضور جمینی به Google Maps نیز گسترش مییابد، جایی که نظرات مربوط به مشاغل محلی را جمعآوری میکند و توصیههایی مانند پیشنهادات برنامه سفر برای بازدید از یک شهر خارجی ارائه میدهد. قابلیتهای چتبات Drive را نیز در بر میگیرد، جایی که میتواند فایلها و پوشهها را خلاصه کند و اطلاعات مختصری در مورد پروژهها ارائه دهد.
جمینی اخیراً به عنوان یک ابزار نوشتن هوش مصنوعی در مرورگر Chrome گوگل ادغام شده است. این ابزار میتواند برای ایجاد محتوای کاملاً جدید یا بازنویسی متن موجود استفاده شود و زمینه صفحه وب فعلی را در نظر میگیرد تا توصیههای مناسب ارائه دهد.
فراتر از این برنامههای اصلی، ردپای جمینی را میتوان در محصولات پایگاه داده گوگل، ابزارهای امنیت ابری و پلتفرمهای توسعه برنامه (از جمله Firebase و Project IDX) یافت. همچنین ویژگیهایی را در برنامههایی مانند Google Photos (جستجوی پرسوجوهای زبان طبیعی)، YouTube (ایدهپردازی ویدیو) و Meet (ترجمه زیرنویس) تقویت میکند.
Code Assist (که قبلاً Duet AI for Developers نامیده میشد)، مجموعه ابزارهای مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، برای کارهای فشرده محاسباتی به جمینی متکی است. به طور مشابه، محصولات امنیتی گوگل، مانند Gemini in Threat Intelligence، از جمینی برای تجزیه و تحلیل کدهای بالقوه مخرب و تسهیل جستجوهای زبان طبیعی برای تهدیدات و نشانههای نفوذ استفاده میکنند.
افزونهها و Gems جمینی: شخصیسازی تجربه هوش مصنوعی
کاربران Gemini Advanced میتوانند “Gems” ایجاد کنند، چتباتهای سفارشی که توسط مدلهای جمینی پشتیبانی میشوند و در هر دو پلتفرم دسکتاپ و موبایل قابل دسترسی هستند. Gems را میتوان از توضیحات زبان طبیعی تولید کرد، مانند “تو مربی دویدن من هستی. به من یک برنامه دویدن روزانه بده” و میتوان آنها را با سایر کاربران به اشتراک گذاشت یا خصوصی نگه داشت.
برنامههای جمینی میتوانند از طریق “افزونههای جمینی” با سرویسهای مختلف گوگل ادغام شوند. این افزونهها جمینی را قادر میسازند تا با Drive، Gmail، YouTube و سایر سرویسها تعامل داشته باشد و به آن اجازه میدهد به سؤالاتی مانند “آیا میتوانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد.
Gemini Live: شرکت در مکالمات صوتی عمیق
“Gemini Live” یک تجربه فراگیر را ارائه میدهد و به کاربران امکان میدهد در مکالمات صوتی دقیق با جمینی شرکت کنند. این ویژگی در برنامههای جمینی در دستگاههای تلفن همراه و در Pixel Buds Pro 2 در دسترس است، جایی که میتوان حتی زمانی که تلفن قفل است به آن دسترسی داشت.
با Gemini Live، کاربران میتوانند در حالی که جمینی صحبت میکند، حرف او را قطع کنند تا سؤالات توضیحی بپرسند، و چتبات با الگوهای گفتاری در زمان واقعی سازگار میشود. Live همچنین به گونهای طراحی شده است که به عنوان یک مربی مجازی عمل کند و به آمادهسازی رویداد، ایدهپردازی و سایر وظایف کمک کند. به عنوان مثال، Live میتواند مهارتهایی را برای برجسته کردن در طول مصاحبه شغلی پیشنهاد دهد و نکاتی در مورد سخنرانی عمومی ارائه دهد.
جمینی برای نوجوانان: یک تجربه هوش مصنوعی مناسب برای دانشآموزان
گوگل یک تجربه تخصصی جمینی را برای دانشآموزان نوجوان ارائه میدهد.
این نسخه متمرکز بر نوجوانان جمینی شامل “سیاستها و حفاظهای اضافی”، از جمله یک فرآیند ورود سفارشی و یک راهنمای سواد هوش مصنوعی است. جدا از این تغییرات، شباهت زیادی به تجربه استاندارد جمینی دارد، از جمله ویژگی “بررسی مجدد” که صحت پاسخهای جمینی را با ارجاع متقابل اطلاعات در وب تأیید میکند.
کاوش در قابلیتهای مدلهای جمینی
ماهیت چندوجهی مدلهای جمینی به آنها قدرت میدهد تا طیف گستردهای از وظایف را انجام دهند، از رونویسی گفتار گرفته تا شرح تصاویر و ویدیو در زمان واقعی. بسیاری از این قابلیتها قبلاً در محصولات گوگل گنجانده شدهاند و پیشرفتهای بیشتری در آینده نزدیک وعده داده شده است.
با این حال، مهم است که بپذیریم که گوگل، مانند رقبای خود، به طور کامل به برخی از چالشهای ذاتی مرتبط با فناوری هوش مصنوعی مولد، مانند سوگیریهای کدگذاری شده و تمایل به جعل اطلاعات (توهمات) رسیدگی نکرده است. این محدودیتها باید هنگام ارزیابی استفاده از جمینی، به ویژه برای برنامههای کاربردی حیاتی، در نظر گرفته شوند.
توانایی Gemini Pro
گوگل ادعا میکند که آخرین مدل Pro خود، Gemini 2.0 Pro، پیشرفتهترین پیشنهاد آن برای کدنویسی و رسیدگی به درخواستهای پیچیده است. 2.0 Pro از نسخه قبلی خود، Gemini 1.5 Pro، در معیارهای ارزیابی برنامهنویسی، استدلال، ریاضیات و دقت واقعی پیشی میگیرد.
در پلتفرم Vertex AI گوگل، توسعهدهندگان میتوانند Gemini Pro را برای زمینهها و موارد استفاده خاص از طریق تنظیم دقیق یا “grounding” سفارشی کنند. به عنوان مثال، به Pro (همراه با سایر مدلهای جمینی) میتوان دستور داد تا از دادههای ارائهدهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات را از مجموعه دادههای شرکتی یا Google Search به جای پایگاه دانش گستردهتر خود منبعیابی کند. Gemini Pro همچنین میتواند به APIهای خارجی و شخص ثالث متصل شود تا اقدامات خاصی مانند خودکارسازی گردش کار دفتر پشتیبان را انجام دهد.
پلتفرم AI Studio گوگل، قالبهایی را برای ایجاد درخواستهای چت ساختاریافته با Pro ارائه میدهد. توسعهدهندگان میتوانند دامنه خلاقیت مدل را کنترل کنند، نمونههایی برای هدایت لحن و سبک ارائه دهند و تنظیمات ایمنی Pro را تنظیم کنند.
Gemini Flash: کارایی سبک وزن و تواناییهای استدلال Gemini Flash Thinking
Gemini 2.0 Flash، قادر به استفاده از جستجوی گوگل و سایر API های خارجی است. با وجود کوچکتر بودن، در معیارهای اندازهگیری کدنویسی و تجزیه و تحلیل تصویر، از برخی از مدلهای بزرگتر 1.5 بهتر عمل میکند. Flash به عنوان مشتقی از Gemini Pro، برای کارایی طراحی شده است و وظایف تولیدی هوش مصنوعی باریک و با فرکانس بالا را هدف قرار میدهد.
گوگل مناسب بودن Flash را برای برنامههایی مانند خلاصهسازی، برنامههای چت، شرح تصاویر و ویدیو و استخراج دادهها از اسناد و جداول طولانی برجسته میکند. در همین حال، Gemini 2.0 Flash-Lite، نسخه فشردهتری از Flash، طبق گفته گوگل، از Gemini 1.5 Flash در عملکرد پیشی میگیرد و در عین حال همان قیمت و سرعت را حفظ میکند.
در دسامبر سال گذشته، گوگل یک نوع “تفکر” از Gemini 2.0 Flash را معرفی کرد که دارای قابلیتهای “استدلال” است. این مدل هوش مصنوعی چند ثانیه طول میکشد تا قبل از ارائه پاسخ، به عقب برگردد و روی یک مسئله کار کند، که به طور بالقوه قابلیت اطمینان آن را افزایش میدهد.
Gemini Nano: قدرت هوش مصنوعی روی دستگاه
Gemini Nano یک نسخه فوقالعاده فشرده از جمینی است که برای اجرا مستقیم روی دستگاههای سازگار طراحی شده است و نیازی به ارسال وظایف به سرور راه دور را از بین میبرد. در حال حاضر، Nano چندین ویژگی را در Pixel 8 Pro، Pixel 8، Pixel 9 Pro، Pixel 9 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply in Gboard، تقویت میکند.
برنامه Recorder، که به کاربران امکان میدهد صدا را ضبط و رونویسی کنند، دارای یک ویژگی خلاصهسازی مبتنی بر جمینی برای مکالمات ضبط شده، مصاحبهها، ارائهها و سایر قطعههای صوتی است. این خلاصهها حتی بدون اتصال به شبکه تولید میشوند و به منظور حفظ حریم خصوصی، هیچ دادهای در طول فرآیند از دستگاه کاربر خارج نمیشود.
Nano همچنین جایگاه خود را در Gboard، جایگزین صفحهکلید گوگل، پیدا میکند، جایی که Smart Reply را تقویت میکند. این ویژگی پاسخها را در برنامههای پیامرسانی مانند WhatsApp پیشنهاد میکند و مکالمات را ساده میکند.
قرار است نسخه آینده Android از Nano برای هشدار دادن به کاربران در مورد کلاهبرداریهای احتمالی در طول تماسهای تلفنی استفاده کند. برنامه جدید آب و هوا در تلفنهای Pixel از Gemini Nano برای تولید گزارشهای آب و هوای شخصیسازی شده استفاده میکند. علاوه بر این، TalkBack، سرویس دسترسپذیری گوگل، از Nano برای ایجاد توضیحات شنیداری اشیاء برای کاربران دارای اختلالات بینایی استفاده میکند.
Gemini Ultra: در انتظار بازگشت
Gemini Ultra در ماههای اخیر نسبتاً از کانون توجه دور بوده است. این مدل در حال حاضر در برنامههای جمینی در دسترس نیست و در صفحه قیمتگذاری Gemini API گوگل نیز فهرست نشده است. با این حال، این امر مانع از معرفی مجدد Ultra توسط گوگل در آینده نمیشود.
ساختار قیمتگذاری برای مدلهای جمینی
Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق Gemini API گوگل برای توسعه برنامهها و خدمات در دسترس هستند. آنها بر اساس پرداخت به ازای استفاده عمل میکنند. قیمت پایه، بدون احتساب افزونهها، از 22 فوریه 2025، به شرح زیر است:
- Gemini 1.5 Pro: 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهای تا 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهای طولانیتر از 128 هزار توکن)؛ 5 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواستهای تا 128 هزار توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواستهای طولانیتر از 128 هزار توکن)
- Gemini 1.5 Flash: 7.5 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواستهای تا 128 هزار توکن)، 15 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواستهای طولانیتر از 128 هزار توکن)، 30 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواستهای تا 128 هزار توکن)، 60 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواستهای طولانیتر از 128 هزار توکن)
- Gemini 2.0 Flash: 10 سنت به ازای هر 1 میلیون توکن ورودی، 40 سنت به ازای هر 1 میلیون توکن خروجی. برای صدا، 70 سنت به ازای هر 1 میلیون توکن ورودی.
- Gemini 2.0 Flash-Lite: 7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی.
توکنها واحدهای تقسیمشده دادههای خام را نشان میدهند، مانند هجاهای “fan”، “tas” و “tic” در کلمه “fantastic”. یک میلیون توکن تقریباً معادل 750000 کلمه است. “ورودی” به توکنهایی اشاره دارد که به مدل وارد میشوند، در حالی که “خروجی” به توکنهای تولید شده توسط مدل اشاره دارد.
قیمتگذاری برای 2.0 Pro هنوز اعلام نشده است و Nano در دسترسی اولیه باقی مانده است.
ورود احتمالی جمینی به آیفون
احتمال ادغام جمینی با آیفونها یک احتمال مشخص است.
اپل اعلام کرده است که در حال مذاکره برای استفاده بالقوه از جمینی و سایر مدلهای شخص ثالث برای ویژگیهای مختلف در مجموعه Apple Intelligence خود است. پس از ارائه اصلی در WWDC 2024، کریگ فدریگی، معاون ارشد اپل، برنامههای همکاری با مدلهایی از جمله جمینی را تأیید کرد، اما از ارائه جزئیات بیشتر خودداری کرد.