جمینی گوگل: بررسی جامع

رونمایی از جمینی: نسل بعدی خانواده هوش مصنوعی گوگل

جمینی (Gemini) ورود جاه‌طلبانه گوگل به نسل بعدی مدل‌های هوش مصنوعی است. جمینی که از طریق تلاش‌های مشترک DeepMind و Google Research، آزمایشگاه‌های تحقیقاتی پیشرو هوش مصنوعی گوگل، توسعه یافته است، یک موجودیت یکپارچه نیست، بلکه خانواده‌ای از مدل‌ها است که هر کدام برای وظایف و سطوح عملکرد خاصی طراحی شده‌اند. این خانواده شامل موارد زیر است:

  • Gemini Ultra: قوی‌ترین عضو خانواده، طراحی شده برای وظایف بسیار پیچیده که به قدرت محاسباتی قابل توجهی نیاز دارند. (در حال حاضر در دسترس نیست)
  • Gemini Pro: یک مدل قوی، کوچکتر از Ultra، اما قادر به انجام طیف گسترده‌ای از وظایف. Gemini 2.0 Pro، آخرین نسخه، در حال حاضر به عنوان پرچمدار گوگل شناخته می‌شود.
  • Gemini Flash: یک نسخه ساده و “تقطیر شده” از Pro، که سرعت و کارایی را در اولویت قرار می‌دهد.
  • Gemini Flash-Lite: نسخه ای کمی کاهش یافته و سریعتر از Gemini Flash.
  • Gemini Flash Thinking: مدلی که توانایی‌های “استدلال” را به نمایش می‌گذارد.
  • Gemini Nano: شامل دو مدل فشرده، Nano-1 و Nano-2 که کمی قوی‌تر است، برای عملکرد آفلاین در دستگاه‌ها مهندسی شده است.

یکی از ویژگی‌های بارز تمام مدل‌های جمینی، چندوجهی بودن ذاتی آنهاست. برخلاف مدل‌هایی که صرفاً بر روی داده‌های متنی آموزش دیده‌اند، مانند LaMDA گوگل، مدل‌های جمینی در پردازش و تجزیه و تحلیل انواع داده‌های متنوع مهارت دارند. آنها بر روی مجموعه داده عظیمی شامل صدا، تصاویر، ویدئوها، کدهای برنامه نویسی و متن به زبان‌های مختلف، به صورت عمومی، اختصاصی و دارای مجوز، آموزش دیده‌اند.

این ماهیت چندوجهی به جمینی اجازه می‌دهد تا از محدودیت‌های مدل‌های فقط متنی فراتر رود. در حالی که LaMDA به ورودی و خروجی مبتنی بر متن محدود می‌شود، مدل‌های جمینی، به ویژه نسخه‌های جدیدتر Flash و Pro، می‌توانند به طور بومی تصاویر و صدا را در کنار متن تولید کنند.

با این حال، پیامدهای اخلاقی و قانونی آموزش مدل‌های هوش مصنوعی بر روی داده‌های در دسترس عموم، که اغلب بدون رضایت صریح صاحبان داده انجام می‌شود، همچنان یک مسئله پیچیده است. در حالی که گوگل یک خط‌مشی جبران خسارت هوش مصنوعی را برای محافظت از مشتریان خاص Google Cloud در برابر دعاوی احتمالی ارائه می‌دهد، این خط‌مشی محدودیت‌هایی دارد. کاربران، به ویژه آنهایی که قصد دارند از جمینی برای مقاصد تجاری استفاده کنند، باید احتیاط کنند.

برنامه‌های جمینی در مقابل مدل‌های جمینی: درک تمایز

بسیار مهم است که بین مدل‌های جمینی و برنامه‌های جمینی موجود در پلتفرم‌های وب و موبایل (که قبلاً به عنوان Bard شناخته می‌شد) تمایز قائل شویم.

برنامه‌های جمینی به عنوان کلاینت عمل می‌کنند، به مدل‌های مختلف جمینی متصل می‌شوند و یک رابط کاربری دوستانه و شبیه چت‌بات ارائه می‌دهند. آنها به عنوان بخش جلویی برای تعامل با قابلیت‌های هوش مصنوعی مولد گوگل عمل می‌کنند.

در دستگاه‌های Android، برنامه جمینی جایگزین برنامه Google Assistant می‌شود. در iOS، برنامه‌های Google و Google Search به عنوان کلاینت‌های جمینی عمل می‌کنند.

کاربران Android می‌توانند یک پوشش جمینی را برای پرسیدن سؤال در مورد محتوای نمایش داده شده روی صفحه نمایش خود، مانند یک ویدیوی YouTube، فراخوانی کنند. این پوشش با فشار دادن و نگه داشتن دکمه پاور تلفن هوشمند پشتیبانی شده یا با استفاده از دستور صوتی “Hey Google” فعال می‌شود.

برنامه‌های جمینی همه‌کاره هستند و تصاویر، دستورات صوتی و متن را به عنوان ورودی می‌پذیرند. آنها می‌توانند فایل‌هایی مانند PDF را پردازش کنند، چه مستقیماً آپلود شوند و چه از Google Drive وارد شوند، و تصاویر تولید کنند. مکالمات آغاز شده با برنامه‌های جمینی در تلفن همراه، به شرطی که کاربر به همان حساب Google وارد شده باشد، به طور یکپارچه با جمینی در وب همگام‌سازی می‌شوند.

Gemini Advanced: باز کردن قفل ویژگی‌های ممتاز هوش مصنوعی

برنامه‌های جمینی تنها دروازه استفاده از قدرت مدل‌های جمینی نیستند. گوگل به تدریج در حال ادغام ویژگی‌های مبتنی بر جمینی در برنامه‌ها و خدمات اصلی خود، از جمله Gmail و Google Docs است.

برای استفاده کامل از این قابلیت‌ها، کاربران معمولاً به Google One AI Premium Plan نیاز دارند. این طرح، که از نظر فنی جزئی از Google One است، ماهانه 20 دلار هزینه دارد و امکان دسترسی به جمینی را در برنامه‌های Google Workspace مانند Docs, Maps, Slides, Sheets, Drive و Meet فراهم می‌کند. همچنین “Gemini Advanced” را باز می‌کند و دسترسی به مدل‌های پیشرفته‌تر جمینی گوگل را در برنامه‌های جمینی فراهم می‌کند.

کاربران Gemini Advanced از مزایای دیگری مانند دسترسی اولویت‌دار به ویژگی‌ها و مدل‌های جدید، توانایی اجرای و اصلاح کد Python مستقیماً در جمینی و محدودیت‌های گسترده برای NotebookLM، ابزار گوگل برای تبدیل PDF به پادکست‌های تولید شده توسط هوش مصنوعی، برخوردار می‌شوند. یکی از ویژگی‌های جدید Gemini Advanced، قابلیت حافظه است که ترجیحات کاربر را ذخیره می‌کند و جمینی را قادر می‌سازد تا به مکالمات گذشته ارجاع دهد و زمینه‌ای برای تعاملات فعلی فراهم کند.

یکی از جذاب‌ترین ویژگی‌های انحصاری Gemini Advanced، “Deep Research” است. این ویژگی از مدل‌های جمینی با قابلیت‌های استدلال پیشرفته برای تولید خلاصه‌های دقیق استفاده می‌کند. در پاسخ به یک درخواست، مانند “چگونه باید آشپزخانه خود را بازسازی کنم؟”، Deep Research یک برنامه تحقیقاتی چند مرحله‌ای را تدوین می‌کند، وب را جستجو می‌کند و یک پاسخ جامع را گردآوری می‌کند.

در Gmail، جمینی در یک پنل کناری قرار دارد و قادر به نوشتن ایمیل و خلاصه‌سازی رشته‌های پیام است. یک پنل مشابه در Docs ظاهر می‌شود و به نوشتن، اصلاح و ایده‌پردازی محتوا کمک می‌کند. در Slides، جمینی اسلایدها و تصاویر سفارشی تولید می‌کند. در Google Sheets، به ردیابی، سازماندهی و ایجاد فرمول داده‌ها کمک می‌کند.

حضور جمینی به Google Maps نیز گسترش می‌یابد، جایی که نظرات مربوط به مشاغل محلی را جمع‌آوری می‌کند و توصیه‌هایی مانند پیشنهادات برنامه سفر برای بازدید از یک شهر خارجی ارائه می‌دهد. قابلیت‌های چت‌بات Drive را نیز در بر می‌گیرد، جایی که می‌تواند فایل‌ها و پوشه‌ها را خلاصه کند و اطلاعات مختصری در مورد پروژه‌ها ارائه دهد.

جمینی اخیراً به عنوان یک ابزار نوشتن هوش مصنوعی در مرورگر Chrome گوگل ادغام شده است. این ابزار می‌تواند برای ایجاد محتوای کاملاً جدید یا بازنویسی متن موجود استفاده شود و زمینه صفحه وب فعلی را در نظر می‌گیرد تا توصیه‌های مناسب ارائه دهد.

فراتر از این برنامه‌های اصلی، ردپای جمینی را می‌توان در محصولات پایگاه داده گوگل، ابزارهای امنیت ابری و پلتفرم‌های توسعه برنامه (از جمله Firebase و Project IDX) یافت. همچنین ویژگی‌هایی را در برنامه‌هایی مانند Google Photos (جستجوی پرس‌وجوهای زبان طبیعی)، YouTube (ایده‌پردازی ویدیو) و Meet (ترجمه زیرنویس) تقویت می‌کند.

Code Assist (که قبلاً Duet AI for Developers نامیده می‌شد)، مجموعه ابزارهای مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، برای کارهای فشرده محاسباتی به جمینی متکی است. به طور مشابه، محصولات امنیتی گوگل، مانند Gemini in Threat Intelligence، از جمینی برای تجزیه و تحلیل کدهای بالقوه مخرب و تسهیل جستجوهای زبان طبیعی برای تهدیدات و نشانه‌های نفوذ استفاده می‌کنند.

افزونه‌ها و Gems جمینی: شخصی‌سازی تجربه هوش مصنوعی

کاربران Gemini Advanced می‌توانند “Gems” ایجاد کنند، چت‌بات‌های سفارشی که توسط مدل‌های جمینی پشتیبانی می‌شوند و در هر دو پلتفرم دسکتاپ و موبایل قابل دسترسی هستند. Gems را می‌توان از توضیحات زبان طبیعی تولید کرد، مانند “تو مربی دویدن من هستی. به من یک برنامه دویدن روزانه بده” و می‌توان آنها را با سایر کاربران به اشتراک گذاشت یا خصوصی نگه داشت.

برنامه‌های جمینی می‌توانند از طریق “افزونه‌های جمینی” با سرویس‌های مختلف گوگل ادغام شوند. این افزونه‌ها جمینی را قادر می‌سازند تا با Drive، Gmail، YouTube و سایر سرویس‌ها تعامل داشته باشد و به آن اجازه می‌دهد به سؤالاتی مانند “آیا می‌توانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد.

Gemini Live: شرکت در مکالمات صوتی عمیق

“Gemini Live” یک تجربه فراگیر را ارائه می‌دهد و به کاربران امکان می‌دهد در مکالمات صوتی دقیق با جمینی شرکت کنند. این ویژگی در برنامه‌های جمینی در دستگاه‌های تلفن همراه و در Pixel Buds Pro 2 در دسترس است، جایی که می‌توان حتی زمانی که تلفن قفل است به آن دسترسی داشت.

با Gemini Live، کاربران می‌توانند در حالی که جمینی صحبت می‌کند، حرف او را قطع کنند تا سؤالات توضیحی بپرسند، و چت‌بات با الگوهای گفتاری در زمان واقعی سازگار می‌شود. Live همچنین به گونه‌ای طراحی شده است که به عنوان یک مربی مجازی عمل کند و به آماده‌سازی رویداد، ایده‌پردازی و سایر وظایف کمک کند. به عنوان مثال، Live می‌تواند مهارت‌هایی را برای برجسته کردن در طول مصاحبه شغلی پیشنهاد دهد و نکاتی در مورد سخنرانی عمومی ارائه دهد.

جمینی برای نوجوانان: یک تجربه هوش مصنوعی مناسب برای دانش‌آموزان

گوگل یک تجربه تخصصی جمینی را برای دانش‌آموزان نوجوان ارائه می‌دهد.

این نسخه متمرکز بر نوجوانان جمینی شامل “سیاست‌ها و حفاظ‌های اضافی”، از جمله یک فرآیند ورود سفارشی و یک راهنمای سواد هوش مصنوعی است. جدا از این تغییرات، شباهت زیادی به تجربه استاندارد جمینی دارد، از جمله ویژگی “بررسی مجدد” که صحت پاسخ‌های جمینی را با ارجاع متقابل اطلاعات در وب تأیید می‌کند.

کاوش در قابلیت‌های مدل‌های جمینی

ماهیت چندوجهی مدل‌های جمینی به آنها قدرت می‌دهد تا طیف گسترده‌ای از وظایف را انجام دهند، از رونویسی گفتار گرفته تا شرح تصاویر و ویدیو در زمان واقعی. بسیاری از این قابلیت‌ها قبلاً در محصولات گوگل گنجانده شده‌اند و پیشرفت‌های بیشتری در آینده نزدیک وعده داده شده است.

با این حال، مهم است که بپذیریم که گوگل، مانند رقبای خود، به طور کامل به برخی از چالش‌های ذاتی مرتبط با فناوری هوش مصنوعی مولد، مانند سوگیری‌های کدگذاری شده و تمایل به جعل اطلاعات (توهمات) رسیدگی نکرده است. این محدودیت‌ها باید هنگام ارزیابی استفاده از جمینی، به ویژه برای برنامه‌های کاربردی حیاتی، در نظر گرفته شوند.

توانایی Gemini Pro

گوگل ادعا می‌کند که آخرین مدل Pro خود، Gemini 2.0 Pro، پیشرفته‌ترین پیشنهاد آن برای کدنویسی و رسیدگی به درخواست‌های پیچیده است. 2.0 Pro از نسخه قبلی خود، Gemini 1.5 Pro، در معیارهای ارزیابی برنامه‌نویسی، استدلال، ریاضیات و دقت واقعی پیشی می‌گیرد.

در پلتفرم Vertex AI گوگل، توسعه‌دهندگان می‌توانند Gemini Pro را برای زمینه‌ها و موارد استفاده خاص از طریق تنظیم دقیق یا “grounding” سفارشی کنند. به عنوان مثال، به Pro (همراه با سایر مدل‌های جمینی) می‌توان دستور داد تا از داده‌های ارائه‌دهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات را از مجموعه داده‌های شرکتی یا Google Search به جای پایگاه دانش گسترده‌تر خود منبع‌یابی کند. Gemini Pro همچنین می‌تواند به APIهای خارجی و شخص ثالث متصل شود تا اقدامات خاصی مانند خودکارسازی گردش کار دفتر پشتیبان را انجام دهد.

پلتفرم AI Studio گوگل، قالب‌هایی را برای ایجاد درخواست‌های چت ساختاریافته با Pro ارائه می‌دهد. توسعه‌دهندگان می‌توانند دامنه خلاقیت مدل را کنترل کنند، نمونه‌هایی برای هدایت لحن و سبک ارائه دهند و تنظیمات ایمنی Pro را تنظیم کنند.

Gemini Flash: کارایی سبک وزن و توانایی‌های استدلال Gemini Flash Thinking

Gemini 2.0 Flash، قادر به استفاده از جستجوی گوگل و سایر API های خارجی است. با وجود کوچکتر بودن، در معیارهای اندازه‌گیری کدنویسی و تجزیه و تحلیل تصویر، از برخی از مدل‌های بزرگتر 1.5 بهتر عمل می‌کند. Flash به عنوان مشتقی از Gemini Pro، برای کارایی طراحی شده است و وظایف تولیدی هوش مصنوعی باریک و با فرکانس بالا را هدف قرار می‌دهد.

گوگل مناسب بودن Flash را برای برنامه‌هایی مانند خلاصه‌سازی، برنامه‌های چت، شرح تصاویر و ویدیو و استخراج داده‌ها از اسناد و جداول طولانی برجسته می‌کند. در همین حال، Gemini 2.0 Flash-Lite، نسخه فشرده‌تری از Flash، طبق گفته گوگل، از Gemini 1.5 Flash در عملکرد پیشی می‌گیرد و در عین حال همان قیمت و سرعت را حفظ می‌کند.

در دسامبر سال گذشته، گوگل یک نوع “تفکر” از Gemini 2.0 Flash را معرفی کرد که دارای قابلیت‌های “استدلال” است. این مدل هوش مصنوعی چند ثانیه طول می‌کشد تا قبل از ارائه پاسخ، به عقب برگردد و روی یک مسئله کار کند، که به طور بالقوه قابلیت اطمینان آن را افزایش می‌دهد.

Gemini Nano: قدرت هوش مصنوعی روی دستگاه

Gemini Nano یک نسخه فوق‌العاده فشرده از جمینی است که برای اجرا مستقیم روی دستگاه‌های سازگار طراحی شده است و نیازی به ارسال وظایف به سرور راه دور را از بین می‌برد. در حال حاضر، Nano چندین ویژگی را در Pixel 8 Pro، Pixel 8، Pixel 9 Pro، Pixel 9 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply in Gboard، تقویت می‌کند.

برنامه Recorder، که به کاربران امکان می‌دهد صدا را ضبط و رونویسی کنند، دارای یک ویژگی خلاصه‌سازی مبتنی بر جمینی برای مکالمات ضبط شده، مصاحبه‌ها، ارائه‌ها و سایر قطعه‌های صوتی است. این خلاصه‌ها حتی بدون اتصال به شبکه تولید می‌شوند و به منظور حفظ حریم خصوصی، هیچ داده‌ای در طول فرآیند از دستگاه کاربر خارج نمی‌شود.

Nano همچنین جایگاه خود را در Gboard، جایگزین صفحه‌کلید گوگل، پیدا می‌کند، جایی که Smart Reply را تقویت می‌کند. این ویژگی پاسخ‌ها را در برنامه‌های پیام‌رسانی مانند WhatsApp پیشنهاد می‌کند و مکالمات را ساده می‌کند.

قرار است نسخه آینده Android از Nano برای هشدار دادن به کاربران در مورد کلاهبرداری‌های احتمالی در طول تماس‌های تلفنی استفاده کند. برنامه جدید آب و هوا در تلفن‌های Pixel از Gemini Nano برای تولید گزارش‌های آب و هوای شخصی‌سازی شده استفاده می‌کند. علاوه بر این، TalkBack، سرویس دسترس‌پذیری گوگل، از Nano برای ایجاد توضیحات شنیداری اشیاء برای کاربران دارای اختلالات بینایی استفاده می‌کند.

Gemini Ultra: در انتظار بازگشت

Gemini Ultra در ماه‌های اخیر نسبتاً از کانون توجه دور بوده است. این مدل در حال حاضر در برنامه‌های جمینی در دسترس نیست و در صفحه قیمت‌گذاری Gemini API گوگل نیز فهرست نشده است. با این حال، این امر مانع از معرفی مجدد Ultra توسط گوگل در آینده نمی‌شود.

ساختار قیمت‌گذاری برای مدل‌های جمینی

Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق Gemini API گوگل برای توسعه برنامه‌ها و خدمات در دسترس هستند. آنها بر اساس پرداخت به ازای استفاده عمل می‌کنند. قیمت پایه، بدون احتساب افزونه‌ها، از 22 فوریه 2025، به شرح زیر است:

  • Gemini 1.5 Pro: 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های تا 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از 128 هزار توکن)؛ 5 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست‌های تا 128 هزار توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از 128 هزار توکن)
  • Gemini 1.5 Flash: 7.5 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های تا 128 هزار توکن)، 15 سنت به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از 128 هزار توکن)، 30 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواست‌های تا 128 هزار توکن)، 60 سنت به ازای هر 1 میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از 128 هزار توکن)
  • Gemini 2.0 Flash: 10 سنت به ازای هر 1 میلیون توکن ورودی، 40 سنت به ازای هر 1 میلیون توکن خروجی. برای صدا، 70 سنت به ازای هر 1 میلیون توکن ورودی.
  • Gemini 2.0 Flash-Lite: 7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی.

توکن‌ها واحدهای تقسیم‌شده داده‌های خام را نشان می‌دهند، مانند هجاهای “fan”، “tas” و “tic” در کلمه “fantastic”. یک میلیون توکن تقریباً معادل 750000 کلمه است. “ورودی” به توکن‌هایی اشاره دارد که به مدل وارد می‌شوند، در حالی که “خروجی” به توکن‌های تولید شده توسط مدل اشاره دارد.

قیمت‌گذاری برای 2.0 Pro هنوز اعلام نشده است و Nano در دسترسی اولیه باقی مانده است.

ورود احتمالی جمینی به آیفون

احتمال ادغام جمینی با آیفون‌ها یک احتمال مشخص است.

اپل اعلام کرده است که در حال مذاکره برای استفاده بالقوه از جمینی و سایر مدل‌های شخص ثالث برای ویژگی‌های مختلف در مجموعه Apple Intelligence خود است. پس از ارائه اصلی در WWDC 2024، کریگ فدریگی، معاون ارشد اپل، برنامه‌های همکاری با مدل‌هایی از جمله جمینی را تأیید کرد، اما از ارائه جزئیات بیشتر خودداری کرد.