جيميني من جوجل: نظرة شاملة

كشف النقاب عن Gemini: عائلة الذكاء الاصطناعي من الجيل التالي من Google

Gemini هو مشروع جوجل الطموح في الجيل التالي من نماذج الذكاء الاصطناعي. تم تطوير Gemini من خلال الجهود التعاونية لـ DeepMind و Google Research، وهما مختبرات أبحاث الذكاء الاصطناعي الرائدة في Google، وهو ليس كيانًا متجانسًا بل عائلة من النماذج، كل منها مصمم لمهام ومستويات أداء محددة. تشمل هذه العائلة:

  • Gemini Ultra: الأقوى في العائلة، مصمم للمهام المعقدة للغاية التي تتطلب قوة حسابية كبيرة. (غير متوفر حاليًا)
  • Gemini Pro: نموذج قوي، أصغر من Ultra، ولكنه قادر على التعامل مع مجموعة واسعة من المهام. Gemini 2.0 Pro، أحدث إصدار، يمثل حاليًا النموذج الرائد من Google.
  • Gemini Flash: نسخة مبسطة و ‘مقطرة’ من Pro، تعطي الأولوية للسرعة والكفاءة.
  • Gemini Flash-Lite: نسخة مخفضة وأسرع قليلاً من Gemini Flash.
  • Gemini Flash Thinking: نموذج يعرض قدرات ‘الاستدلال’.
  • Gemini Nano: يشتمل على نموذجين مضغوطين، Nano-1 و Nano-2 الأكثر قوة قليلاً، تم تصميمهما للتشغيل دون اتصال بالإنترنت على الأجهزة.

السمة المميزة لجميع نماذج Gemini هي تعدد الوسائط المتأصل فيها. على عكس النماذج المدربة على بيانات نصية فقط، مثل LaMDA من Google، فإن نماذج Gemini بارعة في معالجة وتحليل أنواع البيانات المتنوعة. لقد تم تدريبهم على مجموعة بيانات واسعة تشمل الصوت والصور ومقاطع الفيديو وقواعد البيانات والنصوص العامة والخاصة والمرخصة بلغات متعددة.

تسمح هذه الطبيعة متعددة الوسائط لـ Gemini بتجاوز قيود النماذج النصية فقط. في حين أن LaMDA يقتصر على المدخلات والمخرجات النصية، يمكن لنماذج Gemini، وخاصة الإصدارات الأحدث من Flash و Pro، إنشاء الصور والصوت بشكل أصلي إلى جانب النص.

ومع ذلك، فإن الآثار الأخلاقية والقانونية لتدريب نماذج الذكاء الاصطناعي على البيانات المتاحة للجمهور، غالبًا دون موافقة صريحة من مالكي البيانات، تظل قضية معقدة. بينما تقدم Google سياسة تعويض للذكاء الاصطناعي لحماية بعض عملاء Google Cloud من الدعاوى القضائية المحتملة، فإن هذه السياسة لها قيود. يجب على المستخدمين، وخاصة أولئك الذين ينوون استخدام Gemini لأغراض تجارية، توخي الحذر.

تطبيقات Gemini مقابل نماذج Gemini: فهم التمييز

من الضروري التمييز بين نماذج Gemini وتطبيقات Gemini المتاحة على الويب ومنصات الأجهزة المحمولة (المعروفة سابقًا باسم Bard).

تعمل تطبيقات Gemini كعملاء، وتتصل بنماذج Gemini المختلفة وتقدم واجهة سهلة الاستخدام تشبه روبوت الدردشة. إنها بمثابة الواجهة الأمامية للتفاعل مع قدرات الذكاء الاصطناعي التوليدي من Google.

على أجهزة Android، يحل تطبيق Gemini محل تطبيق Google Assistant. على نظام iOS، تعمل تطبيقات Google و Google Search كعملاء Gemini.

يمكن لمستخدمي Android استدعاء تراكب Gemini لطرح أسئلة حول المحتوى المعروض على شاشتهم، مثل مقطع فيديو على YouTube. يتم تشغيل هذا التراكب عن طريق الضغط مع الاستمرار على زر الطاقة بهاتف ذكي مدعوم أو باستخدام الأمر الصوتي ‘Hey Google’.

تطبيقات Gemini متعددة الاستخدامات، وتقبل الصور والأوامر الصوتية والنص كمدخلات. يمكنهم معالجة ملفات مثل ملفات PDF، سواء تم تحميلها مباشرة أو استيرادها من Google Drive، وإنشاء الصور. تتم مزامنة المحادثات التي تبدأ مع تطبيقات Gemini على الهاتف المحمول بسلاسة مع Gemini على الويب، بشرط أن يكون المستخدم مسجلاً للدخول إلى حساب Google نفسه.

Gemini Advanced: فتح ميزات الذكاء الاصطناعي المتميزة

تطبيقات Gemini ليست البوابة الوحيدة للاستفادة من قوة نماذج Gemini. تعمل Google تدريجيًا على دمج الميزات التي تعمل بنظام Gemini في تطبيقاتها وخدماتها الأساسية، بما في ذلك Gmail و Google Docs.

للاستفادة الكاملة من هذه الإمكانات، يحتاج المستخدمون عادةً إلى خطة Google One AI Premium. تمنح هذه الخطة، وهي جزء من Google One، تكلفة 20 دولارًا شهريًا وتتيح الوصول إلى Gemini داخل تطبيقات Google Workspace مثل Docs و Maps و Slides و Sheets و Drive و Meet. كما أنها تفتح ‘Gemini Advanced’، مما يوفر الوصول إلى نماذج Gemini الأكثر تطوراً من Google داخل تطبيقات Gemini.

يتمتع مستخدمو Gemini Advanced بمزايا إضافية، مثل الوصول ذي الأولوية إلى الميزات والنماذج الجديدة، والقدرة على تنفيذ وتعديل كود Python مباشرة داخل Gemini، وحدود موسعة لـ NotebookLM، أداة Google لتحويل ملفات PDF إلى ملفات بودكاست تم إنشاؤها بواسطة الذكاء الاصطناعي. إضافة حديثة إلى Gemini Advanced هي ميزة الذاكرة التي تخزن تفضيلات المستخدم وتمكن Gemini من الرجوع إلى المحادثات السابقة، مما يوفر سياقًا للتفاعلات الحالية.

واحدة من أكثر الميزات الحصرية لـ Gemini Advanced هي ‘Deep Research’. تستفيد هذه الميزة من نماذج Gemini ذات القدرات الاستدلالية المحسنة لإنشاء ملخصات تفصيلية. استجابةً لمطالبة، مثل ‘كيف يجب أن أعيد تصميم مطبخي؟’، تقوم Deep Research بصياغة خطة بحث متعددة الخطوات، وتبحث في الويب، وتجمع إجابة شاملة.

داخل Gmail، يوجد Gemini في لوحة جانبية، قادرة على إنشاء رسائل بريد إلكتروني وتلخيص سلاسل الرسائل. تظهر لوحة مماثلة في Docs، تساعد في كتابة المحتوى وتحسينه وتبادل الأفكار. في Slides، يقوم Gemini بإنشاء شرائح وصور مخصصة. في Google Sheets، يساعد في تتبع البيانات وتنظيمها وإنشاء الصيغ.

يمتد وجود Gemini إلى Google Maps، حيث يجمع المراجعات حول الشركات المحلية ويقدم توصيات، مثل اقتراحات مسار الرحلة لزيارة مدينة أجنبية. تشمل إمكانات روبوت الدردشة أيضًا Drive، حيث يمكنه تلخيص الملفات والمجلدات وتقديم معلومات موجزة حول المشاريع.

تم دمج Gemini مؤخرًا في متصفح Chrome من Google كأداة كتابة تعمل بالذكاء الاصطناعي. يمكن استخدام هذه الأداة لإنشاء محتوى جديد تمامًا أو إعادة كتابة نص موجود، مع مراعاة سياق صفحة الويب الحالية لتقديم توصيات مخصصة.

إلى جانب هذه التطبيقات الأساسية، يمكن العثور على آثار Gemini في منتجات قواعد بيانات Google وأدوات أمان السحابة ومنصات تطوير التطبيقات (بما في ذلك Firebase و Project IDX). كما أنه يدعم الميزات في تطبيقات مثل Google Photos (استعلامات البحث باللغة الطبيعية) و YouTube (تبادل الأفكار حول مقاطع الفيديو) و Meet (ترجمة التعليقات التوضيحية).

Code Assist (المعروف سابقًا باسم Duet AI for Developers)، مجموعة أدوات Google التي تعمل بالذكاء الاصطناعي لإكمال التعليمات البرمجية وإنشائها، تعتمد على Gemini للمهام كثيفة الحساب. وبالمثل، تستخدم منتجات Google الأمنية، مثل Gemini in Threat Intelligence، Gemini لتحليل التعليمات البرمجية التي يحتمل أن تكون ضارة وتسهيل عمليات البحث باللغة الطبيعية عن التهديدات ومؤشرات الاختراق.

ملحقات Gemini و Gems: تخصيص تجربة الذكاء الاصطناعي

يتمتع مستخدمو Gemini Advanced بالقدرة على إنشاء ‘Gems’، وهي روبوتات دردشة مخصصة مدعومة بنماذج Gemini، ويمكن الوصول إليها على كل من أجهزة سطح المكتب والأجهزة المحمولة. يمكن إنشاء Gems من أوصاف اللغة الطبيعية، مثل ‘أنت مدرب الجري الخاص بي. أعطني خطة جري يومية’، ويمكن مشاركتها مع مستخدمين آخرين أو الاحتفاظ بها خاصة.

يمكن لتطبيقات Gemini التكامل مع خدمات Google المختلفة من خلال ‘ملحقات Gemini’. تمكن هذه الملحقات Gemini من التفاعل مع Drive و Gmail و YouTube وخدمات أخرى، مما يسمح له بالرد على استعلامات مثل ‘هل يمكنك تلخيص رسائلي الإلكترونية الثلاث الأخيرة؟’

Gemini Live: الانخراط في محادثات صوتية متعمقة

يقدم ‘Gemini Live’ تجربة غامرة، مما يسمح للمستخدمين بالمشاركة في محادثات صوتية مفصلة مع Gemini. هذه الميزة متاحة داخل تطبيقات Gemini على الأجهزة المحمولة وعلى Pixel Buds Pro 2، حيث يمكن الوصول إليها حتى عندما يكون الهاتف مقفلاً.

باستخدام Gemini Live، يمكن للمستخدمين مقاطعة Gemini أثناء حديثه لطرح أسئلة توضيحية، ويتكيف روبوت الدردشة مع أنماط الكلام في الوقت الفعلي. تم تصميم Live أيضًا ليعمل كمدرب افتراضي، يساعد في التحضير للحدث وتبادل الأفكار والمهام الأخرى. على سبيل المثال، يمكن لـ Live اقتراح مهارات لتسليط الضوء عليها أثناء مقابلة عمل وتقديم نصائح للتحدث أمام الجمهور.

Gemini للمراهقين: تجربة ذكاء اصطناعي مخصصة للطلاب

توفر Google تجربة Gemini متخصصة مصممة للطلاب المراهقين.

يتضمن هذا الإصدار الذي يركز على المراهقين من Gemini ‘سياسات وضمانات إضافية’، بما في ذلك عملية إعداد مخصصة ودليل لمحو الأمية في مجال الذكاء الاصطناعي. بصرف النظر عن هذه التعديلات، فإنه يشبه إلى حد كبير تجربة Gemini القياسية، بما في ذلك ميزة ‘التحقق المزدوج’ التي تتحقق من دقة ردود Gemini عن طريق الإسناد الترافقي للمعلومات على الويب.

استكشاف قدرات نماذج Gemini

تمكن الطبيعة متعددة الوسائط لنماذج Gemini من أداء مجموعة واسعة من المهام، بدءًا من نسخ الكلام إلى التعليق على الصور ومقاطع الفيديو في الوقت الفعلي. تم بالفعل دمج العديد من هذه الإمكانات في منتجات Google، مع وعد بمزيد من التطورات في المستقبل القريب.

ومع ذلك، من المهم الاعتراف بأن Google، مثل منافسيها، لم تعالج بشكل كامل بعض التحديات الكامنة المرتبطة بتقنية الذكاء الاصطناعي التوليدي، مثل التحيزات المشفرة والميل إلى اختلاق المعلومات (الهلوسة). يجب أخذ هذه القيود في الاعتبار عند تقييم استخدام Gemini، خاصة للتطبيقات الهامة.

براعة Gemini Pro

تؤكد Google أن أحدث طراز Pro، Gemini 2.0 Pro، يمثل أحدث عروضها للترميز والتعامل مع المطالبات المعقدة. يتفوق 2.0 Pro على سابقه، Gemini 1.5 Pro، في المعايير التي تقيم البرمجة والاستدلال والرياضيات والدقة الواقعية.

ضمن نظام Vertex AI الأساسي من Google، يمكن للمطورين تخصيص Gemini Pro لسياقات وحالات استخدام محددة من خلال الضبط الدقيق أو ‘التأريض’. على سبيل المثال، يمكن توجيه Pro (جنبًا إلى جنب مع نماذج Gemini الأخرى) لاستخدام البيانات من موفري الطرف الثالث مثل Moody’s و Thomson Reuters و ZoomInfo و MSCI، أو للحصول على معلومات من مجموعات بيانات الشركة أو بحث Google بدلاً من قاعدة معارفه الأوسع. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة التطبيقات الخارجية التابعة لجهات خارجية لتنفيذ إجراءات محددة، مثل أتمتة سير عمل المكتب الخلفي.

توفر منصة AI Studio من Google قوالب لإنشاء مطالبات دردشة منظمة باستخدام Pro. يمكن للمطورين التحكم في النطاق الإبداعي للنموذج، وتقديم أمثلة لتوجيه النغمة والأسلوب، وضبط إعدادات أمان Pro بدقة.

Gemini Flash: كفاءة خفيفة الوزن وقدرات التفكير في Gemini Flash Thinking

Gemini 2.0 Flash، قادر على استخدام بحث Google وواجهات برمجة التطبيقات الخارجية الأخرى. على الرغم من أنه أصغر، إلا أنه يتفوق على بعض نماذج 1.5 الأكبر حجمًا في المعايير التي تقيس الترميز وتحليل الصور. باعتباره مشتقًا من Gemini Pro، تم تصميم Flash لتحقيق الكفاءة، واستهداف مهام الذكاء الاصطناعي التوليدي الضيقة وعالية التردد.

تسلط Google الضوء على ملاءمة Flash لتطبيقات مثل التلخيص وتطبيقات الدردشة والتعليق على الصور ومقاطع الفيديو واستخراج البيانات من المستندات والجداول الطويلة. وفي الوقت نفسه، يتفوق Gemini 2.0 Flash-Lite، وهو تكرار أكثر إحكاما لـ Flash، على Gemini 1.5 Flash في الأداء مع الحفاظ على نفس السعر والسرعة، وفقًا لـ Google.

في ديسمبر من العام السابق، قدمت Google متغير ‘تفكير’ لـ Gemini 2.0 Flash، يتمتع بقدرات ‘الاستدلال’. يستغرق نموذج الذكاء الاصطناعي هذا بضع ثوانٍ للعمل بشكل عكسي من خلال مشكلة ما قبل تقديم إجابة، مما قد يعزز موثوقيته.

Gemini Nano: قوة الذكاء الاصطناعي على الجهاز

Gemini Nano هو إصدار مضغوط بشكل ملحوظ من Gemini، مصمم للعمل مباشرة على الأجهزة المتوافقة، مما يلغي الحاجة إلى إرسال المهام إلى خادم بعيد. حاليًا، يدعم Nano العديد من الميزات على Pixel 8 Pro و Pixel 8 و Pixel 9 Pro و Pixel 9 و Samsung Galaxy S24، بما في ذلك Summarize in Recorder و Smart Reply in Gboard.

يتضمن تطبيق Recorder، الذي يمكّن المستخدمين من تسجيل الصوت ونسخه، ميزة تلخيص مدعومة من Gemini للمحادثات المسجلة والمقابلات والعروض التقديمية ومقتطفات الصوت الأخرى. يتم إنشاء هذه الملخصات حتى بدون اتصال بالشبكة، ومن أجل الخصوصية، لا تترك أي بيانات جهاز المستخدم أثناء العملية.

يجد Nano أيضًا مكانه في Gboard، بديل لوحة المفاتيح من Google، حيث يدعم Smart Reply. تقترح هذه الميزة ردودًا في تطبيقات المراسلة مثل WhatsApp، مما يبسط المحادثات.

من المقرر أن تستفيد نسخة مستقبلية من Android من Nano لتنبيه المستخدمين إلى عمليات الاحتيال المحتملة أثناء المكالمات الهاتفية. يستخدم تطبيق الطقس الجديد على هواتف Pixel Gemini Nano لإنشاء تقارير طقس مخصصة. بالإضافة إلى ذلك، تستخدم TalkBack، خدمة إمكانية الوصول من Google، Nano لإنشاء أوصاف سمعية للكائنات للمستخدمين ذوي الإعاقات البصرية.

Gemini Ultra: في انتظار عودته

كان Gemini Ultra غائبًا نسبيًا عن دائرة الضوء في الأشهر الأخيرة. النموذج غير متوفر حاليًا داخل تطبيقات Gemini، كما أنه غير مدرج في صفحة أسعار Gemini API من Google. ومع ذلك، هذا لا يستبعد إمكانية إعادة تقديم Google لـ Ultra في المستقبل.

هيكل التسعير لنماذج Gemini

يمكن الوصول إلى Gemini 1.5 Pro و 1.5 Flash و 2.0 Flash و 2.0 Flash-Lite من خلال Gemini API من Google لتطوير التطبيقات والخدمات. إنها تعمل على أساس الدفع أولاً بأول. الأسعار الأساسية، باستثناء الوظائف الإضافية، اعتبارًا من 225 فبراير، هي كما يلي:

  • Gemini 1.5 Pro: 1.25 دولارًا لكل مليون رمز إدخال (للمطالبات التي تصل إلى 128 ألف رمز) أو 2.50 دولارًا لكل مليون رمز إدخال (للمطالبات التي تزيد عن 128 ألف رمز)؛ 5 دولارات لكل مليون رمز إخراج (للمطالبات التي تصل إلى 128 ألف رمز) أو 10 دولارات لكل مليون رمز إخراج (للمطالبات التي تزيد عن 128 ألف رمز)
  • Gemini 1.5 Flash: 7.5 سنتات لكل مليون رمز إدخال (للمطالبات التي تصل إلى 128 ألف رمز)، 15 سنتًا لكل مليون رمز إدخال (للمطالبات التي تزيد عن 128 ألف رمز)، 30 سنتًا لكل مليون رمز إخراج (للمطالبات التي تصل إلى 128 ألف رمز)، 60 سنتًا لكل مليون رمز إخراج (للمطالبات التي تزيد عن 128 ألف رمز)
  • Gemini 2.0 Flash: 10 سنتات لكل مليون رمز إدخال، 40 سنتًا لكل مليون رمز إخراج. للصوت، 70 سنتًا لكل مليون رمز إدخال.
  • Gemini 2.0 Flash-Lite: 7.5 سنتات لكل مليون رمز إدخال، 30 سنتًا لكل مليون رمز إخراج.

تمثل الرموز المميزة وحدات فرعية من البيانات الأولية، مثل المقاطع ‘fan’ و ‘tas’ و ‘tic’ في كلمة ‘fantastic’. مليون رمز مميز يعادل تقريبًا 750000 كلمة. يشير ‘الإدخال’ إلى الرموز المميزة التي يتم إدخالها في النموذج، بينما يشير ‘الإخراج’ إلى الرموز المميزة التي تم إنشاؤها بواسطة النموذج.

لم يتم الإعلان عن أسعار 2.0 Pro بعد، ولا يزال Nano في مرحلة الوصول المبكر.

وصول Gemini المحتمل على iPhone

إن احتمال دمج Gemini مع أجهزة iPhone هو احتمال واضح.

أشارت Apple إلى أنها تجري مناقشات لاستخدام Gemini ونماذج أخرى تابعة لجهات خارجية لميزات مختلفة داخل مجموعة Apple Intelligence الخاصة بها. في أعقاب عرض تقديمي رئيسي في WWDC 2024، أكد نائب الرئيس الأول لشركة Apple، Craig Federighi، خططًا للتعاون مع النماذج، بما في ذلك Gemini، لكنه امتنع عن الإفصاح عن مزيد من التفاصيل.