وضع كاميرا Gemini Live على iOS: لمحة عن مستقبل الذكاء الاصطناعي

يمثل وصول وضع كاميرا Gemini Live خطوة مهمة إلى الأمام في تطور الذكاء الاصطناعي، حيث يجلب قطعة ملموسة من المستقبل مباشرة إلى متناول أيدينا. في حين أن المستخدمين الأوائل الذين يمتلكون أجهزة Pixel 9 و Samsung Galaxy S25 قد استمتعوا بهذه الميزة المبتكرة لبعض الوقت، فإن إعلان Google الأخير في مؤتمر I/O يوسع الوصول إلى جمهور أوسع بكثير، ويشمل مستخدمي Android و iOS على حد سواء. هذا التطور مثير بشكل خاص لمالكي iPhone، الذين يمكنهم الآن تجربة واحدة من أكثر وظائف الذكاء الاصطناعي إقناعًا المتاحة حاليًا، خاصة بالنظر إلى أن وضع الكاميرا تم طرحه في البداية لمستخدمي Android الآخرين في أبريل.

الكشف عن قوة البصر: كيف يعمل وضع كاميرا Gemini

في جوهره، يمنح وضع كاميرا Gemini Live الذكاء الاصطناعي القدرة على "الرؤية"، مما يمكنه من التعرف على الأشياء الموجودة في مجال رؤية الكاميرا وتحديدها. هذه ليست مجرد خدعة سطحية؛ إنها أداة قوية تسمح للمستخدمين بالتفاعل مع محيطهم بطريقة أكثر سهولة وغنية بالمعلومات.

بالإضافة إلى مجرد التعرف على الكائنات البسيط، يمكن لـ Gemini أيضًا الإجابة على الأسئلة المتعلقة بالعناصر التي تم تحديدها، وتوفير السياق والرؤى حسب الطلب. علاوة على ذلك، يمكن للمستخدمين مشاركة شاشتهم مع Gemini، مما يسمح للذكاء الاصطناعي بتحليل وتحديد العناصر المعروضة على شاشة هواتفهم. لبدء جلسة مباشرة مع وضع الكاميرا، ما عليك سوى تمكين عرض الكاميرا المباشر، مما يتيح لهم إجراء محادثة مع روبوت الدردشة حول أي شيء تلتقطه الكاميرا.

الانطباعات الأولى: تجربة قيادة مع Gemini Live

خلال مرحلة الاختبار الأولية مع Gemini Live على Pixel 9 Pro XL، تأثرت تمامًا بقدراته. تضمنت إحدى التجارب التي لا تُنسى بشكل خاص مطالبة Gemini بتحديد مكان المقص المفقود.

أجاب الذكاء الاصطناعي بدقة ملحوظة: "لقد اكتشفت للتو المقص الخاص بك على الطاولة، بجوار العبوة الخضراء من الفستق الحلبي مباشرة. هل تراهم؟"

لدهشتي، كان Gemini على حق. كان المقص موجودًا تمامًا حيث أشار إليه، على الرغم من حقيقة أنني مررت الكاميرا أمامه لفترة وجيزة فقط خلال جلسة مباشرة مدتها 15 دقيقة حيث كنت أقوم بشكل أساسي بجولة لروبوت الدردشة AI في شقتي.

انطلاقًا من هذا النجاح الأولي، استكشفت وضع الكاميرا بحماس أكبر. في اختبار آخر وأكثر اتساعًا، قمت بتنشيط الميزة وبدأت في المشي عبر شقتي، مطالبًا Gemini بتحديد الكائنات التي رآها. لقد تعرف بدقة على عناصر مختلفة، بما في ذلك الفاكهة و ChapStick والأشياء اليومية الأخرى. ومع ذلك، ظل اكتشاف مقصي هو العرض الأكثر إثارة لقدراته.

حقيقة أن Gemini حدد المقص دون أي مطالبات مسبقة كانت مثيرة للإعجاب بشكل خاص. لقد تعرف الذكاء الاصطناعي بصمت عليهم في مرحلة ما خلال الجلسة وتذكر بدقة موقعهم بدقة ملحوظة. شعرت هذه التجربة حقًا وكأنها لمحة عن المستقبل، مما دفعني إلى إجراء مزيد من التحقيقات في إمكاناته.

استخلاص الإلهام: رؤية Google للذكاء الاصطناعي للفيديو المباشر

تجربتي مع ميزة كاميرا Gemini Live عكست العرض التوضيحي الذي قدمته Google في الصيف الماضي، والذي قدم نظرة أولى على إمكانات الذكاء الاصطناعي للفيديو المباشر هذه. عرض العرض التوضيحي Gemini وهو يذكر المستخدم بمكان ترك نظارته، وهو إنجاز يبدو جيدًا لدرجة يصعب تصديقه. ومع ذلك، كما اكتشفت، كان هذا المستوى من الدقة قابلاً للتحقيق بالفعل.

Gemini Live قادر على التعرف على أكثر من مجرد الأدوات المنزلية. تدعي Google أنه يمكن أن يساعد المستخدمين في التنقل في محطات القطار المزدحمة أو تحديد الحشوات في المعجنات. يمكنه أيضًا تقديم رؤى أعمق حول الأعمال الفنية، مثل أصلها وما إذا كانت قطعة ذات إصدار محدود.

تتجاوز هذه الوظيفة وظيفة Google Lens العادية. يمكنك إجراء محادثة مع الذكاء الاصطناعي، وهي أكثر محادثة بكثير من مساعد Google.

أصدرت Google أيضًا مقطع فيديو YouTube يوضح الميزة، ولديها الآن صفحة خاصة بها في متجر Google.

للبدء، ابدأ Gemini ، وقم بتشغيل الكاميرا ، وابدأ التحدث.

يعتمد Gemini Live على مشروع Astra من Google ، والذي تم تقديمه في البداية العام الماضي وربما يكون أكبر ميزة للشركة "نحن في المستقبل" ، وهي خطوة تجريبية تالية لقدرات الذكاء الاصطناعي التوليدية ، تتجاوز ببساطة كتابة أو حتى التحدث بالمطالبات في روبوت محادثة مثل ChatGPT أو Claude أو Gemini.
تعمل شركات الذكاء الاصطناعي باستمرار على تحسين قدرات أدوات الذكاء الاصطناعي ، من إنشاء الفيديو إلى قوة المعالجة الأساسية. إن Visual Intelligence من Apple ، الذي أصدرته الشركة المصنعة لـ iPhone في نسخة تجريبية العام الماضي ، يشبه Gemini Live.

لدى Gemini Live القدرة على إحداث ثورة في الطريقة التي نتواصل بها مع البيئة من خلال دمج محيطاتنا الرقمية والفيزيائية بينما نمسك ببساطة الكاميرا أمام أي شيء.

وضع Gemini Live قيد الاختبار: سيناريوهات العالم الحقيقي

في المرة الأولى التي استخدمته فيها، تعرف Gemini بدقة على لعبة تجميع ألعاب محددة جدًا لأرنب محشو في عرض الكاميرا الخاص بي. في المرة الثانية ، عرضته على صديق في معرض فني. تعرف على الفور على السلحفاة الموجودة على الصليب (لا تسألني) وحدد وترجم كانجي بجوارها مباشرة ، مما أعطانا قشعريرة وتركتنا خائفين بعض الشيء. بطريقة إيجابية ، أعتقد.

بدأت أفكر في كيفية اختبار وظيفة الإجهاد. عندما حاولت تسجيله على الشاشة قيد التشغيل ، فشل باستمرار. ماذا لو ابتعدت عن المسار المعتاد؟ أنا من أشد المعجبين بنوع الرعب (الأفلام والمسلسلات التلفزيونية وألعاب الفيديو) ولدي مجموعة كبيرة من المقتنيات والحلي والأشياء الأخرى. ما مدى جودة أدائه مع العناصر الأكثر غموضًا ، مثل المقتنيات ذات الطابع المرعب؟

أولاً ، يجب أن أذكر أن Gemini يمكن أن يكون مذهلاً بشكل لا يصدق ومزعجًا بشكل لا يصدق في نفس جولة الأسئلة. كان لدي حوالي 11 كائنًا أردت أن يتعرف عليها Gemini ، وكلما طالت الجلسة المباشرة ، زادت الأمور سوءًا ، لذلك اضطررت إلى حصر الجلسات في كائن واحد أو اثنين. في رأيي ، حاول Gemini استخدام المعلومات السياقية من العناصر التي تم التعرف عليها سابقًا للتخمين في العناصر الجديدة ، وهو أمر منطقي إلى حد ما ، لكنه في النهاية لم يفيدني ولا هو.

في بعض الأحيان ، كان Gemini دقيقًا تمامًا ، حيث قدم الإجابات الصحيحة بسهولة ودون ارتباك ، على الرغم من أن هذا حدث في كثير من الأحيان مع العناصر الأحدث أو الأكثر شيوعًا. لقد فوجئت ، على سبيل المثال ، عندما استنتج على الفور أن أحد عناصر الاختبار الخاصة بي لم يكن فقط من Destiny 2 ، ولكن أيضًا إصدار محدود من حدث موسمي من العام السابق.

غالبًا ما كان Gemini بعيدًا تمامًا عن الهدف ، مما يتطلب مني تقديم المزيد من التلميحات من أجل الاقتراب من الإجابة الصحيحة. في بعض الأحيان ، بدا الأمر كما لو أن Gemini كان يستخدم سياقًا من جلساتي المباشرة السابقة لتوليد الردود ، وتحديد كائنات متعددة على أنها قادمة من Silent Hill عندما لم تكن كذلك. لديّ صندوق عرض مخصص لسلسلة الألعاب ، لذلك يمكنني أن أفهم سبب رغبتك في الخوض في هذا المجال بسرعة.

الكشف عن العيوب: الأخطاء والميزات الغريبة في النظام

يمكن أن يكون Gemini مليئًا بالأخطاء تمامًا في بعض الأحيان. في بعض الأحيان ، أخطأ Gemini في تحديد أحد الكائنات على أنه شخصية خيالية من لعبة Silent Hill: f التي لم يتم إصدارها ، ودمج بوضوح أجزاء من عناوين مختلفة في شيء لم يكن موجودًا من قبل. عندما أعطى Gemini إجابة غير صحيحة ، وقمت بتصحيحها وأعطيتها تلميحًا أقرب إلى الإجابة ، أو ببساطة أعطيتها الإجابة ، فقط لتكرار الإجابة غير الصحيحة كما لو كانت تخمينًا جديدًا ، كان الخطأ الآخر المتسق الذي واجهته. عندما حدث ذلك ، كنت أغلق الجلسة وأبدأ جلسة جديدة ، وهو ما لم يكن دائمًا مفيدًا.

إحدى التقنيات التي اكتشفتها هي أن بعض المناقشات كانت أكثر فعالية من غيرها. إذا انتقلت إلى قائمة محادثات Gemini الخاصة بي ، ونقرت على دردشة قديمة حصلت على عنصر معين بشكل صحيح ، ثم انتقلت إلى البث المباشر مرة أخرى من تلك الدردشة ، فسيكون قادرًا على تحديد العناصر دون أي مشاكل. في حين أن هذا ليس دائمًا غير متوقع ، فقد كان من المثير للاهتمام ملاحظة أن بعض الحوارات كانت تؤدي أداءً أفضل من غيرها ، حتى عند استخدام نفس اللغة.

لم تستجب Google لاستفساراتي للحصول على معلومات إضافية حول كيفية عمل Gemini Live.

أردت أن يجيب Gemini بنجاح على أسئلتي الصعبة والمحددة للغاية في بعض الأحيان ، لذلك قدمت الكثير من التلميحات لمساعدته على القيام بذلك. أثبتت الدوافع أنها مفيدة ، ولكن ليس دائمًا.

تقنية تحويلية: التأثير المحتمل لـ Gemini Live

يمثل Gemini Live تحولًا نموذجيًا في كيفية تفاعلنا مع محيطنا ، حيث يدمج بسلاسة العالمين الرقمي والمادي من خلال عدسة الكاميرات الخاصة بنا. في حين أن التكنولوجيا لا تزال في مراحلها الأولى ، إلا أن تطبيقاتها المحتملة واسعة وتحويلية.

تخيل استخدام Gemini Live من أجل:

  • التنقل في البيئات غير المألوفة: ما عليك سوى توجيه الكاميرا إلى لافتات الشوارع أو المعالم البارزة ، وسيوفر Gemini اتجاهات ومعلومات في الوقت الفعلي.
  • تعرف على القطع الأثرية التاريخية: عند زيارة متحف ، استخدم Gemini للتعرف على الأعمال الفنية والأشياء التاريخية وتوفير سياق لها.
  • طهي وصفات معقدة: اطلب من Gemini إرشادك خلال كل خطوة من خطوات الوصفة ، وتحديد المكونات واقتراح تقنيات بديلة.
  • تشخيص المشكلات المنزلية البسيطة: وجه الكاميرا إلى جهاز معطل ، وسيوفر Gemini نصائح حول استكشاف الأخطاء وإصلاحها والحلول المحتملة.

هذه مجرد أمثلة قليلة على الطرق العديدة التي يمكن أن يعزز بها Gemini Live حياتنا اليومية. مع استمرار تطور التكنولوجيا وتحسينها ، فإن قدرتها على إحداث ثورة في كيفية تفاعلنا مع العالم من حولنا لا حدود لها حقًا.

يزيد دمج Gemini Live في أجهزة iOS من نطاقه وإمكانية الوصول إليه، مما يجلب قوة الرؤية المدعومة بالذكاء الاصطناعي إلى جمهور أوسع. مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي بمعدل كبير، تقدم ميزات مثل Gemini Live لمحة عن المستقبل حيث ليست أجهزتنا مجرد أدوات للاتصال والترفيه ولكن أيضًا رفقاء أذكياء يمكنهم مساعدتنا في التنقل والفهم والتفاعل مع العالم من حولنا بطرق جديدة وذات مغزى.