حالت دوربین Gemini Live در iOS

حالت دوربین Gemini Live یک گام مهم در تکامل هوش مصنوعی به شمار می‌رود و قطعه‌ای ملموس از آینده را مستقیماً در نوک انگشتان ما قرار می‌دهد. در حالی که کاربرانی که از دستگاه‌های Pixel 9 و Samsung Galaxy S25 استفاده می‌کنند، مدتی است که از این ویژگی نوآورانه لذت می‌برند، اعلامیه اخیر گوگل در کنفرانس I/O دسترسی را به مخاطبان بسیار گسترده‌تری گسترش می‌دهد و شامل کاربران Android و iOS می‌شود. این توسعه به ویژه برای دارندگان iPhone هیجان‌انگیز است، زیرا اکنون می‌توانند یکی از جذاب‌ترین عملکردهای هوش مصنوعی موجود را تجربه کنند، به ویژه با توجه به اینکه حالت دوربین در ابتدا در ماه آوریل برای سایر کاربران Android عرضه شد.

رونمایی از قدرت بینایی: حالت دوربین Gemini چگونه کار می‌کند

در هسته اصلی خود، حالت دوربین Gemini Live به هوش مصنوعی این امکان را می‌دهد که "ببیند" و به آن امکان می‌دهد اشیاء قرار داده شده در میدان دید دوربین را تشخیص داده و شناسایی کند. این صرفاً یک ترفند سطحی نیست. این یک ابزار قدرتمند است که به کاربران اجازه می‌دهد به روشی بصری‌تر و آموزنده‌تر با محیط اطراف خود تعامل داشته باشند.

فراتر از تشخیص ساده اشیاء، Gemini می‌تواند به سوالات مربوط به موارد شناسایی شده نیز پاسخ دهد و در صورت نیاز زمینه و بینش ارائه دهد. علاوه بر این، کاربران می‌توانند صفحه نمایش خود را با Gemini به اشتراک بگذارند و به هوش مصنوعی اجازه دهند عناصر نمایش داده شده روی صفحه تلفن آنها را تجزیه و تحلیل و شناسایی کند. برای شروع یک جلسه زنده با حالت دوربین، کاربران به سادگی نمای دوربین زنده را فعال می‌کنند و به آنها اجازه می‌دهد در مورد هر چیزی که دوربین ضبط می‌کند با چت‌بات مکالمه کنند.

اولین برداشت‌ها: آزمایش با Gemini Live

در طول مرحله آزمایش اولیه با Gemini Live در Pixel 9 Pro XL، از قابلیت‌های آن عمیقاً تحت تأثیر قرار گرفتم. یکی از تجربه‌های به یاد ماندنی، درخواست از Gemini برای یافتن قیچی گمشده‌ام بود.

هوش مصنوعی با دقت قابل توجهی پاسخ داد: "من قیچی شما را روی میز، درست در کنار بسته سبز رنگ پسته دیدم. آیا آنها را می‌بینید؟"

با کمال تعجب، Gemini درست حدس زده بود. قیچی دقیقاً همان جایی بود که نشان داده بود، با وجود این واقعیت که من فقط به طور خلاصه دوربین را در مقابل آنها در طول یک جلسه زنده 15 دقیقه‌ای که در آن اساساً یک تور آپارتمانم را به چت‌بات هوش مصنوعی می‌دادم، عبور داده بودم.

با کنجکاوی ناشی از این موفقیت اولیه، مشتاقانه حالت دوربین را بیشتر بررسی کردم. در یک آزمایش دیگر و طولانی‌تر، این ویژگی را فعال کردم و شروع به قدم زدن در آپارتمانم کردم و از Gemini خواستم اشیایی را که می‌دید شناسایی کند. آن با دقت موارد مختلف از جمله میوه، ChapStick و سایر اشیاء روزمره را تشخیص داد. با این حال، کشف دوباره قیچی‌ام، برجسته‌ترین نمایش قابلیت‌های آن باقی ماند.

این واقعیت که Gemini قیچی را بدون هیچ گونه درخواست قبلی شناسایی کرد، به ویژه چشمگیر بود. هوش مصنوعی به طور بی‌صدا آنها را در نقطه‌ای از جلسه تشخیص داده بود و محل آنها را با دقت قابل توجهی به یاد می‌آورد. این تجربه واقعاً مانند نگاهی اجمالی به آینده بود و من را برانگیخت تا تحقیقات بیشتری در مورد پتانسیل آن انجام دهم.

الهام گرفتن: چشم‌انداز گوگل برای هوش مصنوعی ویدیویی زنده

آزمایش من با ویژگی دوربین Gemini Live، منعکس‌کننده نمایشی بود که گوگل در تابستان گذشته به نمایش گذاشت که اولین نگاه به این قابلیت‌های هوش مصنوعی ویدیویی زنده را ارائه می‌کرد. این نسخه نمایشی شامل Gemini بود که به کاربر یادآوری می‌کرد عینک خود را کجا گذاشته است، که ظاهراً یک شاهکار بسیار خوب برای درست بودن بود. با این حال، همانطور که من کشف کردم، این سطح از دقت واقعاً قابل دستیابی بود.

Gemini Live قادر است بسیار بیشتر از وسایل خانگی را تشخیص دهد. گوگل ادعا می‌کند که می‌تواند به کاربران در پیمایش ایستگاه‌های قطار شلوغ یا شناسایی مواد پرکننده در شیرینی‌ها کمک کند. همچنین می‌تواند بینش عمیق‌تری در مورد آثار هنری ارائه دهد، مانند منشاء آن و اینکه آیا یک قطعه با نسخه محدود است یا خیر.

این عملکرد فراتر از یک Google Lens معمولی است. می‌توانید با هوش مصنوعی مکالمه داشته باشید، که بسیار محاوره‌ای‌تر از Google Assistant است.

گوگل نیز یک ویدیو YouTube از این ویژگی منتشر کرده است و اکنون صفحه اختصاصی خود را در Google Store دارد.

برای شروع، Gemini را راه‌اندازی کنید، دوربین را روشن کنید و شروع به صحبت کنید.

Gemini Live بر اساس Project Astra گوگل ساخته شده است که در ابتدا در سال گذشته ارائه شد و شاید بزرگترین ویژگی "ما در آینده هستیم" این شرکت باشد، یک گام تجربی بعدی برای قابلیت‌های هوش مصنوعی مولد، فراتر از تایپ ساده یا حتی بیان اعلان‌ها در یک چت‌بات مانند ChatGPT، Claude یا Gemini.

شرکت‌های هوش مصنوعی به طور مداوم در حال بهبود قابلیت‌های ابزارهای هوش مصنوعی، از ساخت ویدیو گرفته تا قدرت پردازش اساسی هستند. Visual Intelligence اپل، که سازنده iPhone در سال گذشته به صورت آزمایشی منتشر کرد، قابل مقایسه با Gemini Live است.

Gemini Live این پتانسیل را دارد که با ادغام محیط‌های دیجیتالی و فیزیکی ما در حالی که به سادگی دوربین را در مقابل هر چیزی نگه می‌داریم، نحوه ارتباط ما با محیط را متحول کند.

آزمایش Gemini Live: سناریوهای دنیای واقعی

اولین باری که از آن استفاده کردم، Gemini به طور دقیق یک کلکسیون بازی بسیار خاص از یک خرگوش عروسکی را در نمای دوربین من تشخیص داد. دفعه دوم، آن را به یکی از دوستانم در یک گالری هنری نشان دادم. آن بلافاصله لاک پشت روی یک صلیب (از من نپرسید) را شناخت و کانجی را درست در کنار آن شناسایی و ترجمه کرد، که هر دوی ما را به لرزه درآورد و کمی ما را ترساند. به روشی مثبت، من باور دارم.

شروع به بررسی این موضوع کردم که چگونه می‌توانم این عملکرد را استرس آزمون کنم. وقتی سعی کردم در حین عملکرد از آن screen-record بگیرم، به طور مداوم موفق نشدم. اگر از مسیر همیشگی منحرف شوم چه؟ من از طرفداران بزرگ ژانر وحشت (فیلم‌ها، مجموعه‌های تلویزیونی و بازی‌های ویدئویی) هستم و تعداد زیادی کلکسیون، وسایل تزئینی و سایر موارد را در اختیار دارم. چقدر خوب با موارد مبهم‌تر، مانند کلکسیون‌های با مضمون وحشت من، عمل می‌کند؟

ابتدا، باید بگویم که Gemini می‌تواند هم به طرز غیرقابل باوری شگفت‌انگیز و هم به طرز باورنکردنی آزاردهنده در یک دور از سوالات باشد. من حدود 11 شیء داشتم که می‌خواستم Gemini شناسایی کند، و هرچه جلسه زنده طولانی‌تر می‌شد، بدتر می‌شد، بنابراین مجبور شدم جلسات را به یک یا دو شیء محدود کنم. به نظر من، Gemini سعی کرد از اطلاعات زمینه‌ای از موارد شناسایی شده قبلی برای حدس زدن موارد جدید استفاده کند، که تا حدودی منطقی است، اما در نهایت به نفع من و نه نفع خودش بود.

گاهی اوقات، Gemini کاملاً دقیق بود و پاسخ‌های صحیح را به راحتی و بدون سردرگمی ارائه می‌داد، اگرچه این مورد بیشتر در مورد اشیاء جدیدتر یا محبوب‌تر رخ می‌داد. به عنوان مثال، من تعجب کردم وقتی که بلافاصله استنباط کرد که یکی از اشیاء آزمایشی من نه تنها از Destiny 2 است، بلکه یک نسخه محدود از یک رویداد فصلی از سال قبل است.

Gemini اغلب به طور کامل از علائم دور می‌شد و برای نزدیک شدن به پاسخ صحیح نیاز به ارائه نکات دیگری از طرف من داشت. گاهی اوقات به نظر می‌رسید که Gemini از زمینه جلسات زنده قبلی من برای تولید پاسخ‌ها استفاده می‌کند و چندین شیء را به عنوان آمدن از Silent Hill شناسایی می‌کند در حالی که اینطور نبود. من یک ویترین نمایش اختصاص داده شده به این مجموعه بازی‌ها دارم، بنابراین می‌توانم درک کنم که چرا می‌خواهد به سرعت به آن منطقه فرو رود.

رونمایی از عیوب: اشکالات و ویژگی‌های غیرعادی در سیستم

Gemini می‌تواند گاهی اوقات کاملاً از کار بیفتد. در مواردی، Gemini یکی از اشیاء را به عنوان یک شخصیت خیالی از بازی منتشر نشده Silent Hill: f اشتباه شناسایی کرد و به وضوح بخش‌هایی از عناوین مختلف را در چیزی که هرگز وجود نداشته است ترکیب کرد. خطای مداوم دیگری که با آن روبرو شدم این بود که وقتی Gemini پاسخ نادرستی می‌داد، و من آن را تصحیح می‌کردم و اشاره نزدیک‌تری به پاسخ می‌دادم – یا به سادگی پاسخ را می‌دادم – فقط برای اینکه آن پاسخ نادرست را دوباره تکرار کند انگار که یک حدس جدید است. وقتی این اتفاق می‌افتاد، جلسه را می‌بستم و یک جلسه جدید را شروع می‌کردم، که همیشه مفید نبود.

یکی از تکنیک‌هایی که کشف کردم این بود که برخی از بحث‌ها مؤثرتر از سایرین بودند. اگر از لیست مکالمات Gemini خود عبور می‌کردم، روی یک چت قدیمی‌تر که یک مورد خاص را به درستی دریافت کرده بود ضربه می‌زدم، و سپس دوباره به صورت زنده از آن چت می‌رفتم، می‌توانست موارد را بدون هیچ مشکلی شناسایی کند. در حالی که این همیشه غیرمنتظره نیست، جالب بود که توجه داشته باشیم که برخی از دیالوگ‌ها عملکرد بهتری نسبت به سایرین دارند، حتی هنگام استفاده از همان زبان.

گوگل به درخواست‌های من برای اطلاعات اضافی در مورد نحوه عملکرد Gemini Live پاسخ نداد.

من می‌خواستم Gemini با موفقیت به سوالات چالش‌برانگیز، گاهی اوقات بسیار خاص من پاسخ دهد، بنابراین من نکات زیادی را برای کمک به آن ارائه دادم. تکان‌هایی که مفید بودند، اما نه همیشه.

یک فناوری دگرگون‌کننده: تأثیر بالقوه Gemini Live

Gemini Live نشان‌دهنده یک تغییر پارادایم در نحوه تعامل ما با محیط اطرافمان است و به طور یکپارچه قلمروهای دیجیتالی و فیزیکی را از طریق لنز دوربین‌هایمان ادغام می‌کند. در حالی که این فناوری هنوز در مراحل اولیه خود قرار دارد، کاربردهای بالقوه آن گسترده و دگرگون‌کننده است.

تصور کنید از Gemini Live برای موارد زیر استفاده می‌کنید:

  • پیمایش در محیط‌های ناآشنا: به سادگی دوربین خود را به سمت تابلوهای خیابان یا نقاط دیدنی بگیرید و Gemini دستورالعمل‌ها و اطلاعات بلادرنگ را ارائه می‌دهد.
  • یادگیری درباره آثار تاریخی: هنگام بازدید از یک موزه، از Gemini برای شناسایی و ارائه زمینه مناسب برای آثار هنری و اشیاء تاریخی استفاده کنید.
  • پختن دستورالعمل‌های پیچیده: از Gemini بخواهید شما را در هر مرحله از یک دستورالعمل راهنمایی کند، مواد تشکیل دهنده را شناسایی کند و تکنیک‌های جایگزین را پیشنهاد دهد.
  • تشخیص مشکلات ساده خانگی: دوربین خود را به سمت یک وسیله معیوب بگیرید و Gemini نکات عیب‌یابی و راه‌حل‌های احتمالی را ارائه می‌دهد.

اینها تنها چند نمونه از روش‌های بی‌شماری هستند که Gemini Live می‌تواند زندگی روزمره ما را بهبود بخشد. از آنجایی که این فناوری به تکامل و بهبود خود ادامه می‌دهد، پتانسیل آن برای متحول کردن نحوه تعامل ما با دنیای اطرافمان واقعاً نامحدود است.

ادغام Gemini Live در دستگاه‌های iOS دامنه و دسترسی آن را گسترش می‌دهد و قدرت دید مجهز به هوش مصنوعی را برای مخاطبان بیشتری به ارمغان می‌آورد. از آنجایی که فناوری هوش مصنوعی با سرعت نمایی به پیشرفت خود ادامه می‌دهد، ویژگی‌هایی مانند Gemini Live نگاهی اجمالی به آینده ارائه می‌دهند، جایی که دستگاه‌های ما نه تنها ابزاری برای ارتباط و سرگرمی، بلکه همراهان هوشمندی هستند که می‌توانند به ما در پیمایش، درک و تعامل با دنیای اطراف خود به روش‌های جدید و معنادار کمک کنند.