حالت دوربین Gemini Live یک گام مهم در تکامل هوش مصنوعی به شمار میرود و قطعهای ملموس از آینده را مستقیماً در نوک انگشتان ما قرار میدهد. در حالی که کاربرانی که از دستگاههای Pixel 9 و Samsung Galaxy S25 استفاده میکنند، مدتی است که از این ویژگی نوآورانه لذت میبرند، اعلامیه اخیر گوگل در کنفرانس I/O دسترسی را به مخاطبان بسیار گستردهتری گسترش میدهد و شامل کاربران Android و iOS میشود. این توسعه به ویژه برای دارندگان iPhone هیجانانگیز است، زیرا اکنون میتوانند یکی از جذابترین عملکردهای هوش مصنوعی موجود را تجربه کنند، به ویژه با توجه به اینکه حالت دوربین در ابتدا در ماه آوریل برای سایر کاربران Android عرضه شد.
رونمایی از قدرت بینایی: حالت دوربین Gemini چگونه کار میکند
در هسته اصلی خود، حالت دوربین Gemini Live به هوش مصنوعی این امکان را میدهد که "ببیند" و به آن امکان میدهد اشیاء قرار داده شده در میدان دید دوربین را تشخیص داده و شناسایی کند. این صرفاً یک ترفند سطحی نیست. این یک ابزار قدرتمند است که به کاربران اجازه میدهد به روشی بصریتر و آموزندهتر با محیط اطراف خود تعامل داشته باشند.
فراتر از تشخیص ساده اشیاء، Gemini میتواند به سوالات مربوط به موارد شناسایی شده نیز پاسخ دهد و در صورت نیاز زمینه و بینش ارائه دهد. علاوه بر این، کاربران میتوانند صفحه نمایش خود را با Gemini به اشتراک بگذارند و به هوش مصنوعی اجازه دهند عناصر نمایش داده شده روی صفحه تلفن آنها را تجزیه و تحلیل و شناسایی کند. برای شروع یک جلسه زنده با حالت دوربین، کاربران به سادگی نمای دوربین زنده را فعال میکنند و به آنها اجازه میدهد در مورد هر چیزی که دوربین ضبط میکند با چتبات مکالمه کنند.
اولین برداشتها: آزمایش با Gemini Live
در طول مرحله آزمایش اولیه با Gemini Live در Pixel 9 Pro XL، از قابلیتهای آن عمیقاً تحت تأثیر قرار گرفتم. یکی از تجربههای به یاد ماندنی، درخواست از Gemini برای یافتن قیچی گمشدهام بود.
هوش مصنوعی با دقت قابل توجهی پاسخ داد: "من قیچی شما را روی میز، درست در کنار بسته سبز رنگ پسته دیدم. آیا آنها را میبینید؟"
با کمال تعجب، Gemini درست حدس زده بود. قیچی دقیقاً همان جایی بود که نشان داده بود، با وجود این واقعیت که من فقط به طور خلاصه دوربین را در مقابل آنها در طول یک جلسه زنده 15 دقیقهای که در آن اساساً یک تور آپارتمانم را به چتبات هوش مصنوعی میدادم، عبور داده بودم.
با کنجکاوی ناشی از این موفقیت اولیه، مشتاقانه حالت دوربین را بیشتر بررسی کردم. در یک آزمایش دیگر و طولانیتر، این ویژگی را فعال کردم و شروع به قدم زدن در آپارتمانم کردم و از Gemini خواستم اشیایی را که میدید شناسایی کند. آن با دقت موارد مختلف از جمله میوه، ChapStick و سایر اشیاء روزمره را تشخیص داد. با این حال، کشف دوباره قیچیام، برجستهترین نمایش قابلیتهای آن باقی ماند.
این واقعیت که Gemini قیچی را بدون هیچ گونه درخواست قبلی شناسایی کرد، به ویژه چشمگیر بود. هوش مصنوعی به طور بیصدا آنها را در نقطهای از جلسه تشخیص داده بود و محل آنها را با دقت قابل توجهی به یاد میآورد. این تجربه واقعاً مانند نگاهی اجمالی به آینده بود و من را برانگیخت تا تحقیقات بیشتری در مورد پتانسیل آن انجام دهم.
الهام گرفتن: چشمانداز گوگل برای هوش مصنوعی ویدیویی زنده
آزمایش من با ویژگی دوربین Gemini Live، منعکسکننده نمایشی بود که گوگل در تابستان گذشته به نمایش گذاشت که اولین نگاه به این قابلیتهای هوش مصنوعی ویدیویی زنده را ارائه میکرد. این نسخه نمایشی شامل Gemini بود که به کاربر یادآوری میکرد عینک خود را کجا گذاشته است، که ظاهراً یک شاهکار بسیار خوب برای درست بودن بود. با این حال، همانطور که من کشف کردم، این سطح از دقت واقعاً قابل دستیابی بود.
Gemini Live قادر است بسیار بیشتر از وسایل خانگی را تشخیص دهد. گوگل ادعا میکند که میتواند به کاربران در پیمایش ایستگاههای قطار شلوغ یا شناسایی مواد پرکننده در شیرینیها کمک کند. همچنین میتواند بینش عمیقتری در مورد آثار هنری ارائه دهد، مانند منشاء آن و اینکه آیا یک قطعه با نسخه محدود است یا خیر.
این عملکرد فراتر از یک Google Lens معمولی است. میتوانید با هوش مصنوعی مکالمه داشته باشید، که بسیار محاورهایتر از Google Assistant است.
گوگل نیز یک ویدیو YouTube از این ویژگی منتشر کرده است و اکنون صفحه اختصاصی خود را در Google Store دارد.
برای شروع، Gemini را راهاندازی کنید، دوربین را روشن کنید و شروع به صحبت کنید.
Gemini Live بر اساس Project Astra گوگل ساخته شده است که در ابتدا در سال گذشته ارائه شد و شاید بزرگترین ویژگی "ما در آینده هستیم" این شرکت باشد، یک گام تجربی بعدی برای قابلیتهای هوش مصنوعی مولد، فراتر از تایپ ساده یا حتی بیان اعلانها در یک چتبات مانند ChatGPT، Claude یا Gemini.
شرکتهای هوش مصنوعی به طور مداوم در حال بهبود قابلیتهای ابزارهای هوش مصنوعی، از ساخت ویدیو گرفته تا قدرت پردازش اساسی هستند. Visual Intelligence اپل، که سازنده iPhone در سال گذشته به صورت آزمایشی منتشر کرد، قابل مقایسه با Gemini Live است.
Gemini Live این پتانسیل را دارد که با ادغام محیطهای دیجیتالی و فیزیکی ما در حالی که به سادگی دوربین را در مقابل هر چیزی نگه میداریم، نحوه ارتباط ما با محیط را متحول کند.
آزمایش Gemini Live: سناریوهای دنیای واقعی
اولین باری که از آن استفاده کردم، Gemini به طور دقیق یک کلکسیون بازی بسیار خاص از یک خرگوش عروسکی را در نمای دوربین من تشخیص داد. دفعه دوم، آن را به یکی از دوستانم در یک گالری هنری نشان دادم. آن بلافاصله لاک پشت روی یک صلیب (از من نپرسید) را شناخت و کانجی را درست در کنار آن شناسایی و ترجمه کرد، که هر دوی ما را به لرزه درآورد و کمی ما را ترساند. به روشی مثبت، من باور دارم.
شروع به بررسی این موضوع کردم که چگونه میتوانم این عملکرد را استرس آزمون کنم. وقتی سعی کردم در حین عملکرد از آن screen-record بگیرم، به طور مداوم موفق نشدم. اگر از مسیر همیشگی منحرف شوم چه؟ من از طرفداران بزرگ ژانر وحشت (فیلمها، مجموعههای تلویزیونی و بازیهای ویدئویی) هستم و تعداد زیادی کلکسیون، وسایل تزئینی و سایر موارد را در اختیار دارم. چقدر خوب با موارد مبهمتر، مانند کلکسیونهای با مضمون وحشت من، عمل میکند؟
ابتدا، باید بگویم که Gemini میتواند هم به طرز غیرقابل باوری شگفتانگیز و هم به طرز باورنکردنی آزاردهنده در یک دور از سوالات باشد. من حدود 11 شیء داشتم که میخواستم Gemini شناسایی کند، و هرچه جلسه زنده طولانیتر میشد، بدتر میشد، بنابراین مجبور شدم جلسات را به یک یا دو شیء محدود کنم. به نظر من، Gemini سعی کرد از اطلاعات زمینهای از موارد شناسایی شده قبلی برای حدس زدن موارد جدید استفاده کند، که تا حدودی منطقی است، اما در نهایت به نفع من و نه نفع خودش بود.
گاهی اوقات، Gemini کاملاً دقیق بود و پاسخهای صحیح را به راحتی و بدون سردرگمی ارائه میداد، اگرچه این مورد بیشتر در مورد اشیاء جدیدتر یا محبوبتر رخ میداد. به عنوان مثال، من تعجب کردم وقتی که بلافاصله استنباط کرد که یکی از اشیاء آزمایشی من نه تنها از Destiny 2 است، بلکه یک نسخه محدود از یک رویداد فصلی از سال قبل است.
Gemini اغلب به طور کامل از علائم دور میشد و برای نزدیک شدن به پاسخ صحیح نیاز به ارائه نکات دیگری از طرف من داشت. گاهی اوقات به نظر میرسید که Gemini از زمینه جلسات زنده قبلی من برای تولید پاسخها استفاده میکند و چندین شیء را به عنوان آمدن از Silent Hill شناسایی میکند در حالی که اینطور نبود. من یک ویترین نمایش اختصاص داده شده به این مجموعه بازیها دارم، بنابراین میتوانم درک کنم که چرا میخواهد به سرعت به آن منطقه فرو رود.
رونمایی از عیوب: اشکالات و ویژگیهای غیرعادی در سیستم
Gemini میتواند گاهی اوقات کاملاً از کار بیفتد. در مواردی، Gemini یکی از اشیاء را به عنوان یک شخصیت خیالی از بازی منتشر نشده Silent Hill: f اشتباه شناسایی کرد و به وضوح بخشهایی از عناوین مختلف را در چیزی که هرگز وجود نداشته است ترکیب کرد. خطای مداوم دیگری که با آن روبرو شدم این بود که وقتی Gemini پاسخ نادرستی میداد، و من آن را تصحیح میکردم و اشاره نزدیکتری به پاسخ میدادم – یا به سادگی پاسخ را میدادم – فقط برای اینکه آن پاسخ نادرست را دوباره تکرار کند انگار که یک حدس جدید است. وقتی این اتفاق میافتاد، جلسه را میبستم و یک جلسه جدید را شروع میکردم، که همیشه مفید نبود.
یکی از تکنیکهایی که کشف کردم این بود که برخی از بحثها مؤثرتر از سایرین بودند. اگر از لیست مکالمات Gemini خود عبور میکردم، روی یک چت قدیمیتر که یک مورد خاص را به درستی دریافت کرده بود ضربه میزدم، و سپس دوباره به صورت زنده از آن چت میرفتم، میتوانست موارد را بدون هیچ مشکلی شناسایی کند. در حالی که این همیشه غیرمنتظره نیست، جالب بود که توجه داشته باشیم که برخی از دیالوگها عملکرد بهتری نسبت به سایرین دارند، حتی هنگام استفاده از همان زبان.
گوگل به درخواستهای من برای اطلاعات اضافی در مورد نحوه عملکرد Gemini Live پاسخ نداد.
من میخواستم Gemini با موفقیت به سوالات چالشبرانگیز، گاهی اوقات بسیار خاص من پاسخ دهد، بنابراین من نکات زیادی را برای کمک به آن ارائه دادم. تکانهایی که مفید بودند، اما نه همیشه.
یک فناوری دگرگونکننده: تأثیر بالقوه Gemini Live
Gemini Live نشاندهنده یک تغییر پارادایم در نحوه تعامل ما با محیط اطرافمان است و به طور یکپارچه قلمروهای دیجیتالی و فیزیکی را از طریق لنز دوربینهایمان ادغام میکند. در حالی که این فناوری هنوز در مراحل اولیه خود قرار دارد، کاربردهای بالقوه آن گسترده و دگرگونکننده است.
تصور کنید از Gemini Live برای موارد زیر استفاده میکنید:
- پیمایش در محیطهای ناآشنا: به سادگی دوربین خود را به سمت تابلوهای خیابان یا نقاط دیدنی بگیرید و Gemini دستورالعملها و اطلاعات بلادرنگ را ارائه میدهد.
- یادگیری درباره آثار تاریخی: هنگام بازدید از یک موزه، از Gemini برای شناسایی و ارائه زمینه مناسب برای آثار هنری و اشیاء تاریخی استفاده کنید.
- پختن دستورالعملهای پیچیده: از Gemini بخواهید شما را در هر مرحله از یک دستورالعمل راهنمایی کند، مواد تشکیل دهنده را شناسایی کند و تکنیکهای جایگزین را پیشنهاد دهد.
- تشخیص مشکلات ساده خانگی: دوربین خود را به سمت یک وسیله معیوب بگیرید و Gemini نکات عیبیابی و راهحلهای احتمالی را ارائه میدهد.
اینها تنها چند نمونه از روشهای بیشماری هستند که Gemini Live میتواند زندگی روزمره ما را بهبود بخشد. از آنجایی که این فناوری به تکامل و بهبود خود ادامه میدهد، پتانسیل آن برای متحول کردن نحوه تعامل ما با دنیای اطرافمان واقعاً نامحدود است.
ادغام Gemini Live در دستگاههای iOS دامنه و دسترسی آن را گسترش میدهد و قدرت دید مجهز به هوش مصنوعی را برای مخاطبان بیشتری به ارمغان میآورد. از آنجایی که فناوری هوش مصنوعی با سرعت نمایی به پیشرفت خود ادامه میدهد، ویژگیهایی مانند Gemini Live نگاهی اجمالی به آینده ارائه میدهند، جایی که دستگاههای ما نه تنها ابزاری برای ارتباط و سرگرمی، بلکه همراهان هوشمندی هستند که میتوانند به ما در پیمایش، درک و تعامل با دنیای اطراف خود به روشهای جدید و معنادار کمک کنند.