قابلیت‌های جدید جمینای: پرسش از ویدیو و صفحه

تعامل در لحظه با صفحه: ‘Screenshare’

ویژگی ‘Screenshare’ که در کنگره جهانی موبایل (MWC) 2025 در بارسلونا به نمایش گذاشته شد، نشان دهنده جهشی در درک متنی برای Gemini است. این قابلیت به کاربران اجازه می‌دهد تا مستقیماً محتوای صفحه نمایش گوشی خود را با دستیار هوش مصنوعی به اشتراک بگذارند و سطح جدیدی از پرسش و پاسخ تعاملی را فعال کنند.

تصور کنید در حال مرور یک فروشگاه آنلاین هستید و به دنبال یک شلوار جین گشاد می‌گردید. با Screenshare، می‌توانید به سادگی صفحه نمایش خود را با Gemini به اشتراک بگذارید و در مورد لباس‌های مکمل سوال کنید. Gemini، با درک پیشرفته خود از زمینه بصری، می‌تواند پیشنهادات مرتبطی را ارائه دهد و تجربه خرید شما را شهودی‌تر و کارآمدتر کند.

این ویژگی فراتر از تشخیص ساده تصویر است. این در مورد درک زمینه فعلی کاربر و ارائه اطلاعاتی است که مستقیماً به فعالیت فوری او مربوط می‌شود. چه در حال مقایسه مشخصات محصول باشید، چه به دنبال توضیح در مورد یک نمودار پیچیده باشید، یا حتی در حال پیمایش در یک برنامه ناآشنا، Screenshare ابزاری قدرتمند برای کمک فوری و آگاه از زمینه ارائه می‌دهد.

جستجوی ویدیو: آشکارسازی بینش‌ها در حرکت

ویژگی جستجوی ویدیو که برای اولین بار در Google I/O سال گذشته معرفی شد، قابلیت‌های Gemini را فراتر از تصاویر ثابت می‌برد. این قابلیت به کاربران امکان می‌دهد یک ویدیو ضبط کنند و در مورد محتوای آن در حین فیلمبرداری از Gemini سوال بپرسند.

این امر دنیایی از احتمالات را باز می‌کند. تصور کنید در یک موزه هستید و مجذوب یک اثر هنری شده‌اید. می‌توانید از اثر هنری فیلم بگیرید و از Gemini در مورد اهمیت تاریخی، تکنیک‌های هنرمند یا حتی نمادهای درون اثر سوال کنید. Gemini با تجزیه و تحلیل ویدیو در زمان واقعی، می‌تواند بینش‌های فوری ارائه دهد و درک و قدردانی شما را غنی‌تر کند.

پتانسیل کاربردهای آموزشی را در نظر بگیرید. دانش‌آموزان می‌توانند از یک آزمایش علمی فیلم بگیرند و از Gemini در مورد اصول اساسی در حال انجام سوال کنند. مکانیک‌ها می‌توانند از تعمیر پیچیده موتور فیلم بگیرند و راهنمایی‌های بی‌درنگ از Gemini دریافت کنند. امکانات گسترده هستند و در زمینه‌های متعددی گسترش می‌یابند.

گسترش مرزهای تعامل هوش مصنوعی

این ویژگی‌های جدید فقط در مورد پرسیدن سوال نیستند. آنها در مورد ایجاد تعامل روان‌تر و طبیعی‌تر بین کاربران و اطلاعات هستند. روش‌های جستجوی سنتی اغلب از کاربران می‌خواهند که پرس‌وجوهای متنی دقیقی را فرموله کنند. با پرسش‌های مبتنی بر ویدیو و صفحه، Gemini رویکردی شهودی‌تر را امکان‌پذیر می‌سازد و نحوه کاوش و یادگیری طبیعی ما در دنیای واقعی را منعکس می‌کند.

حرکت به سمت درک بصری و متنی نشان دهنده یک روند مهم در توسعه هوش مصنوعی است. همانطور که مدل‌های هوش مصنوعی پیچیده‌تر می‌شوند، به طور فزاینده‌ای قادر به تفسیر و پاسخ به اطلاعات غیر متنی هستند و راه‌های جدیدی را برای تعامل انسان و کامپیوتر باز می‌کنند.

بررسی عمیق‌تر قابلیت Screenshare

ویژگی Screenshare چیزی بیش از یک ابزار ساده اشتراک‌گذاری صفحه است. این یک سیستم پیچیده است که چندین قابلیت هوش مصنوعی را برای ارائه یک تجربه کاربری یکپارچه و شهودی ترکیب می‌کند.

  • تجزیه و تحلیل بصری در زمان واقعی: Gemini فقط صفحه را “نمی‌بیند”. بلکه محتوا را در زمان واقعی تجزیه و تحلیل می‌کند. این بدان معناست که می‌تواند اشیاء، متن و حتی زمینه کلی آنچه را که نمایش داده می‌شود، شناسایی کند. این تجزیه و تحلیل مداوم به Gemini اجازه می‌دهد تا به سرعت و با دقت به سوالات پاسخ دهد.
  • درک متنی: Gemini فراتر از شناسایی ساده عناصر روی صفحه می‌رود. این زمینه فعالیت کاربر را درک می‌کند. به عنوان مثال، اگر در حال مرور یک وب سایت خرید هستید، Gemini متوجه می‌شود که احتمالاً به دنبال اطلاعات محصول یا توصیه‌هایی هستید. این آگاهی متنی به Gemini اجازه می‌دهد تا پاسخ‌های مرتبط‌تر و مفیدتری ارائه دهد.
  • پردازش زبان طبیعی: در حالی که ورودی بصری است، تعامل همچنان طبیعی و شهودی باقی می‌ماند. کاربران می‌توانند سوالات را به زبان ساده بپرسند، درست مانند اینکه با یک دستیار انسانی صحبت می‌کنند. قابلیت‌های پردازش زبان طبیعی Gemini به آن اجازه می‌دهد تا هدف پشت سوال را درک کند و پاسخ مرتبطی ارائه دهد.
  • یادگیری تطبیقی: Gemini از هر تعامل یاد می‌گیرد. با پرسیدن سوالات بیشتر و ارائه بازخورد، درک Gemini از ترجیحات و نیازهای آنها بهبود می‌یابد. این یادگیری تطبیقی به Gemini اجازه می‌دهد تا در طول زمان کمک‌های شخصی‌سازی شده و مفیدتری ارائه دهد.

کاوش در پتانسیل جستجوی ویدیو

ویژگی جستجوی ویدیو نشان دهنده پیشرفت قابل توجهی در بازیابی اطلاعات مبتنی بر هوش مصنوعی است. این فقط در مورد یافتن ویدیوها نیست. بلکه در مورد استخراج دانش و بینش از درون ویدیوها است.

  • تجزیه و تحلیل محتوای پویا: برخلاف تصاویر ثابت، ویدیوها حاوی اطلاعات پویای فراوانی هستند. Gemini می‌تواند حرکت را تجزیه و تحلیل کند، تغییرات را در طول زمان شناسایی کند و روابط بین عناصر مختلف درون ویدیو را درک کند. این امر امکان درک بسیار غنی‌تر و ظریف‌تری از محتوا را فراهم می‌کند.
  • پاسخگویی به سوالات در زمان واقعی: توانایی پرسیدن سوال در حین فیلمبرداری یک تغییر دهنده بازی است. این امر نیاز به یادآوری جزئیات خاص یا فرموله کردن پرس و جوهای پیچیده پس از واقعیت را از بین می‌برد. کاربران می‌توانند به سادگی دوربین خود را به سمت چیزی که مورد علاقه است بگیرند و از Gemini اطلاعات فوری بخواهند.
  • یادگیری چندوجهی: جستجوی ویدیو اطلاعات بصری را با نشانه‌های صوتی (در صورت وجود) و درک متنی ترکیب می‌کند. این رویکرد چندوجهی به Gemini اجازه می‌دهد تا از چندین منبع اطلاعاتی برای ارائه پاسخ‌های جامع استفاده کند.
  • دسترسی‌پذیری پیشرفته: جستجوی ویدیو می‌تواند به ویژه برای افراد دارای اختلالات بینایی مفید باشد. با اجازه دادن به کاربران برای پرسیدن سوال در مورد محیط اطراف خود، Gemini می‌تواند به آنها کمک کند تا راحت‌تر در جهان حرکت کنند و به اطلاعاتی که ممکن است در غیر این صورت غیرقابل دسترس باشد، دسترسی پیدا کنند.

آینده دستیاری مبتنی بر هوش مصنوعی

معرفی پرسش‌های مبتنی بر ویدیو و صفحه در Gemini نگاهی اجمالی به آینده دستیاری مبتنی بر هوش مصنوعی است. همانطور که مدل‌های هوش مصنوعی به تکامل خود ادامه می‌دهند، می‌توانیم انتظار تعاملات یکپارچه‌تر و شهودی‌تری بین انسان و فناوری داشته باشیم.

  • یادگیری شخصی‌سازی شده: دستیاران هوش مصنوعی به طور فزاینده‌ای در درک سبک‌ها و ترجیحات یادگیری فردی مهارت خواهند یافت. آنها قادر خواهند بود محتوای آموزشی را تنظیم کنند و راهنمایی‌های شخصی‌سازی شده‌ای را برای کمک به کاربران در دستیابی به اهداف یادگیری خود ارائه دهند.
  • ادغام واقعیت افزوده: جستجوی ویدیو و پرسش‌های مبتنی بر صفحه، تناسب طبیعی با برنامه‌های واقعیت افزوده (AR) دارند. تصور کنید عینک‌های AR را بپوشید که می‌توانند اشیاء را در میدان دید شما شناسایی کنند و اطلاعات بی‌درنگ در مورد آنها ارائه دهند.
  • کمک پیشگیرانه: دستیاران هوش مصنوعی در پیش‌بینی نیازهای کاربر فعال‌تر خواهند شد. آنها قادر خواهند بود مشکلات یا فرصت‌های بالقوه را شناسایی کرده و قبل از اینکه صریحاً از آنها خواسته شود، کمک ارائه دهند.
  • همکاری پیشرفته: دستیاران هوش مصنوعی همکاری موثرتر بین انسان‌ها را تسهیل می‌کنند. آنها قادر خواهند بود زبان‌ها را در زمان واقعی ترجمه کنند، نکات کلیدی جلسات را خلاصه کنند و حتی بینش‌هایی در مورد پویایی تیم ارائه دهند.

دسترسی و عرضه

این ویژگی‌های پیشگامانه قرار است اواخر این ماه برای کاربران Gemini Advanced در طرح Google One AI Premium در Android منتشر شوند. این عرضه مرحله‌ای به Google اجازه می‌دهد تا بازخورد کاربران را جمع‌آوری کند و ویژگی‌ها را قبل از انتشار گسترده‌تر، بیشتر اصلاح کند. طرح Google One AI Premium طیف وسیعی از مزایا، از جمله دسترسی به پیشرفته‌ترین مدل‌ها و ویژگی‌های هوش مصنوعی را ارائه می‌دهد و آن را به گزینه‌ای جذاب برای کاربرانی تبدیل می‌کند که به دنبال کاوش در لبه برش فناوری هوش مصنوعی هستند.
این دسترسی اولیه در Android نشان دهنده پذیرش گسترده این پلتفرم است و پایگاه کاربری بزرگی را برای آزمایش و اصلاح فراهم می‌کند. گسترش آتی به پلتفرم‌های دیگر محتمل است، زیرا Google به توسعه و بهبود قابلیت‌های Gemini در سراسر اکوسیستم خود ادامه می‌دهد.

تمرکز عمیق‌تر بر کاربردهای عملی

قدرت واقعی این ویژگی‌های جدید Gemini در کاربردهای عملی آنها در طیف وسیعی از سناریوها نهفته است. بیایید چند نمونه خاص را در نظر بگیریم:

1. سفر و اکتشاف:

  • شناسایی مکان‌های دیدنی: هنگام بازدید از یک شهر جدید، کاربر می‌تواند از یک ساختمان تاریخی فیلم بگیرد و از Gemini نام، تاریخچه و اهمیت معماری آن را بپرسد.
  • ترجمه منو: در یک رستوران خارجی، کاربر می‌تواند صفحه نمایش خود را که منو را نشان می‌دهد با Gemini به اشتراک بگذارد و ترجمه فوری، همراه با توصیه‌هایی بر اساس ترجیحات غذایی خود دریافت کند.
  • ناوبری حمل و نقل عمومی: هنگام پیمایش در یک سیستم مترو ناآشنا، کاربر می‌تواند از نقشه فیلم بگیرد و از Gemini بهترین مسیر را به مقصد خود بپرسد.

2. آموزش و یادگیری:

  • کتاب‌های درسی تعاملی: دانش‌آموزان می‌توانند صفحه نمایش خود را که صفحه کتاب درسی را نشان می‌دهد با Gemini به اشتراک بگذارند و در مورد مفاهیم یا تعاریف پیچیده سوال بپرسند.
  • کمک به آزمایش علمی: هنگام انجام یک آزمایش علمی، دانش‌آموز می‌تواند از این فرآیند فیلم بگیرد و از Gemini در مورد نتایج مورد انتظار یا خطرات ایمنی احتمالی سوال بپرسد.
  • یادگیری زبان: زبان‌آموزان می‌توانند از یک مکالمه یا یک کلیپ ویدیویی به زبان خارجی فیلم بگیرند و از Gemini ترجمه، توضیحات گرامری یا راهنمایی‌های تلفظ بخواهند.

3. خرید و تجارت:

  • مقایسه محصول: هنگام خرید آنلاین، کاربر می‌تواند صفحه نمایش خود را که چندین صفحه محصول را نشان می‌دهد با Gemini به اشتراک بگذارد و درخواست مقایسه ویژگی‌ها، قیمت‌ها و نظرات مشتریان را داشته باشد.
  • مشاوره سبک: همانطور که در مثال اولیه نشان داده شد، کاربران می‌توانند با به اشتراک گذاشتن صفحه نمایش خود که اقلام لباس را نشان می‌دهد و از Gemini برای قطعات مکمل یا پیشنهادات لباس درخواست می‌کنند، مشاوره مد دریافت کنند.
  • کمک به دستور پخت: هنگام دنبال کردن یک دستور غذا آنلاین، کاربر می‌تواند صفحه نمایش خود را با Gemini به اشتراک بگذارد و درخواست جایگزینی مواد تشکیل دهنده یا توضیح در مورد تکنیک‌های پخت و پز را داشته باشد.

4. پشتیبانی فنی و عیب‌یابی:

  • تشخیص مشکل نرم‌افزار: هنگام مواجهه با مشکل نرم‌افزاری، کاربر می‌تواند صفحه نمایش خود را با Gemini به اشتراک بگذارد و راهنمایی‌های عیب‌یابی گام به گام دریافت کند.
  • کمک به تعمیر سخت‌افزار: هنگام تلاش برای تعمیر یک دستگاه، کاربر می‌تواند از این فرآیند فیلم بگیرد و از Gemini برای شناسایی قطعات یا دستورالعمل‌های مربوط به مراحل تعمیر خاص درخواست کند.
  • عیب‌یابی اتصال شبکه: هنگام مواجهه با مشکلات اتصال شبکه، کاربر می‌تواند صفحه نمایش خود را که تنظیمات شبکه را نشان می‌دهد با Gemini به اشتراک بگذارد و در تشخیص و رفع مشکل کمک دریافت کند.

اینها فقط چند نمونه هستند و کاربردهای بالقوه تقریباً نامحدود هستند. همانطور که کاربران با این ویژگی‌ها آشناتر می‌شوند، بدون شک راه‌های جدید و نوآورانه‌ای برای استفاده از قابلیت‌های Gemini در زندگی روزمره خود کشف خواهند کرد. نکته کلیدی، تغییر از پرسش‌های مبتنی بر متن به شکلی طبیعی‌تر و شهودی‌تر از تعامل است که به کاربران امکان می‌دهد به اطلاعات و کمک به گونه‌ای دسترسی داشته باشند که به طور یکپارچه با فعالیت‌های دنیای واقعی آنها ادغام شود.