بینایی Gemini گوگل، چالشگر هوش مصنوعی Apple

سرعت بی‌وقفه نوآوری در هوش مصنوعی همچنان به تغییر شکل چشم‌انداز فناوری ادامه می‌دهد، به‌ویژه در عرصه به‌شدت رقابتی قابلیت‌های گوشی‌های هوشمند. در اقدامی که این پویایی را برجسته می‌کند، Google شروع به تجهیز دستیار هوش مصنوعی خود، Gemini، با ویژگی‌های پیچیده تفسیر بصری در دستگاه‌های Android خاصی کرده است. این توسعه اندکی پس از آن صورت می‌گیرد که Apple مجموعه هوش مصنوعی بلندپروازانه خود را با نام ‘Apple Intelligence’ رونمایی کرد، که بخش‌هایی از آن با تأخیر در عرضه مواجه هستند، و این نشان می‌دهد که Google ممکن است در استقرار هوش مصنوعی نسل بعدی و آگاه از زمینه به‌طور مستقیم در دستان کاربران، پیشتاز باشد.

Gemini یاد می‌گیرد ببیند و به اشتراک بگذارد: نگاهی دقیق‌تر به قابلیت‌های جدید

Google آغاز عرضه قابلیت‌های پیشرفته Gemini را تأیید کرد، به‌ویژه ادغام ورودی دوربین و قابلیت‌های اشتراک‌گذاری صفحه. این ویژگی‌های پیشرفته در ابتدا برای مشترکین Gemini Advanced و طرح Google One AI Premium در دسترس هستند و به‌عنوان پیشنهادات برتر در اکوسیستم Google قرار می‌گیرند. نوآوری اصلی در توانمندسازی Gemini برای پردازش و درک اطلاعات بصری به‌صورت بلادرنگ، چه از صفحه نمایش دستگاه و چه از طریق لنز دوربین آن، نهفته است.

تصور کنید دوربین گوشی خود را به سمت شیئی در دنیای واقعی نشانه می‌روید – شاید یک قطعه سخت‌افزار ناآشنا، گیاهی که می‌خواهید شناسایی کنید، یا جزئیات معماری روی یک ساختمان. با به‌روزرسانی جدید، Gemini قصد دارد فراتر از شناسایی ساده، وظیفه‌ای که قبلاً توسط ابزارهایی مانند Google Lens به‌خوبی انجام می‌شد، برود. هدف، فعال کردن یک تعامل مکالمه‌ای بر اساس آنچه هوش مصنوعی ‘می‌بیند’ است. مواد تبلیغاتی خود Google این پتانسیل را با سناریویی نشان می‌دهد که در آن کاربر در حال خرید کاشی حمام است. Gemini، با دسترسی به فید زنده دوربین، به‌طور بالقوه می‌تواند در مورد پالت‌های رنگی بحث کند، سبک‌های مکمل را پیشنهاد دهد، یا حتی الگوها را مقایسه کند و راهنمایی تعاملی مبتنی بر زمینه بصری ارائه دهد. این مدل تعامل به‌طور قابل توجهی فراتر از تجزیه و تحلیل تصویر ایستا به سمت نقشی پویاتر و شبیه به دستیار حرکت می‌کند.

به‌طور مشابه، ویژگی اشتراک‌گذاری صفحه، لایه جدیدی از کمک متنی را نوید می‌دهد. کاربران می‌توانند به‌طور مؤثر آنچه را که در حال حاضر روی صفحه گوشی‌شان نمایش داده می‌شود به Gemini ‘نشان دهند’. این می‌تواند شامل درخواست کمک برای پیمایش در یک رابط کاربری پیچیده برنامه، دریافت مشاوره در مورد تهیه پیش‌نویس ایمیلی که روی صفحه قابل مشاهده است، یا عیب‌یابی یک مشکل فنی با اجازه دادن به Gemini برای ارزیابی بصری وضعیت باشد. به‌جای تکیه صرف بر توضیحات کلامی، کاربران می‌توانند ورودی بصری مستقیم ارائه دهند که به‌طور بالقوه منجر به پشتیبانی دقیق‌تر و کارآمدتر از سوی هوش مصنوعی می‌شود. این امر هوش مصنوعی را از یک گیرنده منفعل دستورات متنی یا صوتی به یک ناظر فعال محیط دیجیتال کاربر تبدیل می‌کند.

این قابلیت‌ها از قدرت هوش مصنوعی چندوجهی (multimodal AI) بهره می‌برند که برای پردازش و درک همزمان اطلاعات از انواع ورودی‌های متعدد – در این مورد، متن، صدا و به‌طور حیاتی، بینایی – طراحی شده است. آوردن این فناوری پیچیده به‌طور مستقیم به تجربه گوشی هوشمند، گامی مهم به جلو است که هدف آن، شهودی‌تر کردن کمک هوش مصنوعی و ادغام عمیق‌تر آن در کارهای روزمره است. کاربردهای بالقوه گسترده هستند و شاید تنها با درک در حال تکامل هوش مصنوعی و تخیل کاربر محدود شوند. از کمک آموزشی، جایی که Gemini می‌تواند به تجزیه و تحلیل نموداری روی صفحه کمک کند، تا بهبودهای دسترسی‌پذیری، توانایی یک هوش مصنوعی برای ‘دیدن’ و واکنش نشان دادن، امکانات متعددی را باز می‌کند.

پیمایش در رونمایی تدریجی: چه کسی و چه زمانی دسترسی پیدا می‌کند؟

علی‌رغم تأیید رسمی Google مبنی بر اینکه عرضه در حال انجام است، دسترسی به این ویژگی‌های پیشرفته هنوز یک تجربه جهانی نیست، حتی برای مشترکین واجد شرایط پریمیوم. گزارش‌ها از کاربرانی که با موفقیت عملکردهای دوربین و اشتراک‌گذاری صفحه را فعال کرده‌اند، پراکنده باقی مانده است و تصویری از یک استقرار مدیریت‌شده و مرحله‌ای را به‌جای یک عرضه گسترده و همزمان ترسیم می‌کند. این رویکرد سنجیده در صنعت فناوری رایج است، به‌ویژه برای به‌روزرسانی‌های مهم ویژگی‌ها که شامل مدل‌های پیچیده هوش مصنوعی می‌شوند.

جالب اینجاست که برخی از اولین تأییدیه‌های فعال بودن ویژگی‌ها نه تنها از سوی کاربران دستگاه‌های Pixel خود Google، بلکه از سوی افرادی که از سخت‌افزار تولیدکنندگان دیگر مانند Xiaomi استفاده می‌کنند نیز آمده است. این نشان می‌دهد که عرضه در ابتدا به‌طور دقیق توسط برند دستگاه محدود نمی‌شود، اگرچه در دسترس بودن و بهینه‌سازی بلندمدت ممکن است در سراسر اکوسیستم Android متفاوت باشد. این واقعیت که حتی کسانی که صراحتاً برای سطوح هوش مصنوعی پریمیوم هزینه پرداخت می‌کنند، زمان‌های دسترسی متغیری را تجربه می‌کنند، پیچیدگی‌های مربوط به توزیع چنین به‌روزرسانی‌هایی را در میان پیکربندی‌های سخت‌افزاری و نرم‌افزاری متنوع در سطح جهانی برجسته می‌کند.

عوامل متعددی احتمالاً به این استراتژی انتشار تدریجی کمک می‌کنند. اولاً، به Google اجازه می‌دهد تا بار سرور و پیامدهای عملکرد را به‌صورت بلادرنگ نظارت کند. پردازش فیدهای ویدیویی زنده و محتوای صفحه از طریق مدل‌های پیچیده هوش مصنوعی از نظر محاسباتی سنگین است و به زیرساخت پشتیبان قابل توجهی نیاز دارد. عرضه پلکانی به جلوگیری از بارگذاری بیش از حد سیستم کمک می‌کند و تجربه روان‌تری را برای پذیرندگان اولیه تضمین می‌کند. ثانیاً، فرصتی را برای Google فراهم می‌کند تا داده‌های حیاتی استفاده در دنیای واقعی و بازخورد کاربران را از یک گروه کوچک‌تر و کنترل‌شده قبل از در دسترس قرار دادن گسترده ویژگی‌ها جمع‌آوری کند. این حلقه بازخورد برای شناسایی اشکالات، اصلاح رابط کاربری و بهبود عملکرد هوش مصنوعی بر اساس الگوهای تعامل واقعی بسیار ارزشمند است. در نهایت، در دسترس بودن منطقه‌ای، پشتیبانی زبان و ملاحظات نظارتی نیز می‌توانند بر برنامه زمانی عرضه در بازارهای مختلف تأثیر بگذارند.

در حالی که جریان اولیه دسترسی ممکن است برای کاربران مشتاق کند به نظر برسد، این نشان‌دهنده یک رویکرد عمل‌گرایانه برای استقرار فناوری جدید قدرتمند است. به کاربران آینده‌نگر، به‌ویژه آنهایی که از دستگاه‌های Pixel یا Samsung Galaxy رده بالا استفاده می‌کنند، توصیه می‌شود که در هفته‌های آینده مراقب به‌روزرسانی‌های برنامه Gemini خود باشند و درک کنند که ممکن است قبل از فعال شدن ویژگی‌های بصری در دستگاه خاص آنها، صبر لازم باشد. جدول زمانی دقیق و لیست کامل دستگاه‌های پشتیبانی‌شده اولیه توسط Google مشخص نشده است و عنصری از انتظار را به این فرآیند اضافه می‌کند.

دیدگاه Apple: هوش بصری و جدول زمانی پلکانی

پس‌زمینه‌ای که Google در آن پیشرفت‌های بصری Gemini را مستقر می‌کند، ناگزیر، رونمایی اخیر از Apple Intelligence در کنفرانس جهانی توسعه‌دهندگان (WWDC) این شرکت است. مجموعه جامع ویژگی‌های هوش مصنوعی Apple، ادغام عمیق در iOS، iPadOS و macOS را نوید می‌دهد و بر پردازش روی دستگاه برای حفظ حریم خصوصی و سرعت، با انتقال یکپارچه به ابر برای کارهای پیچیده‌تر از طریق ‘Private Cloud Compute’ تأکید دارد. یکی از مؤلفه‌های کلیدی این مجموعه، ‘Visual Intelligence’ است که برای درک و اقدام بر اساس محتوای درون عکس‌ها و ویدیوها طراحی شده است.

با این حال، رویکرد Apple هم از نظر قابلیت و هم از نظر استراتژی عرضه، متفاوت از پیاده‌سازی فعلی Gemini توسط Google به نظر می‌رسد. در حالی که Visual Intelligence به کاربران امکان می‌دهد اشیاء و متن را در تصاویر شناسایی کنند و به‌طور بالقوه بر اساس آن اطلاعات اقداماتی انجام دهند (مانند تماس با شماره تلفنی که در عکس گرفته شده است)، توضیحات اولیه سیستمی را نشان می‌دهد که کمتر بر تعامل بلادرنگ و مکالمه‌ای مبتنی بر فیدهای زنده دوربین یا محتوای صفحه، شبیه به آنچه Gemini اکنون ارائه می‌دهد، متمرکز است. به نظر می‌رسد تمرکز Apple بیشتر بر استفاده از کتابخانه عکس موجود کاربر و محتوای روی دستگاه است تا اینکه به‌عنوان یک دستیار بصری زنده برای دنیای خارج یا زمینه فعلی صفحه به همان شیوه تعاملی عمل کند.

علاوه بر این، خود Apple اذعان کرد که همه ویژگی‌های اعلام‌شده Apple Intelligence در عرضه اولیه پاییز امسال در دسترس نخواهند بود. برخی از قابلیت‌های بلندپروازانه‌تر برای انتشار در آینده، احتمالاً تا سال 2025، برنامه‌ریزی شده‌اند. در حالی که جزئیات خاص در مورد اینکه کدام عناصر بصری ممکن است به تأخیر بیفتند کاملاً مشخص نیست، این عرضه پلکانی با اقدام Google در ارائه ویژگی‌های بصری پیشرفته خود در حال حاضر، البته به گروهی منتخب، در تضاد است. این تفاوت در زمان‌بندی، گمانه‌زنی‌ها را در مورد آمادگی نسبی و اولویت‌های استراتژیک این دو غول فناوری تقویت کرده است. گزارش‌هایی مبنی بر تغییرات اجرایی در بخش‌های Siri و هوش مصنوعی Apple نیز به روایت تعدیل‌های داخلی بالقوه در حالی که این شرکت پیچیدگی‌های استقرار چشم‌انداز هوش مصنوعی خود را هدایت می‌کند، می‌افزاید.

رویکرد سنتی محتاطانه Apple، با تأکید شدید بر حریم خصوصی کاربر و ادغام محکم اکوسیستم، اغلب به چرخه‌های توسعه طولانی‌تری در مقایسه با رقبایی که ممکن است تکرار سریع‌تر و راه‌حل‌های مبتنی بر ابر را در اولویت قرار دهند، منجر می‌شود. اتکا به پردازش قدرتمند روی دستگاه برای بسیاری از ویژگی‌های Apple Intelligence نیز چالش‌های مهندسی قابل توجهی را ایجاد می‌کند که نیازمند مدل‌های بسیار بهینه‌شده و سخت‌افزار توانمند (در ابتدا محدود به دستگاه‌های دارای تراشه A17 Pro و تراشه‌های سری M) است. در حالی که این استراتژی مزایای قانع‌کننده‌ای برای حفظ حریم خصوصی ارائه می‌دهد، ممکن است ذاتاً منجر به معرفی کندتر پیشرفته‌ترین و از نظر محاسباتی پرتقاضاترین ویژگی‌های هوش مصنوعی در مقایسه با رویکرد بیشتر مبتنی بر ابر Google با Gemini Advanced شود. رقابت فقط بر سر قابلیت نیست، بلکه بر سر مسیر انتخاب‌شده برای استقرار و تفاوت‌های فلسفی اساسی در مورد پردازش داده‌ها و حریم خصوصی کاربر نیز هست.

از نمایش‌های آزمایشگاهی تا واقعیت جیبی: سفر هوش مصنوعی بصری

معرفی درک بصری به دستیاران هوش مصنوعی اصلی مانند Gemini یک پدیده یک شبه نیست. این نشان‌دهنده اوج سال‌ها تحقیق و توسعه در بینایی کامپیوتری و هوش مصنوعی چندوجهی است. برای Google، بذرهای این قابلیت‌ها در پروژه‌های قبلی و نمایش‌های فناوری قابل مشاهده بود. به‌ویژه، ‘Project Astra’ که در جریان کنفرانس توسعه‌دهندگان قبلی Google I/O به نمایش گذاشته شد، نگاهی قانع‌کننده به آینده هوش مصنوعی تعاملی ارائه داد.

Project Astra یک دستیار هوش مصنوعی را نشان داد که قادر به درک محیط اطراف خود از طریق دوربین، به خاطر سپردن مکان اشیاء و درگیر شدن در مکالمه گفتاری در مورد محیط بصری به‌صورت بلادرنگ بود. در حالی که به‌عنوان یک مفهوم آینده‌نگر ارائه شد، فناوری‌های اصلی – درک فیدهای ویدیویی زنده، شناسایی متنی اشیاء و ادغام آن داده‌های بصری در یک چارچوب هوش مصنوعی مکالمه‌ای – دقیقاً همان چیزی است که زیربنای ویژگی‌های جدید در حال عرضه به Gemini است. یادآوری نویسنده از مشاهده Astra نشان می‌دهد که اگرچه خود دمو ممکن است در آن زمان بلافاصله انقلابی به نظر نمی‌رسید، توانایی Google در ترجمه آن فناوری پیچیده به یک ویژگی رو به کاربر در یک بازه زمانی نسبتاً کوتاه، قابل توجه است.

این سفر از یک دموی فناوری کنترل‌شده به ویژگی‌ای که در حال استقرار (حتی به‌تدریج) بر روی گوشی‌های هوشمند مصرف‌کننده است، بر بلوغ سریع مدل‌های هوش مصنوعی چندوجهی تأکید می‌کند. توسعه هوش مصنوعی که بتواند به‌طور یکپارچه ورودی بصری را با درک زبان ترکیب کند، مستلزم غلبه بر موانع فنی قابل توجهی است. هوش مصنوعی نه تنها باید اشیاء را به‌دقت شناسایی کند، بلکه باید روابط، زمینه و ارتباط آنها با پرسش کاربر یا مکالمه در حال انجام را نیز درک کند. پردازش این اطلاعات در زمان تقریباً واقعی، به‌ویژه از یک جریان ویدیویی زنده، نیازمند قدرت محاسباتی قابل توجه و الگوریتم‌های بسیار بهینه‌شده است.

سرمایه‌گذاری دیرینه Google در تحقیقات هوش مصنوعی، که در محصولاتی مانند Google Search، Google Photos (با تشخیص اشیاء) و Google Lens مشهود است، پایه محکمی را فراهم کرد. Gemini نشان‌دهنده ادغام و تکامل این قابلیت‌های پراکنده در یک هوش مصنوعی مکالمه‌ای یکپارچه‌تر و قدرتمندتر است. آوردن قابلیت ‘دیدن’ به‌طور مستقیم به رابط اصلی Gemini، به‌جای نگه داشتن آن در یک برنامه جداگانه مانند Lens، نشان‌دهنده قصد Google برای تبدیل درک بصری به بخشی اصلی از هویت دستیار هوش مصنوعی خود است. این نشان‌دهنده یک شرط‌بندی استراتژیک است که کاربران به‌طور فزاینده‌ای انتظار دارند همراهان هوش مصنوعی آنها جهان را بسیار شبیه به انسان‌ها – از طریق حواس چندگانه – درک کرده و با آن تعامل داشته باشند. گذار از وعده مفهومی Project Astra به ویژگی‌های ملموس Gemini، نقطه عطف مهمی در این تکامل است.

آزمون حیاتی: کاربرد در دنیای واقعی و گزاره هوش مصنوعی پریمیوم

در نهایت، موفقیت قابلیت‌های بصری جدید Gemini – و در واقع، هر ویژگی پیشرفته هوش مصنوعی – به یک عامل ساده اما حیاتی بستگی دارد: کاربرد در دنیای واقعی. آیا کاربران این ویژگی‌ها را به‌اندازه‌ای مفید، جذاب یا سرگرم‌کننده خواهند یافت که آنها را در روال روزانه خود ادغام کنند؟ تازگی یک هوش مصنوعی که می‌تواند ‘ببیند’ ممکن است در ابتدا توجه را جلب کند، اما استفاده پایدار به این بستگی دارد که آیا مشکلات واقعی را حل می‌کند یا مزایای ملموسی را مؤثرتر از روش‌های موجود ارائه می‌دهد.

تصمیم Google برای گنجاندن این ویژگی‌ها در سطوح اشتراک پریمیوم خود (Gemini Advanced / Google One AI Premium) لایه دیگری به چالش پذیرش اضافه می‌کند. کاربران باید ارزش کافی را در این ویژگی‌های بصری پیشرفته و سایر ویژگی‌های هوش مصنوعی پریمیوم درک کنند تا هزینه مکرر را توجیه کنند. این با ویژگی‌هایی که ممکن است در نهایت استاندارد شوند یا به‌عنوان بخشی از تجربه پایه سیستم عامل ارائه شوند، همانطور که اغلب مدل Apple است، در تضاد است. مانع اشتراک به این معنی است که قدرت بصری Gemini باید به‌طور قابل اثباتی از جایگزین‌های رایگان بهتر عمل کند یا عملکردهای منحصربه‌فردی را ارائه دهد که در جای دیگری در دسترس نیستند. آیا مشاوره خرید کاشی Gemini واقعاً می‌تواند مفیدتر از یک کارمند آگاه فروشگاه یا یک جستجوی سریع تصویر باشد؟ آیا عیب‌یابی از طریق اشتراک‌گذاری صفحه به‌طور قابل توجهی بهتر از ابزارهای کمک از راه دور موجود یا صرفاً توصیف مشکل خواهد بود؟

اثبات این کاربرد بسیار مهم است. اگر کاربران تعاملات بصری را ناشیانه، نادرست یا به سادگی برای قیمت آن به اندازه کافی قانع‌کننده نیابند، پذیرش احتمالاً به علاقه‌مندان به فناوری و پذیرندگان اولیه محدود خواهد ماند. با این حال، اگر Google با موفقیت موارد استفاده واضحی را نشان دهد که در آن درک بصری Gemini باعث صرفه‌جویی در وقت، ساده‌سازی کارهای پیچیده یا ارائه کمک منحصربه‌فرد و بینش‌مند می‌شود، می‌تواند مزیت قابل توجهی ایجاد کند. این نه تنها استراتژی هوش مصنوعی Google را تأیید می‌کند، بلکه بر رقبایی مانند Apple فشار وارد می‌کند تا استقرار را تسریع کرده و قابلیت‌های پیشنهادات هوش مصنوعی بصری خود را افزایش دهند.

پیامدهای رقابتی قابل توجه هستند. یک دستیار هوش مصنوعی که می‌تواند به‌طور یکپارچه ورودی بصری را با مکالمه ترکیب کند، یک پارادایم تعامل اساساً غنی‌تر ارائه می‌دهد. اگر Google اجرا را به‌خوبی انجام دهد و کاربران از آن استقبال کنند، می‌تواند انتظارات را برای دستیاران هوش مصنوعی موبایل بازتعریف کند و کل صنعت را به جلو سوق دهد. همچنین می‌تواند به‌عنوان یک تمایز قدرتمند برای پلتفرم Android عمل کند، به‌ویژه برای کاربرانی که در اکوسیستم Google سرمایه‌گذاری کرده‌اند. برعکس، یک استقبال نه‌چندان گرم می‌تواند این تصور را تقویت کند که چنین ویژگی‌های پیشرفته هوش مصنوعی هنوز در جستجوی یک برنامه کاربردی قاتل فراتر از کاربردهای خاص هستند و به‌طور بالقوه رویکردهای کندتر و یکپارچه‌تر مانند رویکرد Apple را تأیید می‌کند. ماه‌های آینده، با رسیدن این ویژگی‌ها به کاربران بیشتر، در تعیین اینکه آیا بینایی تازه‌یافته Gemini به بینش واقعی بازار و وفاداری کاربر تبدیل می‌شود، حیاتی خواهد بود.

مسیر پیش رو: تکامل مداوم در عرصه هوش مصنوعی موبایل

عرضه ویژگی‌های بصری Gemini گام مهم دیگری در تکامل مداوم هوش مصنوعی موبایل است، اما به هیچ وجه مقصد نهایی نیست. رقابت بین Google، Apple و سایر بازیگران اصلی تضمین می‌کند که سرعت نوآوری سریع باقی خواهد ماند و قابلیت‌ها احتمالاً در آینده نزدیک به‌سرعت گسترش خواهند یافت. برای Google، وظیفه فوری شامل اصلاح عملکرد و قابلیت اطمینان ویژگی‌های فعلی دوربین و اشتراک‌گذاری صفحه بر اساس الگوهای استفاده در دنیای واقعی است. گسترش پشتیبانی زبان، بهبود درک متنی و به‌طور بالقوه گسترش سازگاری دستگاه، گام‌های کلیدی بعدی خواهند بود. همچنین ممکن است شاهد ادغام عمیق‌تر با سایر سرویس‌های Google باشیم که به Gemini امکان می‌دهد از اطلاعات بصری در ترکیب با Maps، Photos یا نتایج Shopping به روش‌های پیچیده‌تری استفاده کند.

در همین حال، Apple بر ارائه ویژگی‌های اعلام‌شده Apple Intelligence، از جمله Visual Intelligence، طبق جدول زمانی خود متمرکز خواهد بود. پس از راه‌اندازی، می‌توان انتظار داشت که Apple بر مزایای حفظ حریم خصوصی پردازش روی دستگاه خود و ادغام یکپارچه در اکوسیستم خود تأکید کند. تکرارهای آینده احتمالاً شاهد گسترش قابلیت‌های Visual Intelligence توسط Apple خواهند بود، که به‌طور بالقوه شکاف را با قابلیت‌های تعاملی‌تر و بلادرنگ‌تر نشان داده شده توسط Google پر می‌کند، اما احتمالاً به اصول اصلی خود یعنی حفظ حریم خصوصی و ادغام پایبند خواهد ماند. تعامل بین پردازش روی دستگاه و ابر همچنان یک ویژگی تعیین‌کننده استراتژی Apple خواهد بود.

فراتر از این دو غول، صنعت گسترده‌تر واکنش نشان داده و سازگار خواهد شد. سایر تولیدکنندگان گوشی‌های هوشمند و توسعه‌دهندگان هوش مصنوعی احتمالاً تلاش‌های خود را در هوش مصنوعی چندوجهی تسریع خواهند کرد و به دنبال ارائه ویژگی‌های رقابتی خواهند بود. ممکن است شاهد افزایش تخصص باشیم، به‌طوری که برخی از دستیاران هوش مصنوعی در وظایف بصری خاص مانند ترجمه، دسترسی‌پذیری یا کمک خلاقانه برتری پیدا کنند. توسعه مدل‌های هوش مصنوعی زیربنایی ادامه خواهد یافت و منجر به بهبود دقت، زمان پاسخ سریع‌تر و درک عمیق‌تر از تفاوت‌های ظریف بصری خواهد شد.

در نهایت، مسیر هوش مصنوعی موبایل توسط نیازها و پذیرش کاربران شکل خواهد گرفت. با عادت کردن کاربران به تعامل با هوش مصنوعی که می‌تواند دنیای بصری را درک کند، انتظارات افزایش خواهد یافت. چالش برای توسعه‌دهندگان، فراتر رفتن از ویژگی‌های نوظهور و ارائه ابزارهای هوش مصنوعی خواهد بود که نه تنها از نظر فناوری چشمگیر هستند، بلکه واقعاً بهره‌وری، خلاقیت و زندگی روزمره را افزایش می‌دهند. رقابت برای ایجاد مفیدترین، شهودی‌ترین و قابل اعتمادترین دستیار هوش مصنوعی به‌خوبی در جریان است و ادغام بینایی در حال تبدیل شدن به یک میدان نبرد حیاتی در این تحول مداوم فناوری است. تمرکز باید بر ارائه ارزش ملموس باقی بماند و اطمینان حاصل شود که با کسب قدرت دیدن توسط هوش مصنوعی، کاربران از مزایای معناداری بهره‌مند می‌شوند.