بهبودهای گوگل در اندروید و کروم با ابزارهای هوش مصنوعی

گوگل اخیراً مجموعه‌ای از ویژگی‌های مبتنی بر هوش مصنوعی نوآورانه و متمرکز بر دسترسی‌پذیری را برای سیستم عامل Android و مرورگر Chrome خود معرفی کرده است. یکی از پیشرفت‌های قابل توجه، ادغام هوش Gemini در TalkBack، صفحه‌خوان داخلی Android است. این به‌روزرسانی به کاربران امکان می‌دهد تا از هوش مصنوعی برای درک محتوای تصویر و پیمایش مؤثرتر در صفحه‌های خود استفاده کنند.

درک تصویر مبتنی بر هوش مصنوعی با TalkBack

سال گذشته، گوگل با ادغام قابلیت‌های Gemini در TalkBack، گام مهمی برداشت و به افراد دارای اختلالات بینایی امکان دسترسی به توضیحات تولید شده توسط هوش مصنوعی از تصاویر را حتی در صورت نبود متن Alt فراهم کرد. با تکیه بر این مبنا، کاربران اکنون می‌توانند با طرح سوال و دریافت پاسخ‌های روشنگرانه درباره محتوای آنها، در سطح عمیق‌تری با تصاویر تعامل داشته باشند.

سناریویی را در نظر بگیرید که در آن یکی از دوستانتان عکسی از گیتار جدید خود برای شما ارسال می‌کند. با TalkBack پیشرفته، شما نه تنها می‌توانید توضیحی درباره ابزار دریافت کنید، بلکه می‌توانید درباره مارک و رنگ آن نیز بپرسید و درک جامعی از تصویر به دست آورید.

علاوه بر این، این قابلیت به کل صفحه تلفن گسترش می‌یابد. تصور کنید در حال مرور یک برنامه خرید آنلاین هستید. اکنون می‌توانید درباره جنس یک مورد خاص یا اینکه آیا تخفیفی در حال حاضر در دسترس است از Gemini سؤال کنید، تجربه خرید خود را ساده کرده و اطلاعات ارزشمندی را در نوک انگشتان خود ارائه دهید.

زیرنویس‌های رسا: ثبت ظرافت و احساس

گوگل همچنین از به‌روزرسانی Expressive Captions، ویژگی زیرنویس‌نویسی بی‌درنگ Android، خبر داده است. با بهره‌گیری از قدرت هوش مصنوعی، Expressive Captions نه تنها آنچه گفته می‌شود را رونویسی می‌کند، بلکه ظرافت‌ها و احساسات منتقل شده از طریق گفتار را نیز ثبت می‌کند.

گوگل با تشخیص اینکه افراد اغلب با گسترش صداهای کلمات خود، احساسات خود را بیان می‌کنند، ویژگی مدت زمان جدیدی را در Expressive Captions معرفی کرده است. این ویژگی به کاربران امکان می‌دهد تا تأکید و احساس پشت کلمات گفتاری را تشخیص دهند. به عنوان مثال، شما می‌توانید بین یک گزارشگر ورزشی که فریاد می‌زند “شوت محشره!” و شخصی که به سادگی “نهههه” می‌گوید برای ابراز ناامیدی شدید، تفاوت قائل شوید.

علاوه بر مدت زمان، این به‌روزرسانی برچسب‌های جدیدی را برای صداها، مانند سوت زدن یا صاف کردن گلو، معرفی می‌کند و تجربه زیرنویس‌نویسی کامل‌تر و آموزنده‌تری را ارائه می‌دهد.

ویژگی به‌روز شده Expressive Captions در حال حاضر به زبان انگلیسی در ایالات متحده، انگلستان، کانادا و استرالیا برای دستگاه‌های دارای Android 15 و بالاتر در دسترس است.

دسترسی‌پذیری PDF بهبود یافته در Chrome

گوگل همچنین متعهد به بهبود دسترسی‌پذیری فایل‌های PDF در مرورگر Chrome است. پیش از این، کاربران نمی‌توانستند با فایل‌های PDF اسکن شده با استفاده از صفحه‌خوان‌ها در مرورگر Chrome دسکتاپ خود تعامل داشته باشند. با این حال، با این به‌روزرسانی، Chrome اکنون به طور خودکار این نوع فایل‌های PDF را تشخیص می‌دهد و به کاربران امکان می‌دهد تا متن را برجسته، کپی و جستجو کنند، همانطور که در هر صفحه وب دیگری انجام می‌دهند. این قابلیت توسط ادغام فناوری تشخیص نوری کاراکتر (OCR) پشتیبانی می‌شود.

این بهبود به طور قابل توجهی دسترسی‌پذیری اسناد اسکن شده را بهبود می‌بخشد و آنها را برای افراد دارای اختلالات بینایی قابل استفاده‌تر می‌کند.

زوم صفحه قابل تنظیم در Chrome برای Android

یکی دیگر از اضافات قابل توجه به Chrome در Android، ویژگی Page Zoom بهبود یافته است. این ویژگی به کاربران امکان می‌دهد تا اندازه متن را در صفحات وب بدون ایجاد اختلال در چیدمان کلی افزایش دهند.

کاربران می‌توانند سطح زوم را بر اساس ترجیحات خود سفارشی کرده و آن را برای همه صفحه‌های وبی که بازدید می‌کنند یا صفحات خاصی را انتخاب می‌کنند، اعمال کنند. این ویژگی از طریق منوی سه نقطه در گوشه سمت راست بالای Chrome قابل دسترسی است.

نگاهی عمیق‌تر به ویژگی‌های جدید

معرفی این ویژگی‌ها یک گام مهم رو به جلو در تعهد مداوم Google به دسترسی‌پذیری و نوآوری مبتنی بر هوش مصنوعی است. گوگل با ادغام یکپارچه هوش مصنوعی در ابزارهای موجود و معرفی عملکردهای جدید، به کاربران این امکان را می‌دهد تا به روش‌های شهودی و دسترس‌پذیرتری با فناوری تعامل داشته باشند.

پتانسیل هوش مصنوعی در دسترسی‌پذیری

ادغام Gemini در TalkBack پتانسیل عظیم هوش مصنوعی را در افزایش دسترسی‌پذیری برای افراد دارای اختلالات بینایی برجسته می‌کند. گوگل با ارائه توصیفات تولید شده توسط هوش مصنوعی از تصاویر و دادن امکان طرح سوال درباره محتوای آنها به کاربران، سطح جدیدی از استقلال و دسترسی به اطلاعات را باز می‌کند.

این فناوری می‌تواند به ویژه در شرایطی که متن Alt در دسترس نیست یا کافی نیست، ارزشمند باشد و به کاربران این امکان را می‌دهد تا درک عمیق‌تری از محتوای بصری به دست آورند.

زیرنویس‌های رسا: فراتر از رونویسی ساده

ویژگی به‌روز شده Expressive Captions با ثبت ظرافت‌ها و احساسات منتقل شده از طریق گفتار، فراتر از رونویسی ساده است. این ویژگی می‌تواند به ویژه برای افرادی که ناشنوا یا کم شنوا هستند مفید باشد، زیرا زمینه و اطلاعات بیشتری را ارائه می‌دهد که ممکن است در زیرنویس‌های سنتی از دست بروند.

اضافه شدن مدت زمان و برچسب‌های صدا، دقت و اطلاع‌رسانی زیرنویس‌ها را بیشتر می‌کند و آنها را به ابزاری ارزشمندتر برای ارتباط تبدیل می‌کند.

ساده‌سازی دسترسی‌پذیری PDF

دسترسی‌پذیری PDF بهبود یافته در Chrome یک چالش دیرینه برای افراد دارای اختلالات بینایی را برطرف می‌کند. گوگل با تشخیص خودکار فایل‌های PDF اسکن شده و دادن امکان تعامل با آنها به صفحه‌خوان‌ها، این اسناد را دسترس‌پذیرتر و قابل استفاده‌تر می‌کند.

این به‌روزرسانی به ویژه در عصر دیجیتال امروزی که بسیاری از اسناد در قالب PDF توزیع می‌شوند، اهمیت دارد.

زوم صفحه: تجربه مشاهده قابل تنظیم

ویژگی Page Zoom قابل تنظیم در Chrome برای Android کنترل بیشتری را بر تجربه مشاهده خود در اختیار کاربران قرار می‌دهد. گوگل با دادن امکان تنظیم اندازه متن به کاربران بدون تأثیر بر چیدمان صفحه وب، طیف گسترده‌ای از ترجیحات و نیازهای بصری را برآورده می‌کند.

این ویژگی می‌تواند به ویژه برای افراد مبتلا به کم بینایی یا کسانی که ترجیح می‌دهند متن را در اندازه بزرگتری بخوانند، مفید باشد.

تعهد مداوم گوگل به نوآوری

این ویژگی‌های جدید تعهد تزلزل ناپذیر گوگل به نوآوری و دسترسی‌پذیری را نشان می‌دهد. گوگل با به طور مداوم پیش بردن مرزهای فناوری، دنیایی فراگیرتر و دسترس‌پذیرتر برای همه ایجاد می‌کند.

ادغام هوش مصنوعی در ابزارهای موجود و معرفی عملکردهای جدید، راه را برای آینده‌ای هموار می‌کند که در آن فناوری به افراد امکان می‌دهد تا بر موانع غلبه کرده و به پتانسیل کامل خود دست یابند.

آینده دسترسی‌پذیری

پیشرفت‌های اعلام شده توسط گوگل نگاهی اجمالی به آینده دسترسی‌پذیری ارائه می‌دهد. با ادامه تکامل فناوری هوش مصنوعی، می‌توانیم انتظار داشته باشیم که راه‌حل‌های نوآورانه‌تری را ببینیم که نیازهای افراد دارای معلولیت را برطرف می‌کنند.

از دستیارهای مبتنی بر هوش مصنوعی که می‌توانند در دنیای فیزیکی پیمایش کنند تا تجربیات یادگیری شخصی که نیازهای فردی را برآورده می‌کنند، امکانات بی‌پایان هستند.

نقش گوگل در شکل‌گیری آینده

گوگل نقش مهمی در شکل‌گیری آینده دسترسی‌پذیری ایفا می‌کند. گوگل با سرمایه‌گذاری در تحقیق و توسعه، همکاری با کارشناسان دسترسی‌پذیری و گنجاندن دسترسی‌پذیری در محصولات و خدمات خود، استانداردی را برای صنعت تعیین می‌کند.

تعهد گوگل به دسترسی‌پذیری به منزله منبع الهام برای سایر شرکت‌ها و سازمان‌ها برای اولویت دادن به فراگیری و ایجاد دنیایی دسترس‌پذیرتر برای همه است.

کاربردهای عملی و مزایا

ویژگی‌های شرح داده شده در بالا به مزایای ملموسی برای کاربران در سناریوهای مختلف تبدیل می‌شوند.

ارتقای تعامل اجتماعی

تصور کنید عکسی از یک دوست دریافت می‌کنید. با TalkBack مبتنی بر هوش مصنوعی، کاربران دارای اختلالات بینایی می‌توانند با تصویر درگیر شوند و سؤالات روشنگرانه بپرسند تا به طور کامل در تجربه مشترک شرکت کنند. این امر ارتباطات اجتماعی عمیق‌تری را تقویت می‌کند.

بهبود تجربیات خرید آنلاین

پیمایش در پلتفرم‌های تجارت الکترونیک می‌تواند برای برخی چالش برانگیز باشد. توانایی پرسیدن درباره جزئیات محصول از Gemini به طور مستقیم از صفحه، ابهام را از بین می‌برد و منجر به تصمیم‌گیری‌های خرید آگاهانه‌تر می‌شود.

امکان دسترسی به اطلاعات

دسترسی‌پذیری PDF بهبود یافته، دسترسی به اطلاعات حیاتی موجود در اسناد اسکن شده را دموکراتیک می‌کند و به افراد دارای اختلالات بینایی این امکان را می‌دهد تا به طور کامل در زندگی مدنی و حرفه‌ای شرکت کنند.

شخصی‌سازی وب

زوم صفحه تطبیق پذیر راه حل های سفارشی برای نیازهای خاص بینایی ارائه می دهد. این برنامه نیازهای متنوع کاربران را برآورده می کند و مرور وب را برای همه آسان تر می کند.

مبانی فنی

درک فناوری موجود در این سیستم‌های ارتقا یافته، بینش بیشتری در مورد ویژگی‌های ذکر شده در بالا ارائه می‌دهد.

تجزیه و تحلیل تصویر مبتنی بر هوش مصنوعی

ادغام مدل هوش مصنوعی Gemini در TalkBack شامل توسعه الگوریتم‌هایی برای توصیف دقیق تصویر و حل سؤال است. فرآیندهای پیچیده یادگیری عمیق در پس‌زمینه اجرا می‌شوند تا راه‌حل‌های مرتبط را ارائه دهند.

ظرافت زیرنویس رسا

عملکرد Expressive Captions نیاز به قابلیت‌های پردازش گفتار طبیعی دارد. با ترکیب روش‌های پیشرفته ترجمه گفتار به متن و همچنین تشخیص مدت زمان و لحن، ظرافت‌های موجود در گفتار انسان با دقت بیشتری ثبت می‌شوند.

مدیریت PDF بهینه شده

ظرفیت رسیدگی جدید Chrome برای اسناد PDF از تشخیص نوری کاراکتر (OCR) برای اسناد اسکن شده استفاده می کند. در نتیجه، حتی تصاویر PDF غیرقابل جستجو را می توان به طور مستقیم تجزیه و تحلیل کرد. مرورگر برای یافتن، تکثیر و خواندن متن، فهرست ها و لایه های متنی را از نتایج OCR ایجاد می کند.

انعطاف پذیری Front-End

عملکرد زوم صفحه تعهد گوگل به سفارشی سازی را برجسته می کند. ایده‌های طراحی وب مدرن برای مقیاس‌بندی انعطاف‌پذیر مورد استفاده قرار می‌گیرند، در نتیجه، مصرف‌کنندگانی که از Android، در طیف گسترده‌ای از دستگاه‌ها استفاده می‌کنند، ممکن است تجربه خود را برای دید بهتر سفارشی کنند. این نوآوری ها پایه و اساس یک تجربه مرور اینترنتی کاربر محورتر را فراهم می کنند.

مفاهیم گسترده تر

این ویژگی ها بسیار بیشتر از به روز رسانی های جزئی هستند. آنها نشان دهنده یک تغییر انقلابی در نحوه تعامل فناوری با مردم، به ویژه برای افراد دارای اختلالات هستند.

توانمندسازی از طریق فناوری

گوگل با به حداقل رساندن موانعی که افراد دارای معلولیت با آن مواجه هستند، آنها را قادر می سازد تا فعالانه تر در جنبه های مختلف زندگی شرکت کنند، آموزش، تجارت و معاشرت گنجانده شده است.

ترویج شمول دیجیتال

گوگل با اقدام برای برابری در قابلیت استفاده از فناوری، شکاف دیجیتال را کاهش می دهد. تلاش های این شرکت تعهد خود را به عدالت دیجیتال نشان می دهد.

ترویج نوآوری

تعهد گوگل به ویژگی‌های دسترس‌پذیر، توسعه های جدید را در سراسر هیئت حاکمه ترویج می دهد. فناوری هوش مصنوعی و توسعه ویژگی های دسترس پذیری، خلاقیت بیشتری را از کل بازار تشویق می کند.

پرورش یک جامعه بهتر

دسترسی به فناوری، فرهنگی را تقویت می کند که تجربه کاربر، فراگیری و تنوع را در جامعه در اولویت قرار می دهد. این یک محیط دیجیتال مشارکتی ایجاد می کند.

در نهایت، تلاش‌های گوگل شاهدی بر تلاشی برای تبدیل فناوری به یک نیرو در جامعه است و اطمینان حاصل می‌کند که همه از پیشرفت‌ها سود می‌برند، نه فقط گروه‌های خاص. این نگرش چارچوبی را برای آینده‌ای پذیراتر و از نظر فناوری پیچیده‌تر ایجاد می‌کند.

ملاحظات و جهت گیری های آینده

در حالی که این پیشرفت ها نشان دهنده یک جهش اساسی هستند، هنوز راه هایی برای پالایش و گسترش بیشتر وجود دارد.

پالایش دقت هوش مصنوعی

دقت توضیحات و پاسخ های تولید شده توسط هوش مصنوعی می تواند با آموزش مدل Gemini بر روی مجموعه داده های بزرگتر و متنوع تر، بیشتر بهبود یابد. پالایش مداوم برای اطمینان از دقیق و مرتبط بودن اطلاعات ارائه شده بسیار مهم است.

گسترش پشتیبانی از زبان

در دسترس بودن زیرنویس‌های رسا به زبان‌های بیشتر، به طور قابل توجهی دامنه و تأثیر آن را گسترش می‌دهد و آن را برای مخاطبان جهانی گسترده‌تری در دسترس قرار می‌دهد.

رسیدگی به موارد حاشیه

تحقیقات بیشتری برای رسیدگی به موارد حاشیه و اطمینان از اینکه ویژگی ها به طور قابل اعتماد در شرایط مختلف عمل می کنند مورد نیاز است. این شامل آزمایش با انواع مختلف تصاویر، لهجه ها و اسناد PDF است.

ادغام با سایر پلتفرم‌ها

ادغام این ویژگی‌های دسترسی‌پذیری با سایر پلتفرم‌ها و خدمات، یک تجربه کاربری یکپارچه و سازگارتر ایجاد می‌کند. به عنوان مثال، ادغام TalkBack با برنامه های رسانه های اجتماعی به کاربران این امکان را می دهد تا به طور موثرتری با محتوای بصری درگیر شوند.

گوگل با تلاش مستمر برای بهبود و گسترش، می تواند موقعیت خود را به عنوان یک رهبر در دسترسی پذیری تثبیت کند و دنیایی دیجیتال فراگیرتر برای همه ایجاد کند.