به‌روزرسانی‌های دسترس‌پذیری مبتنی بر هوش مصنوعی

به منظور گرامیداشت روز جهانی آگاهی از دسترس‌پذیری (GAAD)، ما مفتخریم که به‌روزرسانی‌های جدیدی را برای Android و Chrome، به همراه منابع جدید برای اکوسیستم، ارائه کنیم. پیشرفت‌های هوش مصنوعی به طور مداوم دنیای ما را دسترس‌پذیرتر می‌کند. امروز، به منظور گرامیداشت روز جهانی آگاهی از دسترس‌پذیری، ما در حال ارائه به‌روزرسانی‌های جدید به محصولات Android و Chrome هستیم و منابع جدیدی را برای توسعه‌دهندگان برای ساخت ابزارهای تشخیص گفتار اضافه می‌کنیم.

نوآوری‌های بیشتر مبتنی بر هوش مصنوعی در Android

ما در حال تحکیم تلاش‌های خود هستیم و بهترین ویژگی‌های Google AI و Gemini را در تجربه‌های اصلی تلفن همراه که برای دید و شنوایی سفارشی شده‌اند، ادغام می‌کنیم.

دریافت تمام جزئیات از طریق Gemini و TalkBack

سال گذشته، ما قابلیت‌های Gemini را به TalkBack، صفحه‌خوان Android، معرفی کردیم تا توضیحات تصویر تولیدشده توسط هوش مصنوعی را برای افراد نابینا یا کم‌بینا ارائه دهیم، حتی اگر متن جایگزین وجود نداشته باشد. امروز، ما در حال گسترش این ادغام Gemini هستیم تا افراد بتوانند سؤال بپرسند و پاسخ‌هایی را درباره تصاویر خود دریافت کنند.

این بدان معناست که دفعه بعد که دوستی عکسی از گیتار جدید خود برای شما ارسال می‌کند، می‌توانید توضیحی دریافت کنید و سؤالاتی را درباره برند و رنگ بپرسید، یا حتی اینکه چه چیز دیگری در تصویر وجود دارد. اکنون، افراد همچنین می‌توانند توضیحی دریافت کنند و سؤالاتی را درباره کل صفحه خود بپرسند. بنابراین، اگر در حال خرید آخرین معاملات تبلیغاتی در برنامه خرید مورد علاقه خود هستید، می‌توانید از Gemini درباره جنس کالا یا اینکه آیا تخفیف وجود دارد یا خیر، سؤال کنید.

به طور خاص‌تر، این به‌روزرسانی با بهره‌گیری از قدرت Gemini، توضیحات تصویر را به سطح بی‌سابقه‌ای ارتقا می‌دهد. دیگر کاربران محدود به توضیحات ثابت نیستند؛ آنها می‌توانند با تصاویر تعامل داشته باشند، سؤالات خاصی بپرسند و پاسخ‌های دقیق دریافت کنند. به عنوان مثال، کاربران می‌توانند عکسی از یک مکان تاریخی را بارگذاری کنند و درباره سبک معماری، سال ساخت یا هر جزئیات مرتبط دیگر سؤال کنند. قابلیت‌های پردازش هوشمند Gemini تصویر را تجزیه و تحلیل می‌کند، اطلاعات مرتبط را استخراج می‌کند و پاسخ جامع را در قالبی ساده و قابل فهم ارائه می‌دهد.

علاوه بر این، ادغام Gemini با TalkBack فراتر از تشخیص ساده تصویر است. این ادغام همچنین به محتوای صفحه گسترش می‌یابد و به کاربران اجازه می‌دهد تا درباره اطلاعات نمایش داده شده در دستگاه خود سؤال بپرسند. اگر در هنگام مرور یک صفحه وب پیچیده یا استفاده از یک برنامه ناآشنا با مشکل مواجه هستید، می‌توانید به سادگی TalkBack را فعال کنید و از Gemini بخواهید تا توضیحات یا راهنمایی ارائه دهد. Gemini محتوای صفحه را تجزیه و تحلیل می‌کند، عناصر کلیدی را شناسایی می‌کند و توضیحات یا دستورالعمل‌ها را به شیوه‌ای واضح و موجز ارائه می‌دهد. این رویکرد تعاملی به کاربران دارای اختلال بینایی این امکان را می‌دهد تا با اعتماد به نفس و استقلال بی‌سابقه‌ای در دنیای دیجیتال حرکت کنند.

درک احساسات بیشتر در پسِ زیرنویس‌ها

با زیرنویس‌های گویا، تلفن شما می‌تواند برای هر چیزی که صدا از طریق اکثر برنامه‌های تلفن شما می‌آید، زیرنویس‌های زنده‌ای ارائه دهد – با استفاده از هوش مصنوعی برای گرفتن نه تنها آنچه کسی می‌گوید، بلکه نحوه گفتن آن نیز. ما می‌دانیم که یکی از راه‌هایی که مردم خود را بیان می‌کنند از طریق کشیدن صدای کلماتشان است، به همین دلیل است که ما ویژگی مدت زمان جدیدی را در زیرنویس‌های گویا توسعه داده‌ایم، بنابراین شما می‌توانید بدانید که چه زمانی یک پخش‌کننده ورزشی در حال فریاد زدن «ضربه amaaazing» است، یا اینکه پیام ویدیویی «نه» نیست بلکه «نههههه» است. همچنین برچسب‌های صوتی بیشتری دریافت خواهید کرد، بنابراین می‌توانید بدانید که چه زمانی کسی سوت می‌زند یا گلویش را صاف می‌کند. این نسخه جدید در حال حاضر در ایالات متحده، بریتانیا، کانادا و استرالیا به زبان انگلیسی برای دستگاه‌هایی که Android 15 و بالاتر را اجرا می‌کنند، عرضه می‌شود.

Expressive Captions با گرفتن تغییرات ظریف در لحن صدا، سرعت گفتار و نشانه‌های صوتی، تجربه زیرنویس را متحول می‌کند. به این فکر کنید: گفتن یک “خوب” ساده می تواند توافق، هیجان یا طعنه را منتقل کند. در حالی که زیرنویس های سنتی فقط کلمات را ثبت می کنند، Expressive Captions احساسات پنهان را رمزگشایی می کند و آنها را از طریق نشانه های متنی به بینندگان منتقل می کند. به عنوان مثال، یک آه می تواند ناامیدی یا خستگی را نشان دهد، در حالی که یک خنده می تواند نشان دهنده سرگرمی یا شادی باشد. Expressive Captions با گنجاندن این نشانه های غیرکلامی، عمق و زمینه را به تجربه تماشای افراد دارای اختلال شنوایی یا ترجیح می دهند که به کمک های بصری تکیه کنند، اضافه می کند.

علاوه بر این، ویژگی مدت زمان Expressive Captions لایه دیگری از واقع گرایی و مشارکت را اضافه می کند. زیرنویس ها با منعکس کردن دقیق کشش و طولانی شدن کلمات، شدت عاطفی و اهمیت گوینده را منتقل می کنند. یک “نه!” طولانی شده مقاومت بیشتری را نسبت به یک “نه” مختصر منتقل می کند، در حالی که یک “عالی” کِش دار هیجان و احترام را برمی انگیزد. این توجه به جزئیات زیرنویس ها را جذاب تر، آموزنده تر و با طنین اندازتر می کند، و ارتباط عمیق تری بین بینندگان و محتوایی که مصرف می کنند، ایجاد می کند.

Expressive Captions علاوه بر تقویت احساسات، شامل برچسب های صوتی نیز می شود تا نشانه های مختلف صدا مانند سوت، خنده و تشویق را شناسایی و رونویسی کند. این برچسب ها زمینه ای را به زیرنویس ها اضافه می کنند و به بینندگان این امکان را می دهند تا محیط صوتی را به طور کامل درک کنند، حتی اگر شنوایی آنها مختل باشد. Expressive Captions با شناسایی عناصر صوتی کلیدی، بینندگان را قادر می سازد تا در محتوایی که مصرف می کنند، شرکت کنند و آن را درک کنند و شکاف بین اطلاعات شنوایی و بصری را پر می کند.

بهبود تشخیص گفتار در سراسر جهان

در سال 2019، ما پروژه Euphonia را برای یافتن راه هایی به منظور اینکه تشخیص گفتار برای افراد دارای گفتار غیرمعمول قابل دسترس تر شود، آغاز کردیم. اکنون، ما از توسعه دهندگان و سازمان ها در سراسر جهان پشتیبانی می کنیم، زیرا آنها این کار را به زبان ها و زمینه های فرهنگی بیشتری می برند.

منابع جدید توسعه‌دهنده

به منظور بهبود اکوسیستم ابزارها در سراسر جهان، ما در حال ارائه مخازن متن باز خود به توسعه دهندگان از طریق صفحه GitHub پروژه Euphonia هستیم. اکنون آنها می توانند ابزارهای صوتی شخصی سازی شده را برای تحقیق توسعه دهند، یا مدل های خود را برای تطبیق با الگوهای گفتاری مختلف آموزش دهند.

Google با ارائه مخازن متن باز، این امکان را برای توسعه دهندگان، محققان و سازمان ها فراهم می کند تا از نتایج پروژه Euphonia بهره مند شوند و در آن مشارکت کنند. این رویکرد مشارکتی پیشرفت فناوری های تشخیص گفتار برای گفتار غیرمعمول را تسریع می بخشد و اطمینان می دهد که در دسترس بودن آن به زبان ها و زمینه های فرهنگی مختلف گسترش می یابد. Google با به اشتراک گذاری کد، مجموعه داده ها و مدل ها، جامعه ای از نوآوری و آزمایش را پرورش می دهد و راه حل های پیشگامانه ای را برای فناوری های کمکی ایجاد می کند.

علاوه بر این، در دسترس بودن منابع توسعه دهنده به افراد یا سازمان ها این امکان را می دهد تا ابزارهای تشخیص گفتار را برای پاسخگویی به نیازهای خاص خود سفارشی کنند. محققان می توانند از این منابع برای بررسی الگوهای گفتاری مختلف و توسعه الگوریتم هایی استفاده کنند که می توانند انواع سبک های گفتاری را به دقت رونویسی کنند. استارت آپ ها یا مشاغل کوچک می توانند آنها را در برنامه ها یا خدمات خود ادغام کنند تا فراگیری و دسترسی آنها را افزایش دهند. Google با کاهش موانع ورود به فناوری تشخیص گفتار، نوآوری را امکان پذیر می کند و به توسعه دهندگان قدرت می دهد تا راه حل های معناداری ایجاد کنند که افراد دارای اختلالات گفتاری را قادر می سازد تا با جهان ارتباط برقرار کنند و تعامل داشته باشند.

حمایت از پروژه های جدید در آفریقا

در اوایل سال جاری، ما با Google.org همکاری کردیم تا از ایجاد مرکز فراگیری زبان دیجیتال (CDLI) در کالج دانشگاه لندن حمایت کنیم. CDLI به بهبود فناوری های تشخیص گفتار برای افراد غیر انگلیسی زبان در آفریقا از طریق ایجاد مجموعه داده های منبع باز برای 10 زبان آفریقایی، ساخت مدل های تشخیص گفتار جدید و ادامه پشتیبانی از سازمان ها و اکوسیستم توسعه دهندگان در این زمینه اختصاص دارد.

حمایت Google.org از مرکز فراگیری زبان دیجیتال (CDLI) گواهی بر تعهد این شرکت به پر کردن شکاف فناوری زبان در آفریقا است. Google با ارائه بودجه و منابع به CDLI، در حال کمک به توسعه مدل های تشخیص گفتار دقیق تر و فراگیرتر در این قاره است. تمرکز CDLI بر ایجاد مجموعه داده های باز و بزرگ برای زبان های آفریقایی، گام مهمی در آموزش سیستم های تشخیص گفتار قوی است. مرکز فراگیری زبان دیجیتال (CDLI) با جمع آوری و حاشیه نویسی نمونه های گفتاری به زبان های آفریقایی، پایه و اساس آینده فناوری تشخیص گفتار را می گذارد، فناوری که می تواند گفتار مردم آفریقا را صرف نظر از زبان یا لهجه آنها به دقت رونویسی کند.

مرکز فراگیری زبان دیجیتال (CDLI) همچنین متعهد به ساخت مدل های تشخیص گفتار جدیدی است که به طور خاص برای ویژگی های زبانی منحصر به فرد زبان های آفریقایی طراحی شده اند. این مدل ها تغییرات لحن، الگوهای تلفظ و واژگان زبان های آفریقایی را در نظر می گیرند که اغلب با انگلیسی و سایر زبان های مورد مطالعه گسترده متفاوت هستند. CDLI با سفارشی کردن مدل های تشخیص گفتار برای انطباق با پیچیدگی های زبان های آفریقایی، در حال بهبود دقت و قابلیت اطمینان فناوری تشخیص گفتار است، بنابراین مردم آفریقا می توانند به آن دسترسی داشته باشند و از آن استفاده کنند.

مهمتر از همه، مرکز فراگیری زبان دیجیتال (CDLI) بر حمایت از سازمان ها و اکوسیستم توسعه دهندگان در این قاره تمرکز دارد. CDLI برنامه های آموزشی، فرصت های مربیگری و منابع مالی را ارائه می دهد تا به ایجاد یک جامعه از متخصصان ماهر کمک کند. CDLI با ترویج پیشرفت فناوری زبان در آفریقا، در حال ایجاد فرصت های اقتصادی برای مردم آفریقا و ایجاد آینده ای دیجیتالی قوی و فراگیر است.

گسترش گزینه‌های کمکی برای دانش‌آموزان

ابزارهای دسترس‌پذیری به‌ویژه برای دانش‌آموزان معلول مفید هستند، از استفاده از ژست‌های چهره برای پیمایش Chromebook خود از طریق کنترل‌های چهره گرفته تا استفاده از حالت مطالعه برای سفارشی‌سازی تجربه مطالعه خود.

اکنون، وقتی از برنامه تست Bluebook کالج بورد (College Board) در Chromebook خود استفاده می‌کنید (جایی که دانش‌آموزان می‌توانند در آزمون SAT و اکثر آزمون‌های دروس پیشرفته دانشگاه شرکت کنند)، به تمام ویژگی‌های داخلی دسترس‌پذیری Google دسترسی خواهید داشت. این شامل صفحه‌خوان ChromeVox و تبدیل گفتار به متن، و همچنین ابزارهای تست دیجیتال خودِ کالج بورد می‌شود.

در اینجا نحوه دگرگون کردن تجربیات یادگیری دانش‌آموزان مختلف معلولیت توسط ویژگی‌های دسترس‌پذیری آمده است:

دانش‌آموزان با اختلالات بینایی می‌توانند از صفحه‌خوان ChromeVox استفاده کنند، که متن روی صفحه را به صورت شفاهی می‌خواند و امکان دسترسی به محتوای مکتوب را فراهم می‌کند، حتی اگر نتوانند آن را ببینند. ChromeVox همچنین می‌تواند توضیحات مربوط به تصاویر، دکمه‌ها و پیوندها را ارائه دهد و به دانش‌آموزان این امکان را می‌دهد تا به راحتی در وب و برنامه‌ها حرکت کنند.
دانش‌آموزان دارای اختلالات حرکتی ممکن است ویژگی‌های کنترل چهره را بسیار مفید بدانند، که به آن‌ها امکان می‌دهد با استفاده از عبارات چهره (مانند لبخند زدن یا بالا انداختن ابروها) در Chromebook خود حرکت کنند. این روش کنترل هندزفری می‌تواند برای دانش‌آموزانی که نمی‌توانند به طور سنتی از صفحه کلید یا ماوس استفاده کنند، تغییردهنده بازی باشد.
دانش‌آموزان دارای ناتوانی‌های یادگیری می‌توانند از حالت مطالعه برای سفارشی‌سازی تجربه خواندن خود استفاده کنند. حالت مطالعه به دانش‌آموزان امکان می‌دهد اندازه فونت، رنگ و فاصله را تنظیم کنند و خواندن متن را آسان‌تر کنند. همچنین می‌تواند حواس‌پرتی‌هایی مانند تصاویر و تبلیغات را حذف کند و به دانش‌آموزان اجازه دهد تا روی محتوا تمرکز کنند.

به طور کلی، ابزارهای دسترس‌پذیری Google دنیایی از امکانات را برای دانش‌آموزان معلول باز می‌کنند. از طریق ارائه دسترسی و پشتیبانی سفارشی‌شده، این ابزارها دانش‌آموزان را قادر می‌سازند تا بر موانع غلبه کنند، به تمام پتانسیل خود برسند و در تحصیلات خود موفق شوند.

دسترسی بیشتر به Chrome

هر روز بیش از 2 میلیارد نفر از Chrome استفاده می‌کنند و ما همیشه متعهد هستیم که مرورگر خود را کاربردی‌تر کنیم و ویژگی‌هایی مانند زیرنویس زنده و توضیحات تصویر برای کاربران صفحه‌خوان را برای همه در دسترس قرار دهیم.

دسترسی آسان‌تر به فایل‌های PDF در Chrome

قبلاً، اگر یک فایل PDF اسکن شده را در مرورگر Chrome دسکتاپ باز می‌کردید، نمی‌توانستید با صفحه‌خوان با آن تعامل داشته باشید. اکنون با تشخیص نوری کاراکتر (OCR)، Chrome به طور خودکار این نوع فایل‌های PDF را تشخیص می‌دهد، بنابراین می‌توانید متن را مانند هر صفحه دیگری برجسته کنید، کپی کنید و جستجو کنید و از صفحه‌خوان برای خواندن آن‌ها استفاده کنید.

ادغام فناوری تشخیص نوری کاراکتر (OCR) نحوه استفاده افراد دارای اختلالات بینایی یا ترجیح می دهند از صفحه‌خوان برای دسترسی به مطالب، از فایل‌های PDF را متحول می‌کند. پیش از این، فایل‌های PDF اسکن شده اساساً برای صفحه‌خوان‌ها غیرقابل دسترسی بودند، زیرا به عنوان تصاویر به جای متن قابل‌خواندن توسط ماشین در نظر گرفته می‌شدند. این بدان معناست که افراد دارای اختلالات بینایی نمی‌توانستند محتوای موجود در فایل‌های PDF اسکن شده را بخوانند، جستجو کنند یا با آن تعامل داشته باشند.

با استفاده از فناوری OCR، Chrome اکنون می‌تواند به طور خودکار فایل‌های PDF اسکن شده را تجزیه و تحلیل کند، متن موجود در فایل را شناسایی کند و آن را به قالبی تبدیل کند که توسط ماشین قابل‌خواندن باشد. این فرآیند صفحه‌خوان‌ها را قادر می‌سازد تا متن موجود در فایل PDF را بخوانند و به افراد دارای اختلالات بینایی اجازه می‌دهد تا به این فایل‌ها مانند هر سند دیجیتالی دیگری دسترسی داشته باشند و از آن‌ها استفاده کنند.

مزایای ادغام OCR بسیار زیاد است:

دسترسی بهبودیافته: OCR فایل‌های PDF اسکن شده‌ای را که قبلاً غیرقابل دسترسی بودند، برای افرادی که از صفحه‌خوان استفاده می‌کنند، در دسترس قرار می‌دهد. این کار دنیایی از امکانات را برای افرادی باز می‌کند که قادر به دسترسی مستقل به اسناد اسکن شده نبودند.
تجربه کاربری بهبودیافته: OCR به کاربران اجازه می‌دهد تا با فایل‌های PDF اسکن شده به همان روشی که با هر سند دیجیتالی دیگری تعامل دارند. آن‌ها می‌توانند متن را برجسته کنند، بخش‌هایی را کپی کنند و کلمات یا عبارات خاص را جستجو کنند، که تجربه خواندن و تحقیق آنها را بهبود می‌بخشد.
کارایی بالاتر: OCR نیاز به رونویسی دستی متن موجود در فایل‌های PDF اسکن شده را از بین می‌برد. این کار در زمان و تلاش صرفه‌جویی می‌کند و به کاربران اجازه می‌دهد تا به جای تلاش برای دسترسی به اطلاعات، بر روی کار در حال انجام تمرکز کنند.

به طور خلاصه، ادغام فناوری OCR در Chrome یک پیشرفت مهم است که دسترسی به فایل‌های PDF را برای افراد دارای اختلالات بینایی آسان‌تر می‌کند. Chrome با جستجوپذیر، خواندنی و تعاملی ساختن اسناد غیرقابل دسترسی قبلی، به پر کردن شکاف دیجیتالی بین افرادی که با چالش‌هایی در خواندن و یادگیری روبرو هستند، کمک می‌کند.

خواندن آسان با بزرگنمایی صفحه

بزرگنمایی صفحه اکنون به شما امکان می‌دهد اندازه متنی را که می‌بینید در Chrome در Android افزایش دهید بدون اینکه طرح‌بندی صفحه وب یا تجربه گشت و گذار شما مختل شود — درست همان‌طور که در Chrome دسکتاپ کار می‌کند. می‌توانید میزان بزرگ‌نمایی را سفارشی کنید و به راحتی ترجیحات خود را برای همه صفحاتی که بازدید می‌کنید یا فقط صفحات خاص اعمال کنید.

ویژگی بزرگنمایی صفحه می تواند برای افرادی که از دید ضعیف رنج می برند یا وضوح متن بزرگتر را برای خواندن آسان تر ترجیح می دهند، تفاوت ایجاد کند. Chrome با اجازه دادن به کاربران برای تنظیم اندازه متن بدون تأثیرگذاری بر طرح‌بندی صفحه وب، اطمینان حاصل می‌کند که متن از نظر بصری راحت‌تر و خواندنی‌تر است و خطر همپوشانی متن یا از بین رفتن فرمت وجود ندارد.

ویژگی بزرگنمایی صفحه مزایای زیادی دارد:

بهبود خوانایی: بزرگنمایی صفحه به کاربران اجازه می دهد تا اندازه متنی را که می بینند تنظیم کنند، که خواندن

title: “به‌روزرسانی‌های دسترس‌پذیری مبتنی بر هوش مصنوعی”
date: “2025-05-17”
updated: “2025-05-17”
language: fa
tags: [‘Google’, ‘Gemini’, ‘AIGC’]

draft: false
description: “گوگل در روز جهانی آگاهی از دسترس‌پذیری، به‌روزرسانی‌های هوش مصنوعی برای Android، Chrome و ابزارهای توسعه‌دهندگان را معرفی کرد.”
authors: [‘default’]
layout: PostLayout

نوآوری‌های بیشتر مبتنی بر هوش مصنوعی در Android

دریافت تمام جزئیات از طریق Gemini و TalkBack

درک احساسات بیشتر در پسِ زیرنویس‌ها

به‌روزرسانی‌شده در ۲۰۲۵-۰۵-۱۷

# Google # Gemini # AIGC

نوآوری‌های بیشتر مبتنی بر هوش مصنوعی در Android

دریافت تمام جزئیات از طریق Gemini و TalkBack

درک احساسات بیشتر در پسِ زیرنویس‌ها

بهبود تشخیص گفتار در سراسر جهان

منابع جدید توسعه‌دهنده

حمایت از پروژه های جدید در آفریقا

گسترش گزینه‌های کمکی برای دانش‌آموزان

دسترسی بیشتر به Chrome

دسترسی آسان‌تر به فایل‌های PDF در Chrome

خواندن آسان با بزرگنمایی صفحه

draft: falsedescription: “گوگل در روز جهانی آگاهی از دسترس‌پذیری، به‌روزرسانی‌های هوش مصنوعی برای Android، Chrome و ابزارهای توسعه‌دهندگان را معرفی کرد.”authors: [‘default’]layout: PostLayout

نوآوری‌های بیشتر مبتنی بر هوش مصنوعی در Android

دریافت تمام جزئیات از طریق Gemini و TalkBack

درک احساسات بیشتر در پسِ زیرنویس‌ها