Нови AI и функции за достъпност в Android

За да отпразнуваме Глобалния ден за осведоменост относно достъпността (GAAD), ние сме развълнувани да представим нови актуализации за Android и Chrome, както и нови ресурси за екосистемата. Напредъкът в изкуствения интелект продължава да прави нашия свят все по-достъпен. Днес, в чест на Глобалния ден за осведоменост относно достъпността, пускаме нови актуализации за продуктите Android и Chrome, както и добавяме нови ресурси за разработчиците, които създават инструменти за разпознаване на реч.

Повече иновации за Android, задвижвани от AI

Ние затвърждаваме работата си и интегрираме най-доброто от Google AI и Gemini в основни мобилни изживявания, персонализирани за зрение и слух.

Получете всички подробности с Gemini и TalkBack

Миналата година въведохме възможностите на Gemini в екранния четец TalkBack на Android, предоставяйки генерирани от AI описания на изображения за хора със слепота или увредено зрение, дори ако няма алтернативен текст. Днес разширяваме тази интеграция на Gemini, за да могат хората да задават въпроси и да получават отговори за техните изображения.

Това означава, че следващия път, когато приятел ви изпрати снимка на новата си китара, можете да получите описание и да зададете последващи въпроси относно марката и цвета и дори какво друго има на изображението. Сега хората могат също да получат описания и да задават въпроси за целия си екран. Така че, ако пазарувате най-новите промоции в любимото си приложение за пазаруване, можете да попитате Gemini за материала на артикула или дали има отстъпка.

По-конкретно, тази актуализация издига описанията на изображенията до безпрецедентни нива, като използва силата на Gemini. Потребителите вече не са ограничени до статични описания; те могат да взаимодействат с изображения, да задават конкретни въпроси и да получават нюансирани отговори. Например, потребителят може да качи снимка на историческа забележителност и да попита за нейния архитектурен стил, годината на построяване или всякакви други уместни подробности. Интелигентните възможности за обработка на Gemini ще анализират изображението, ще извлекат подходяща информация и ще предоставят изчерпателен отговор в лесен за разбиране формат.

Освен това, интеграцията на Gemini с TalkBack надхвърля простото разпознаване на изображения. Той се простира и до съдържанието на екрана, позволявайки на потребителите да задават въпроси за информацията, показана на техните устройства. Ако ви е трудно да навигирате в сложна уеб страница или да използвате непознато приложение, можете просто да активирате TalkBack и да помолите Gemini за разяснения или насоки. Gemini ще анализира съдържанието на екрана, ще идентифицира ключови елементи и ще предостави обяснения или инструкции по ясен и сбит начин. Този интерактивен подход дава възможност на потребителите с увредено зрение да навигират в дигиталния свят с безпрецедентна увереност и независимост.

Разберете повечето емоции зад субтитрите

С Expressive Captions телефонът ви може да предоставя надписи на живо за почти всичко със звук на телефона ви — като използва AI, за да улови не само какво казва някой, но и начина, по който го казва. Знаем, че един от начините, по които хората се изразяват, е като разтягат звуците на думите си, поради което разработихме нова функция за продължителност на Expressive Captions, така че да знаете кога спортен излъчвател крещи "amaaazing shot" или видео съобщение е "no" вместо "nooooo". Ще получавате и повече звукови етикети, така че да знаете кога някой свири или си прочиства гърлото. Тази нова версия се разпространява на английски език в САЩ, Обединеното кралство, Канада и Австралия на устройства с Android 15 и по-нови версии.

Expressive Captions революционизират изживяването при надписване чрез заснемане на фини вариации в тона, скоростта на говора и звуковите сигнали. Помислете за това: обикновеното "добре" може да бъде доставено, за да изрази съгласие, вълнение или сарказъм. Докато традиционните надписи просто улавят думите, Expressive Captions дешифрират скритите емоции и ги предават на публиката чрез текстови знаци. Въздишката, например, може да показва разочарование или умора, докато кикотенето може да означава забавление или радост. Чрез включването на тези невербални знаци, Expressive Captions добавят дълбочина и контекст към изживяването при гледане за хора със слухови увреждания или тези, които предпочитат да разчитат на визуална помощ.

Освен това, функцията продължителност на Expressive Captions добавя още един слой от реализъм и ангажираност. Чрез точно отразяване на разтягането и удължаването на думите, надписите предават емоционалната интензивност и важността на говорещия. Удължено "Не!" предава повече съпротива от сбитото "Не", докато разтегнато "прекрасно" предизвиква вълнение и страхопочитание. Това внимание към детайлите прави надписите по-ангажиращи, информативни и резонансни, като насърчава по-дълбока връзка между публиката и съдържанието, която консумира.

В допълнение към емоционалното подобрение, Expressive Captions включват звукови етикети за идентифициране и транскрибиране на различни звукови сигнали, като подсвирквания, смях и аплодисменти. Тези етикети добавят контекст към надписите и пПозволяват на зрителите да схванат напълно аудио средата, дори ако слухът им е нарушен. Чрез идентифициране на ключови звукови елементи, Expressive Captions дават възможност на зрителите да участват и да разберат съдържанието, което консумират, като преодоляват пропастта между слуховата и визуалната информация.

Подобряване на разпознаването на реч в световен мащаб

През 2019 г. стартирахме проекта Euphonia, за да намерим начини да направим разпознаването на реч по-достъпно за хора с нестандартна реч. Сега подкрепяме разработчици и организации по света, докато те пренасят тази работа в повече езикови и културни контексти.

Нови ресурси за разработчици

За да подобрим екосистемата от инструменти в световен мащаб, предлагаме нашия хранилище с отворен код за разработчици на страницата GitHub на проекта Euphonia. Сега те могат да разработват персонализирани аудио инструменти за изследвания или да обучават своите модели, за да се адаптират към различни модели на реч.

Предоставяйки хранилище с отворен код, Google позволява на разработчици, изследователи и организации да използват и да допринасят за резултатите от проекта Euphonia. Този съвместен подход ускорява напредъка на технологиите за разпознаване на реч за нестандартна реч, като гарантира, че нейнатаналичност може да бъде разширена до различни езикови и културни контексти. Чрез споделяне на код, набори от данни и модели, Google култивира общност от иновации и експерименти, създавайки революционни решения за асистивни технологии.

Освен това, наличието на ресурси за разработчици дава възможност на отделните лица или организации да персонализират инструменти за разпознаване на реч, за да отговорят на техните специфични нужди. Изследователите могат да използват тези ресурси, за да изследват различни модели на реч и да разработват алгоритми, които могат точно да транскрибират широк набор от начини на говорене. Стартъпите или малките предприятия могат да ги интегрират в своите приложения или услуги, за да подобрят приобщаваността и достъпността. Чрез намаляване на бариерите за навлизане на технологиите за разпознаване на реч, Google дава възможност за иновации, давайки възможност на разработчиците да създават значими решения, които дават възможност на хората с речеви увреждания да общуват и да взаимодействат със света.

Подкрепа на нови проекти в Африка

По-рано тази година, в партньорство с Google.org, предоставихме подкрепа за създаването на Центъра за цифрови езикови включвания (CDLI) в University College London. CDLI се ангажира с подобряването на технологиите за разпознаване на реч за африканци, които не говорят английски, като създава набори от данни с отворен код за 10 африкански езика, изгражда нови модели за разпознаване на реч и продължава да подкрепя организации и разработчици в тази област.

Подкрепата на Google.org за Центъра за цифрови езикови включвания (CDLI) е свидетелство за ангажимента на компанията за преодоляване на технологичната пропаст в африканските езици. Предоставяйки финансиране и ресурси на CDLI, Google помага за разработването на по-точни и по-приобщаващи модели за разпознаване на реч на африканския континент. Фокусът на CDLI върху създаването на мащабни, отворени набори от данни за африкански езици е важна стъпка към обучението на мощни системи за разпознаване на реч. Чрез събиране и анотиране на речеви проби на африкански езици, Центърът за цифрови езикови включвания поставя основата за бъдещето на технологиите за разпознаване на реч, които могат точно да транскрибират речта на африканските народи, независимо от техния език или акцент.

В допълнение към създаването на набори от данни, Центърът за цифрови езикови включвания се ангажира с изграждането на нови модели за разпознаване на реч, които са специално проектирани да се справят с уникалните езикови характеристики на африканските езици. Тези модели отчитат тоналните вариации, моделите на реч и речниците на африканските езици, които често се различават от английския и другите широко изучавани езици. Чрез адаптиране на моделите за разпознаване на реч, за да се справят със сложностите на африканските езици, CDLI повишава точността и надеждността на технологиите за разпознаване на реч, така че да бъдат достъпни и използваеми от африканските народи.

Преди всичко Центърът за цифрови езикови включвания се фокусира върху подкрепата на екосистемата от организации и разработчици на африканския континент. CDLI предоставя програми за обучение, възможности за наставничество и финансови ресурси, за да помогне за изграждането на общност от квалифицирани експерти. Чрез насърчаване на напредъка на езиковите технологии за африканските езици, CDLI създава икономически възможности и из

гражда силно, приобщаващо цифрово бъдеще за африканските народи.

Разширяване на опциите за достъпност за учениците

Инструментите за достъпност са особено полезни за учениците с увреждания, от използването на жестове на лицето за навигиране в техните Chromebook с Face Gaze до персонализирането на учебното им изживяване с Reading Mode.

Сега, когато използвате приложението Bluebook за изпит на College Board на вашия Chromebook (където учениците вземат SAT и повечето Advanced Placement изпити), ще имате достъп до всички вградени функции за достъпност на Google. Това включва екранния четец ChromeVox и диктовката, както и собствените цифрови инструменти за тестване на College Board.

Ето как инструментите за достъпност могат да революционизират учебното изживяване за ученици с различни увреждания:

  • Учениците с увредено зрение могат да се възползват от екранния четец ChromeVox, който устно прочита текста на екрана, осигурявайки достъп до писмено съдържание, дори ако не могат да го видят. ChromeVox може също така да предостави описания на изображения, бутони и връзки, позволявайки на учениците да навигират в мрежата и приложенията без проблеми.
  • Учениците с двигателни увреждания могат да намерят функцията Face Gaze за Face Gaze, която им позволява да навигират в своя Chromebook, като използват изражения на лицето, като усмивка или повдигане на вежда. Този метод на управление със свободни ръце може да промени играта за ученици, които не могат да използват клавиатура или мишка по традиционен начин.
  • Учениците с затруднения при ученето могат да използват Reading Mode, за да персонализират учебното си изживяване. Reading Mode позволява на учениците да коригират размера на шрифта, цвета и разстоянието, което улеснява четенето на текста. Може също така да премахне разсейващите фактори, като изображения и реклами, позволявайки на учениците да се концентрират върху съдържанието.

Като цяло, инструментите за достъпност на Google отварят свят на възможности за учениците с увреждания. Като предоставят персонализиран достъп и подкрепа, тези инструменти дават възможност на учениците да преодолеят препятствията, да достигнат пълния си потенциал и да успеят академично.

Направете Chrome по-достъпен

Всеки ден Chrome се използва от над 2 милиарда души и ние винаги работим върху това да направим нашия браузър по-лесен за използване и достъпен за всички с функции като Closed Captioning на живо и описания на изображения за потребители на екранни четци.

По-лесен достъп до PDF файлове в Chrome

Преди това, ако отворите сканиран PDF файл в настолния браузър Chrome, не бихте могли да взаимодействате с него с екранен четец. Сега с оптично разпознаване на символи (OCR), Chrome автоматично ще разпознава тези типове PDF, така че да можете да маркирате, копирате и търсите текст и да ги четете с екранен четец точно както всяка друга страница.

Интеграцията на технологията за оптично разпознаване на символи (OCR) промени коренно начина, по който PDF файловете се използват от хора с увредено зрение или тези, които предпочитат да имат достъп до съдържание, използвайки екранен четец. Преди това сканираните PDF файлове по същество бяха недостъпни за екранните четци, тъй като се третираха като изображения, а не като машинно четим текст. Това означаваше, че хората с увредено зрение не можеха да четат, търсят или взаимодействат със съдържанието вътре в сканиран PDF файл.

С технологията OCR, Chrome вече може автоматично да анализира сканирани PDF файлове, да разпознава текста вътре във файла и да го преобразува в машинно четим формат. Този процес позволява на екранните четци да четат текста вътре в PDF файла, което го прави достъпен и използваем за хората с увредено зрение точно както всеки друг цифров документ.

Предимствата от интегрирането на OCR са многобройни:

  • Повишена достъпност: OCR прави сканираните PDF файлове, които преди това са били недостъпни, достъпни за хора, използващи екранни четци. Това отваря свят на възможности за хора, които не са могли да имат достъп до сканирани документи независимо.
  • Подобрено потребителско изживяване: OCR позволява на потребителите да взаимодействат със сканирани PDF файлове по същия начин, по който биха взаимодействали с всеки друг цифров документ. Те могат да маркират текст, да копират секции и да търсят конкретни думи или фрази, подобрявайки изживяването си при четене и изследване.
  • По-голяма ефективност: OCR премахва необходимостта ръчно да се транскрибира текст от сканирани PDF файлове. Това спестява време и усилия, като позволява на потребителите да се съсредоточат върху задачата, която имат пред себе си, вместо да се мъчат да получат достъп до информация.

В обобщение, интегрирането на технологията OCR в Chrome е значителен напредък в улесняването на достъпа до PDF файлове за хората с увредено зрение. Като прави документите, които преди това са били недостъпни, да бъдат търсене, да бъдат четими и да бъдат интерактивни, Chrome помага за преодоляване на цифровото разделение за отделни лица, които се сблъскват с предизвикателства при четене и учене.

Лесно четене с мащабиране на страницата

Мащабирането на страницата сега ви позволява да увеличите размера на текста, който виждате в Chrome за Android, без да засягате оформлението на уеб страницата или изживяването ви при сърфиране - точно както работи на работния плот на Chrome. Можете да персонализирате колко да увеличите и лесно да приложите предпочитанията си към всички страници, които посещавате, или само към конкретни.

Функцията за мащабиране на страницата може да промени играта за хора с проблеми със зрението или тези, които предпочитат по-голям текст за по-добра яснота и лесно четене. Чрез разрешаването на потребителите да коригират размера на текста, без да се засяга оформлението на уеб страницата, Chrome гарантира, че текстът е визуално по-удобен и лесен за четене, без риск от припокриване на текст или повреда на форматирането.

Ето предимствата от използването на функцията за мащабиране на страницата:

  • Подобрена четливост: Мащабирането на страницата позволява на потребителите да коригират размера на текста, който виждат, което го прави по-лесен и приятен за четене.
  • Повишен комфорт: Мащабирането на страницата позволява на потребителите да персонализират размера на текста, за да отговарят на личните им предпочитания и зрителни изисквания. Това помага за намаляване на умората на очите и прави четенето по-удобно за продължителни периоди от време.
  • Съхранено оформление: За разлика от простото мащабиране на цялата уеб страница, мащабирането на страницата позволява на потребителите само да увеличават или намаляват размера на текста, като същевременно поддържат целостта на оригиналното оформление. Това гарантира, че уеб страницата остава лесна за навигиране и че всички елементи са поставени според намерението.
  • Гъвкаво персонализиране: Мащабирането на страницата предлага широк диапазон от опции за персонализиране, позволяващи на потребителите да прецизират размера на текста, за да отговарят на техните специфични нужди. Потребителите могат да избират от дефинирани нива на мащабиране или да въведат персонализирана стойност и да приложат предпочитанията си към всички уеб страници или само към конкретни уебсайтове.

За да започнете да използвате тази функция, просто докоснете менюто с три точки в горния десен ъгъл на
Chrome и след това задайте предпочитанията си за мащабиране.