Новые AI-функции для Android, Chrome и не только

В рамках празднования Всемирного дня осведомленности о доступности (GAAD) мы рады представить новые обновления для Android и Chrome, а также новые ресурсы для экосистемы. Достижения в области искусственного интеллекта продолжают делать наш мир все более доступным. Сегодня, в честь Всемирного дня осведомленности о доступности, мы представляем новые обновления для продуктов Android и Chrome, а также добавляем новые ресурсы для разработчиков, создающих инструменты распознавания речи.

Больше инноваций для Android на основе искусственного интеллекта

Мы укрепляем нашу работу и интегрируем лучшие возможности Google AI и Gemini в основные мобильные сервисы, адаптированные для людей с нарушениями зрения и слуха.

Получение всей необходимой информации с помощью Gemini и TalkBack

В прошлом году мы интегрировали возможности Gemini в программу чтения с экрана TalkBack для Android, предоставляя слепым или слабовидящим пользователям описания изображений, созданные искусственным интеллектом, даже если отсутствует альтернативный текст. Сегодня мы расширяем эту интеграцию Gemini, чтобы пользователи могли задавать вопросы и получать ответы об изображениях.

Это означает, что в следующий раз, когда друг отправит вам фотографию своей новой гитары, вы можете получить описание и задать последующие вопросы о марке и цвете, или даже о том, что еще есть на изображении. Теперь пользователи также могут получать описания и задавать вопросы обо всем экране. Таким образом, если вы просматриваете последние рекламные акции в своем любимом приложении для покупок, вы можете спросить Gemini о материале товара или о том, есть ли скидка.

Более конкретно, это обновление, благодаря использованию возможностей Gemini, выводит описание изображений на беспрецедентный уровень. Пользователи больше не ограничиваются статическим описанием; они могут взаимодействовать с изображением, задавать определенные вопросы и получать подробные ответы. Например, пользователь может загрузить фотографию исторической достопримечательности и спросить об архитектурном стиле, годе постройки или любых других соответствующих деталях. Интеллектуальные возможности Gemini анализируют изображение, извлекают релевантную информацию и предоставляют исчерпывающий ответ в понятном формате.

Кроме того, интеграция Gemini с TalkBack выходит за рамки простого распознавания изображений. Она также распространяется на содержимое экрана, позволяя пользователям задавать вопросы об информации, отображаемой на их устройстве. Если у вас возникли трудности при навигации по сложному веб-сайту или использовании незнакомого приложения, вы можете просто активировать TalkBack и попросить Gemini предоставить разъяснения или инструкции. Gemini проанализирует содержимое экрана, определит ключевые элементы и предоставит объяснения или инструкции в четкой и краткой форме. Этот интерактивный подход позволяет пользователям с нарушениями зрения уверенно и независимо ориентироваться в цифровом мире.

Понимание большего количества эмоций за титрами

С помощью Expressive Captions ваш телефон может предоставлять субтитры в реальном времени для всего, что имеет звук в большинстве приложений на телефоне – используя искусственный интеллект, чтобы запечатлеть не только то, что кто-то говорит, но и то, как он это говорит. Мы знаем, что один из способов, которым люди выражают себя, – это удлинение звуков своих слов, поэтому мы разработали новую функцию продолжительности в Expressive Captions, чтобы вы могли знать, когда спортивный комментатор кричит “восхитительный бросок”, или что видео-сообщение – это не “нет”, а “нееет”. Вы также получите больше звуковых меток, чтобы вы могли знать, когда кто-то свистит или прочищает горло. Эта новая версия выходит на английском языке в США, Великобритании, Канаде и Австралии для устройств под управлением Android 15 и новее.

Expressive Captions революционизирует процесс показа субтитров, фиксируя тонкие изменения в интонации, скорости речи и звуковых подсказках. Подумайте об этом: простое “хорошо” может выражать согласие, волнение или сарказм. Традиционные субтитры записывают только слова, а Expressive Captions расшифровывает скрытые эмоции и передает их зрителям с помощью текстовых подсказок. Например, вздох может указывать на разочарование или усталость, а хихиканье – на развлечение или счастье. Включая эти невербальные сигналы, Expressive Captions добавляет глубину и контекст в зрительский опыт для людей с нарушениями слуха или тех, кто предпочитает полагаться на визуальные подсказки.

Кроме того, функция длительности в Expressive Captions добавляет еще один уровень аутентичности и вовлеченности. Точно отражая растягивание и удлинение слов, субтитры передают эмоциональную силу и важность говорящего. Длинное “Нееет!” передает большее сопротивление, чем краткое “нет”, а растянутое “Прекрасно” вызывает волнение и восхищение. Это внимание к деталям делает субтитры более привлекательными, информативными и резонансную, способствуя более глубокой связи между зрителями и контентом, который они потребляют.

Помимо улучшения эмоций, Expressive Captions также включает звуковые теги для идентификации и транскрибирования различных звуковых сигналов, таких как свист, смех и аплодисменты. Эти теги добавляют контекст в субтитры и позволяют зрителям полностью воспринимать звуковую среду, даже если их слух ограничен. Распознавая ключевые звуковые элементы, Expressive Captions позволяет зрителям участвовать и понимать контент, который они потребляют, преодолевая разрыв между слуховой и визуальной информацией.

Совершенствование распознавания речи во всем мире

В 2019 году мы запустили проект Euphonia, чтобы найти способы сделать распознавание речи более доступным для людей с нестандартной манерой речи. Теперь мы поддерживаем разработчиков и организации по всему миру, которые применяют наши разработки к большему числу языков и культур.

Новые ресурсы для разработчиков

Чтобы улучшить экосистему инструментов по всему миру, мы предоставляем разработчикам наш репозиторий с открытым исходным кодом через страницу проекта Euphonia на GitHub. Теперь они могут разрабатывать персонализированные аудио-инструменты для исследований или обучать свои модели для адаптации к различным моделям речи.

Предоставляя репозиторий с открытым исходным кодом, Google позволяет разработчикам, исследователям и организациям использовать результаты проекта Euphonia и вносить в него свой вклад. Этот подход на основе сотрудничества ускоряет развитие технологий распознавания речи для нестандартной речи, гарантируя, что ее доступность распространяется на различные языки и культурные контексты. Обмениваясь кодом, наборами данных и моделями, Google воспитывает сообщество инноваций и экспериментов, создавая прорывные решения для вспомогательных технологий.

Кроме того, доступность ресурсов для разработчиков позволяет отдельным лицам или организациям адаптировать инструменты распознавания речи в соответствии со своими конкретными потребностями. Исследователи могут использовать эти ресурсы для изучения различных моделей речи и разработки алгоритмов, которые могут точно транскрибировать различные способы говорить. Стартапы или малые предприятия могут интегрировать его в свои приложения или услуги для повышения их инклюзивности и доступности. Снижая барьеры для входа в технологии распознавания речи, Google обеспечивает инновации, позволяя разработчикам создавать значимые решения, позволяющие людям с нарушениями речи общаться и взаимодействовать с миром.

Поддержка новых проектов в Африке

Ранее в этом году мы сотрудничали с Google.org для поддержки создания Центра цифровой языковой инклюзии (CDLI) в Университетском колледже Лондона. CDLI работает над улучшением распознавания речи для африканцев, не говорящих по-английски, путем создания наборов данных с открытым исходным кодом для 10 африканских языков, создания новых моделей распознавания речи и продолжения поддержки организаций и экосистемы разработчиков в этой области.

Поддержка Google.org Центра цифровой языковой инклюзии (CDLI) является свидетельством приверженности компании преодолению технологического разрыва в африканских языках. Предоставляя CDLI финансирование и ресурсы, Google помогает разрабатывать более точные и инклюзивные модели распознавания речи на африканском континенте. Сосредоточение внимания CDLI на создании крупных наборов открытых данных для африканских языков является важным шагом на пути к обучению надежных систем распознавания речи. Собирая и аннотируя речевые образцы на африканских языках, Центр цифровой языковой инклюзии (CDLI) закладывает основу для будущего технологий распознавания речи, которые могут точно транскрибировать речь африканцев, независимо от их языка или акцента.

Помимо создания наборов данных, Центр цифровой языковой инклюзии (CDLI) также работает над созданием новых моделей распознавания речи, специально разработанных для уникальных лингвистических особенностей африканских языков. Эти модели учитывают тональные вариации, речевые паттерны и словарный запас африканских языков, которые часто отличаются от английского и других широко изученных языков. Адаптируя модели распознавания речи к сложностям африканских языков, CDLI повышает точность и надежность технологий распознавания речи, поэтому они могут быть доступны и использоваться африканцами.

Важнее всего то, что Центр цифровой языковой инклюзии (CDLI) уделяет особое внимание поддержке организаций и экосистемы разработчиков на африканском континенте. CDLI предоставляет программы обучения, возможности наставничества и финансовые ресурсы, помогающие создать сообщество квалифицированных экспертов. Способствуя развитию технологий африканских языков, CDLI создает экономические возможности для африканцев и строит надежное и инклюзивное цифровое будущее.

Расширение возможностей специальных возможностей для учащихся

Специальные возможности особенно полезны для учащихся с ограниченными возможностями: от использования жестов лица для навигации по Chromebook с помощью управления лицом до настройки их чтения с помощью средства чтения.

Теперь, когда вы используете тестовое приложение Bluebook College Board на своем Chromebook, где студенты могут сдавать SAT и большинство экзаменов Advanced Placement, у вас будет доступ ко всем встроенным специальным возможностям Google. Сюда входят программа чтения с экрана ChromeVox и диктовка, а также собственные инструменты цифрового тестирования College Board.

Вот как специальные возможности могут преобразовать процесс обучения для учащихся с различными ограниченными возможностями:

  • Студенты с нарушениями зрения могут использовать программу чтения с экрана ChromeVox, которая устно зачитывает текст на экране, позволяя им получать доступ к письменному контенту, даже если они не могут его видеть. ChromeVox также предоставляет описания изображений, кнопок и ссылок, позволяя учащимся беспрепятственно перемещаться по Интернету и приложениям.
  • Студентам с двигательными нарушениями может оказаться полезной функция управления лицом с помощью управления лицом, которая позволяет им использовать выражения лица, такие как улыбка или поднятие бровей, для навигации по Chromebook. Этот метод управления без помощи рук может стать переломным моментом для студентов, которые не могут традиционно использовать клавиатуру или мышь.
  • Студенты с трудностями в обучении могут использовать режим чтения для настройки своего опыта чтения. Режим чтения позволяет студентам настраивать размер шрифта, цвет и интервалы, чтобы облегчить чтение текста. Он также может удалять отвлекающие факторы, такие как изображения и рекламу, позволяя студентам сосредоточиться на контенте.

В целом, специальные возможности Google открывают мир возможностей для учащихся с ограниченными возможностями. Предоставляя специализированный доступ и поддержку, эти инструменты позволяют студентам преодолевать препятствия, полностью раскрывать свой потенциал и добиваться успехов в учебе.

Сделать Chrome более доступным

Более 2 миллиардов человек ежедневно используют Chrome, и мы всегда стремимся сделать наш браузер более простым в использовании и обеспечить доступность для всех с такими функциями, как автоматические субтитры и описания изображений для пользователей программ чтения с экрана.

Более простой доступ к PDF-файлам в Chrome

Раньше, если вы открывали отсканированный PDF-файл в браузере Chrome на рабочем столе, вы не могли взаимодействовать с ним с помощью программы чтения с экрана. Теперь, благодаря оптическому распознаванию символов (OCR), Chrome будет автоматически распознавать эти типы PDF-файлов, поэтому вы можете выделять, копировать и искать текст, а также читать их с помощью программы чтения с экрана, как и любую другую страницу.

Интеграция технологии оптического распознавания символов (OCR) коренным образом изменила способ использования PDF-файлов людьми с нарушениями зрения или теми, кто предпочитает использовать программы чтения с экрана для доступа к контенту. Раньше отсканированные PDF-файлы по сути были недоступны для программ чтения с экрана, поскольку они рассматривались как изображения, а не как машиночитаемый текст. Это означало, что люди с нарушениями зрения не могли читать, искать или взаимодействовать с контентом в отсканированных PDF-файлах.

Благодаря технологии OCR Chrome теперь может автоматически анализировать отсканированные PDF-файлы, распознавать текст в файле и преобразовывать его в машиночитаемый формат. Этот процесс позволяет программам чтения с экрана читать текст в PDF-файле, что позволяет людям с нарушениями зрения получать доступ к этим файлам и использовать их так же, как и любой другой цифровой документ.

Преимущества интеграции OCR многочисленны:

  • Расширенная доступность: OCR делает отсканированные PDF-файлы, которые ранее были недоступны, доступными для людей, использующих программы чтения с экрана. Это открывает мир возможностей для людей, которые не могут самостоятельно получить доступ к отсканированным документам.
  • Улучшенный пользовательский опыт: OCR позволяет пользователям взаимодействовать с отсканированными PDF-файлами так же, как и с любым другим цифровым документом. Они могут выделять текст, копировать разделы и искать определенные слова или фразы, улучшая свой опыт чтения и исследования.
  • Повышенная эффективность: OCR устраняет необходимость вручную переписывать текст из отсканированных PDF-файлов. Это экономит время и силы, позволяя пользователям сосредоточиться на задаче, а не на том, чтобы получить доступ к информации.

В заключение, интеграция технологии OCR в Chrome является большим шагом вперед в упрощении доступа к PDF-файлам для людей с нарушениями зрения. Делая ранее недоступные документы доступными для поиска, чтения и взаимодействия, Chrome помогает преодолеть цифровой разрыв между людьми, испытывающими трудности с чтением и обучением.

Легкое чтение с масштабированием страницы

Масштабирование страницы теперь позволяет увеличить размер текста, который вы видите, в Chrome на Android, не влияя на макет веб-страницы или ваш опыт просмотра — так же, как это работает в Chrome на рабочем столе. Вы можете настроить, насколько сильно хотите увеличить масштаб, и легко применить свои предпочтения ко всем страницам, которые вы посещаете, или только к определенным страницам.

Функция масштабирования страниц может изменить ситуацию для людей с ослабленным зрением или тех, кто предпочитает более четкий текст большего размера для более легкого чтения. Позволяя пользователям настраивать размер текста, не затрагивая макет веб-страницы, Chrome гарантирует, что текст будет более удобным для визуального восприятия и легким для чтения без риска перекрытия текста или нарушения форматирования.

Преимущества функции масштабирования страниц:

  • Улучшенная читаемость: Масштабирование страниц позволяет пользователям настраивать размер отображаемого текста, что делает его более легким и приятным для чтения. Это особенно полезно для людей с ослабленным зрением, дислексией или другими нарушениями зрения.
  • Повышенный комфорт: Масштабирование страниц позволяет пользователям настраивать размер текста в соответствии со своими личными предпочтениями и визуальными потребностями. Это помогает уменьшить напряжение глаз и делает чтение контента в течение более длительных периодов времени более комфортным.
  • Сохранение макета: В отличие от простого масштабирования всей веб-страницы, масштабирование страниц позволяет пользователям увеличивать или уменьшать только размер текста, сохраняя при этом целостность исходного макета. Это гарантирует, что веб-страница будет легко перемещаться, а все элементы будут отображаться там, где они должны быть.
  • Гибкая настройка: Масштабирование страниц предлагает широкий спектр вариантов настройки, позволяющих пользователям точно настраивать размер текста в соответствии со своими конкретными потребностями. Пользователи могут выбирать предопределенные уровни масштабирования или вводить собственные значения и применять свои предпочтения ко всем веб-страницам или только к определенным веб-сайтам.

Чтобы начать использовать эту функцию, просто нажмите на меню из трех точек в правом верхнем углу Chrome, а затем установите свои настройки масштабирования.