Google недавно представила ряд инновационных функций, основанных на искусственном интеллекте (AI) и ориентированных на повышение доступности, как для своей операционной системы Android, так и для браузера Chrome. Особенно примечательным улучшением является интеграция интеллекта Gemini в TalkBack, встроенную программу чтения с экрана Android. Это обновление позволяет пользователям использовать AI для понимания содержания изображений и более эффективной навигации по экранам.
Понимание изображений с помощью искусственного интеллекта в TalkBack
В прошлом году Google предприняла значительный шаг, внедрив возможности Gemini в TalkBack, предоставив людям с нарушениями зрения доступ к описаниям изображений, сгенерированным AI, даже при отсутствии Alt текста. Развивая эту основу, пользователи теперь могут взаимодействовать с изображениями на более глубоком уровне, задавая вопросы и получая содержательные ответы об их содержании.
Представьте себе, что друг прислал вам фотографию своей новой гитары. С улучшенным TalkBack вы можете не только получить описание инструмента, но и узнать о его марке и цвете, получив полное представление об изображении.
Кроме того, эта функциональность распространяется на весь экран телефона. Представьте, что вы просматриваете приложение для онлайн-шоппинга. Теперь вы можете спросить Gemini о материале конкретного товара или о наличии каких-либо скидок, что упростит ваш процесс совершения покупок и предоставит ценную информацию в ваших руках.
Expressive Captions: Улавливание нюансов и эмоций
Google также объявила об обновлении Expressive Captions, функции субтитров Android в реальном времени. Используя возможности AI, Expressive Captions не только расшифровывают то, что говорится, но и улавливают нюансы и эмоции, передаваемые через речь.
Признавая, что люди часто выражают себя, растягивая звуки своих слов, Google представила новую функцию длительности в Expressive Captions. Эта функция позволяет пользователям различать ударение и эмоции, стоящие за произнесенными словами. Например, вы сможете отличить спортивного комментатора, восклицающего "восхитительный удар!", от кого-то, кто просто говорит "нууу нееет", чтобы выразить сильное разочарование.
В дополнение к длительности, обновление вводит новые метки для звуков, таких как свист или прочистка горла, обеспечивая более полное и информативное сопровождение субтитрами.
Обновленная функция Expressive Captions в настоящее время доступна на английском языке в США, Великобритании, Канаде и Австралии для устройств под управлением Android 15 и выше.
Улучшенная доступность PDF в Chrome
Google также стремится улучшить доступность PDF-файлов в браузере Chrome. Ранее пользователи не могли взаимодействовать со сканированными PDF-файлами, используя программы чтения с экрана в своем настольном браузере Chrome. Однако с этим обновлением Chrome теперь автоматически распознает эти типы PDF-файлов, позволяя пользователям выделять, копировать и искать текст, как на любой другой веб-странице. Эта функциональность обеспечивается благодаря интеграции технологии оптического распознавания символов (OCR).
Это улучшениезначительно повышает доступность сканированных документов, делая их более удобными для использования людьми с нарушениями зрения.
Настраиваемый масштаб страницы в Chrome для Android
Еще одним заметным дополнением к Chrome на Android является улучшенная функция масштабирования страницы. Эта функция позволяет пользователям увеличивать размер текста на веб-страницах, не нарушая общую компоновку.
Пользователи могут настроить уровень масштабирования по своему вкусу и применить его ко всем посещаемым веб-страницам или выбрать определенные страницы. Доступ к этой функции можно получить через меню с тремя точками в правом верхнем углу Chrome.
Более глубокое погружение в новые функции
Внедрение этих функций знаменует собой значительный шаг вперед в постоянном стремлении Google к доступности и инновациям, основанным на AI. Плавно интегрируя AI в существующие инструменты и внедряя новые функциональные возможности, Google позволяет пользователям взаимодействовать с технологиями более интуитивно понятным и доступным способом.
Потенциал искусственного интеллекта в обеспечении доступности
Интеграция Gemini в TalkBack подчеркивает огромный потенциал AI в повышении доступности для людей с нарушениями зрения. Предоставляя описания изображений, сгенерированные AI, и позволяя пользователям задавать вопросы об их содержании, Google открывает новый уровень независимости и доступа к информации.
Эта технология может быть особенно ценной в ситуациях, когда Alt текст недоступен или недостаточен, позволяя пользователям получить более глубокое понимание визуального контента.
Expressive Captions: За пределами простой транскрипции
Обновленная функция Expressive Captions выходит за рамки простой транскрипции, улавливая нюансы и эмоции, передаваемые через речь. Эта функция может быть особенно полезной для людей с нарушениями слуха, поскольку она предоставляет дополнительный контекст и информацию, которые могут быть упущены в традиционных субтитрах.
Включение меток длительности и звука еще больше повышает точность и информативность субтитров, делая их более ценным инструментом для общения.
Оптимизация доступности PDF
Улучшенная доступность PDF в Chrome решает давнюю проблему для людей с нарушениями зрения. Автоматически распознавая сканированные PDF-файлы и позволяя программам чтения с экрана взаимодействовать с ними, Google делает эти документы более доступными и удобными для использования.
Это обновление особенно важно в современную цифровую эпоху, когда многие документы распространяются в формате PDF.
Масштабирование страницы: Настраиваемый просмотр
Настраиваемая функция масштабирования страницы в Chrome для Android предоставляет пользователям больший контроль над просмотром. Позволяя пользователям регулировать размер текста, не затрагивая компоновку веб-страницы, Google удовлетворяет широкий спектр визуальных предпочтений и потребностей.
Эта функция может быть особенно полезной для людей со слабым зрением или тех, кто предпочитает читать текст большего размера.
Неизменная вера Google в инновации
Эти новые функции демонстрируют непоколебимую приверженность Google инновациям и доступности. Непрерывно раздвигая границы технологий, Google создает более инклюзивный и доступный мир для всех.
Интеграция AI в существующие инструменты и внедрение новых функциональных возможностей открывают путь к будущему, в котором технологии позволяют людям преодолевать барьеры и полностью раскрывать свой потенциал.
Будущее доступности
Усовершенствования, объявленные Google, дают представление о будущем доступности. По мере развития технологии AI мы можем ожидать появления еще более инновационных решений, отвечающих потребностям людей с ограниченными возможностями.
От AI-помощников, которые могут ориентироваться в физическом мире, до персонализированных учебных программ, которые удовлетворяют индивидуальные потребности, возможности безграничны.
Роль Google в формировании будущего
Google играет решающую роль в формировании будущего доступности. Инвестируя в исследования и разработки, сотрудничая с экспертами по доступности и внедряя доступность в свои продукты и услуги, Google устанавливает стандарт для отрасли.
Приверженность Google доступности служит вдохновением для других компаний и организаций, чтобы уделять приоритетное внимание инклюзивности и создавать более доступный мир для всех.
Практическое применение и преимущества
Функции, подробно описанные выше, приносят ощутимую пользу пользователям в различных сценариях.
Улучшение социального взаимодействия
Представьте себе, что вы получили фотографию от друга. С TalkBack на базе AI пользователи с нарушениями зрения могут взаимодействовать с изображением, задавая уточняющие вопросы, чтобы в полной мере участвовать в общем опыте. Это способствует более глубокой социальной связи.
Совершенствование опыта онлайн-шоппинга
Навигация по платформам электронной коммерции может быть сложной для некоторых. Возможность запроса у Gemini подробностей о продукте непосредственно с экрана устраняет неоднозначность, что приводит к более обоснованным решениям о покупке.
Обеспечение доступа к информации
Улучшенная доступность PDF демократизирует доступ к важной информации, содержащейся в сканированных документах, позволяя людям с нарушениями зрения в полной мере участвовать в гражданской и профессиональной жизни.
Персонализация веб-страниц
Адаптируемое масштабирование страниц обеспечивает индивидуальные решения для удовлетворения конкретных потребностей зрения. Он учитывает разнообразные предпочтения пользователей и облегчает просмотр веб-страниц для всех.
Технические основы
Понимание технологий, лежащих в основе этих обновленных систем, дает более глубокое представление об их функциях, перечисленных выше.
AI-управляемый анализ изображений
Интеграция модели Gemini AI в TalkBack включала разработку алгоритмов для точного описания изображений и разрешения вопросов. Сложные процессы глубокого обучения реализованы в фоновом режиме для предоставления релевантных решений.
Нюанс выразительного субтитра
Функциональность Expressive Captions требует возможностей обработки естественной речи. Благодаря сочетанию передовых методов перевода речи в текст, а также распознавания продолжительности и тона, нюансы, связанные с человеческой речью, улавливаются более точно.
Оптимизированная обработка PDF
Новая функция Chrome для обработки PDF-документов использует оптическое распознавание символов (OCR) длясканированных документов. В результате даже не поддающиеся поиску PDF-изображения можно анализировать напрямую. Чтобы найти, воспроизвести и прочитать текст, браузер создает индексы и текстовые слои из результатов OCR.
Гибкость интерфейса
Функциональность масштабирования страниц подчеркивает приверженность Google возможности настройки. Представлены современные идеи веб-дизайна для гибкого масштабирования, в результате чего потребители, использующие Android, на самых разных устройствах могут настроить свой опыт для улучшения видимости. Эти инновации создают основу для более ориентированного на пользователя опыта просмотра в Интернете.
Более широкие последствия
Эти функции представляют собой нечто большее, чем просто незначительные обновления. Они сигнализируют о революционном изменении в том, как технологии взаимодействуют с людьми, особенно с людьми с ограниченными возможностями.
Расширение возможностей посредством технологий
Сводя к минимуму препятствия, с которыми сталкиваются люди с ограниченными возможностями, Google позволяет им более активно участвовать во многих аспектах жизни, включая образование, бизнес и социализацию.
Содействие цифровой инклюзии
Google устраняет цифровой разрыв, прилагая усилия для обеспечения равенства в использовании технологий. Усилия компании демонстрируют ее приверженность цифровому равенству.
Содействие инновациям
Приверженность Google общедоступным функциям способствует новым разработкам во всех областях. Технология AI и разработка доступных функций стимулируют больше творчества со стороны рынка в целом.
Содействие созданию лучшего сообщества
Обеспечение доступности технологий способствует культуре, которая уделяет приоритетное внимание пользовательскому опыту, инклюзивности и разнообразию в сообществе. Это создает среду совместной работы в цифровой среде.
В конечном счете, усилия Google свидетельствуют об усилиях по преобразованию технологий в силу в обществе, гарантируя, что все получат выгоду от достижений, а не только определенные группы. Такое отношение создает основу для более гостеприимного и технологически развитого будущего.
Соображения и будущие направления
Хотя эти улучшения представляют собой значительный шаг вперед, все еще существуют возможности для дальнейшего совершенствования и расширения.
Уточнение точности ИИ
Точность описаний и ответов на изображения, сгенерированных AI, может быть дополнительно улучшена путем обучения модели Gemini на больших и более разнообразных наборах данных. Непрерывное совершенствование имеет решающее значение для обеспечения точности и релевантности предоставляемой информации.
Расширение языковой поддержки
Доступность Expressive Captions на большем количестве языков значительно расширит ее охват и влияние, сделав ее доступной для более широкой глобальной аудитории.
Решение пограничных случаев
Необходимы дальнейшие исследования для решения пограничных случаев и обеспечения надежной работы функций в различных ситуациях. Это включает в себя тестирование с различными типами изображений, акцентами и PDF-документами.
Интеграция с другими платформами
Интеграция этих специальных возможностей с другими платформами и службами создаст более удобный и согласованный пользовательский опыт. Например, интеграция TalkBack с приложениями социальных сетей позволит пользователям более эффективно взаимодействовать с визуальным контентом.
Постоянно стремясь к улучшению и расширению, Google может укрепить свои позиции в качестве лидера в области доступности и создать более инклюзивный цифровой мир для всех.