Nuevas Funciones de IA y Accesibilidad en Android y Chrome | es

Para celebrar el Día Mundial de la Concienciación sobre la Accesibilidad (GAAD), nos complace presentar nuevas actualizaciones para Android y Chrome, así como nuevos recursos para el ecosistema. Los avances en la inteligencia artificial están haciendo que nuestro mundo sea cada vez más accesible. Hoy, para celebrar el Día Mundial de la Concienciación sobre la Accesibilidad, estamos implementando nuevas actualizaciones en nuestros productos Android y Chrome, y agregando nuevos recursos para los desarrolladores que crean herramientas de reconocimiento de voz.

Más innovación para Android impulsada por IA

Estamos consolidando nuestro trabajo e integrando lo mejor de Google AI y Gemini en experiencias móviles centrales personalizadas para la visión y la audición.

Obtén todos los detalles con Gemini y TalkBack

El año pasado, introdujimos las capacidades de Gemini en TalkBack, el lector de pantalla de Android, para ofrecer descripciones de imágenes generadas por IA a personas ciegas o con deficiencias visuales, incluso cuando no hay texto alternativo disponible. Hoy, estamos expandiendo esta integración de Gemini para que las personas puedan hacer preguntas y obtener respuestas sobre sus imágenes.

Esto significa que la próxima vez que un amigo te envíe una foto de su nueva guitarra, podrás obtener una descripción y hacer preguntas de seguimiento sobre la marca y el color, o incluso qué más hay en la imagen. Ahora, las personas también pueden obtener descripciones y hacer preguntas sobre toda su pantalla. Entonces, si estás comprando las últimas ofertas en tu aplicación de compras favorita, puedes preguntarle a Gemini sobre el material de los artículos o si hay descuentos disponibles.

Más específicamente, esta actualización aprovecha el poder de Gemini para llevar las descripciones de imágenes a niveles sin precedentes. Los usuarios ya no están limitados a descripciones estáticas; pueden interactuar con las imágenes, hacer preguntas específicas y recibir respuestas detalladas. Por ejemplo, un usuario podría subir una foto de un monumento histórico y preguntar sobre su estilo arquitectónico, año de construcción o cualquier otro detalle relevante. Las capacidades de procesamiento inteligente de Gemini analizarán la imagen, extraerán información relevante y proporcionarán una respuesta completa en un formato fácil de entender.

Además, la integración de Gemini con TalkBack se extiende más allá del simple reconocimiento de imágenes. También se extiende al contenido de la pantalla, lo que permite a los usuarios hacer preguntas sobre la información que se muestra en sus dispositivos. Si tienes dificultades para navegar por una página web compleja o utilizar una aplicación desconocida, simplemente puedes activar TalkBack y pedirle a Gemini una aclaración u orientación. Gemini analizará el contenido de la pantalla, identificará elementos clave y proporcionará explicaciones o instrucciones de forma clara y concisa. Este enfoque interactivo permite a los usuarios con deficiencias visuales navegar por el mundo digital con una confianza e independencia sin precedentes.

Comprender más emoción detrás de los subtítulos

Con Subtítulos Expresivos, tu teléfono puede proporcionar subtítulos en tiempo real para casi cualquier cosa con audio en tu teléfono, utilizando IA no solo para capturar lo que dice alguien, sino también cómo lo dicen. Sabemos que una forma en que las personas se expresan es alargando el sonido de sus palabras, por lo que hemos desarrollado una nueva función de duración en Subtítulos Expresivos para que puedas saber cuándo un locutor deportivo está gritando “amaaazing shot”, o cuando un mensaje de video no es “no” sino “nooooo”. También recibirás más etiquetas de sonido, para que puedas saber cuándo alguien está silbando o aclarando su garganta. Esta nueva versión se está lanzando en inglés en los Estados Unidos, el Reino Unido, Canadá y Australia para dispositivos que ejecutan Android 15 y versiones posteriores.

Los subtítulos expresivos revolucionan la experiencia de subtítulos al capturar matices sutiles en el tono de voz, el ritmo del habla y las señales de audio. Piénsalo: un simple “bien” podría transmitir acuerdo, entusiasmo o sarcasmo. Mientras que los subtítulos convencionales solo transcriben las palabras, los subtítulos expresivos descifran las emociones subyacentes y las transmiten a los espectadores a través de señales textuales. Por ejemplo, un suspiro podría indicar frustración o cansancio, mientras que una risita podría indicar diversión o alegría. Al incorporar estas señales no verbales, los subtítulos expresivos agregan profundidad y contexto a la experiencia de visualización para personas con problemas de audición o que prefieren depender de ayudas visuales.

Además, la función de duración de los subtítulos expresivos agrega otra capa de realismo y participación. Al reflejar con precisión el estiramiento y la prolongación de las palabras, los subtítulos transmiten la intensidad emocional y la importancia del hablante. Un “¡No!” prolongado transmite más resistencia que un simple “no”, mientras que un “maravilloso” alargado evoca entusiasmo y asombro. Esta atención al detalle hace que los subtítulos sean más atractivos, informativos y resonantes, fomentando una conexión más profunda entre los espectadores y el contenido que consumen.

Además de las mejoras emocionales, los subtítulos expresivos también incorporan etiquetas de sonido para identificar y transcribir varias señales de audio, como silbidos, risas y aplausos. Estas etiquetas agregan contexto a los subtítulos y permiten a los espectadores comprender completamente el entorno de audio, incluso si su audición está comprometida. Al reconocer elementos de sonido clave, los subtítulos expresivos permiten a los espectadores participar y comprender el contenido que consumen, cerrando la brecha entre la información auditiva y visual.

Mejora del reconocimiento de voz en todo el mundo

En 2019, lanzamos el Proyecto Euphonia para descubrir formas de hacer que el reconocimiento de voz sea más accesible para personas con voz no estándar. Ahora, estamos apoyando a desarrolladores y organizaciones de todo el mundo a medida que incorporan este trabajo a más idiomas y contextos culturales.

Nuevos recursos para desarrolladores

Para mejorar el ecosistema de herramientas en todo el mundo, estamos poniendo a disposición de los desarrolladores nuestro repositorio de código abierto a través de la página de GitHub del Proyecto Euphonia. Ahora pueden desarrollar herramientas de audio personalizadas para la investigación o entrenar sus modelos para que se adapten a diferentes patrones de habla.

Al proporcionar un repositorio de código abierto, Google permite a los desarrolladores, investigadores y organizaciones aprovechar y contribuir a los resultados del Proyecto Euphonia. Este enfoque colaborativo acelera el avance de las tecnologías de reconocimiento de voz para el habla no estándar, asegurando que su disponibilidad se extienda a una amplia gama de idiomas y contextos culturales. Al compartir código, conjuntos de datos y modelos, Google fomenta una comunidad de innovación y experimentación, generando soluciones innovadoras para la tecnología de asistencia.

Además, la disponibilidad de recursos para desarrolladores permite a personas u organizaciones personalizar las herramientas de reconocimiento de voz para satisfacer sus necesidades específicas. Los investigadores pueden aprovechar estos recursos para investigar diferentes patrones de habla y desarrollar algoritmos capaces de transcribir con precisión varios estilos de habla. Las empresas emergentes o las pequeñas empresas pueden integrarlos en sus aplicaciones o servicios para mejorar su inclusión y accesibilidad. Al reducir la barrera de entrada a las tecnologías de reconocimiento de voz, Google permite la innovación, lo que permite a los desarrolladores crear soluciones significativas que permitan a las personas con problemas del habla comunicarse e interactuar con el mundo.

Apoyo a nuevos proyectos en África

A principios de este año, nos asociamos con Google.org para brindar apoyo al Centro de Inclusión del Lenguaje Digital (CDLI) de University College London. El CDLI se dedica a mejorar el reconocimiento de voz para personas que hablan idiomas africanos distintos del inglés mediante la creación de conjuntos de datos de código abierto en 10 idiomas africanos, la construcción de nuevos modelos de reconocimiento de voz y la continuación del apoyo al ecosistema de organizaciones y desarrolladores en este campo.

El apoyo de Google.org al Centro de Inclusión del Lenguaje Digital (CDLI) es un testimonio del compromiso de la compañía de abordar la brecha tecnológica lingüística en África. Al proporcionar financiación y recursos al CDLI, Google está contribuyendo al desarrollo de modelos de reconocimiento de voz más precisos e inclusivos en todo el continente africano. El enfoque del CDLI está en la creación de conjuntos de datos abiertos a gran escala de idiomas africanos, que es un paso fundamental para capacitar a sistemas de reconocimiento de voz potentes. Al recopilar y anotar muestras de voz en idiomas africanos, el Centro de Inclusión del Lenguaje Digital (CDLI) está sentando las bases para el futuro de las tecnologías de reconocimiento de voz que pueden transcribir con precisión el habla de los africanos, independientemente de su idioma o acento.

Además de crear conjuntos de datos, el Centro de Inclusión del Lenguaje Digital (CDLI) también se dedica a la construcción de nuevos modelos de reconocimiento de voz diseñados específicamente para las características lingüísticas únicas de los idiomas africanos. Estos modelos tienen en cuenta las variaciones tonales, los patrones de pronunciación y el vocabulario de los idiomas africanos, que a menudo difieren del inglés y otros idiomas ampliamente estudiados. Al adaptar los modelos de reconocimiento de voz para que se ajusten a las complejidades de los idiomas africanos, el CDLI está mejorando la precisión y la fiabilidad de las tecnologías de reconocimiento de voz para que las personas de África puedan acceder a ellas y utilizarlas.

Lo que es más importante, el Centro de Inclusión del Lenguaje Digital (CDLI) se centra en apoyar al ecosistema de organizaciones y desarrolladores en todo el continente africano. El CDLI proporciona programas de capacitación, oportunidades de tutoría y recursos financieros para ayudar a construir una comunidad de expertos capacitados. Al promover el avance de las tecnologías lingüísticas africanas, el CDLI está creando oportunidades económicas para los africanos y construyendo un futuro digital sólido e inclusivo.

Ampliación de las opciones de accesibilidad para los estudiantes

Las herramientas de accesibilidad son especialmente útiles para los estudiantes con discapacidades, desde el uso de gestos faciales para navegar por sus Chromebooks con Face Controls hasta la personalización de su experiencia de lectura con Reading Mode.

Ahora, cuando usas la aplicación Bluebook para pruebas de College Board en tu Chromebook (donde los estudiantes pueden tomar el SAT y la mayoría de los exámenes de Colocación Avanzada), tendrás acceso a todas las funciones de accesibilidad integradas de Google. Esto incluye el lector de pantalla ChromeVox y la función de dictado, así como las propias herramientas de prueba digital de College Board.

Estas son algunas formas en que las herramientas de accesibilidad pueden revolucionar la experiencia de aprendizaje para estudiantes con diferentes discapacidades:

Los estudiantes con deficiencias visuales pueden utilizar el lector de pantalla ChromeVox, que lee en voz alta el texto en la pantalla, lo que les permite acceder al contenido escrito incluso si no pueden verlo. ChromeVox también puede proporcionar descripciones de imágenes, botones y enlaces, lo que permite a los estudiantes navegar por la web y las aplicaciones sin problemas.
Los estudiantes con discapacidades motoras pueden considerar que la función Face Controls de Face Controls es increíblemente útil, ya que les permite navegar por su Chromebook utilizando expresiones faciales, como sonreír o levantar las cejas. Este método de control manos libres puede cambiar las reglas del juego para los estudiantes que no pueden usar un teclado o un mouse de la manera tradicional.
Los estudiantes con discapacidades de aprendizaje pueden usar Reading Mode para personalizar su experiencia de lectura. Reading Mode permite a los estudiantes ajustar el tamaño de la fuente, el color y el espacio entre líneas, lo que facilita la lectura del texto. También puede eliminar distracciones, como imágenes y anuncios, lo que permite a los estudiantes concentrarse en el contenido.

En general, las herramientas de accesibilidad de Google abren un mundo de posibilidades para los estudiantes con discapacidades. Al proporcionar acceso y soporte personalizados, estas herramientas permiten a los estudiantes superar las barreras, alcanzar su máximo potencial y tener éxito académico.

Hacer que Chrome sea más accesible

Más de 2 mil millones de personas utilizan Chrome todos los días, y estamos constantemente trabajando para hacer que nuestro navegador sea más fácil de usar y accesible para todos con características como los subtítulos en vivo y las descripciones de imágenes para los usuarios de lectores de pantalla.

Acceder más fácilmente a los PDF en Chrome

Anteriormente, si abrías un PDF escaneado en el navegador Chrome de escritorio, no podías interactuar con él con un lector de pantalla. Ahora, con el reconocimiento óptico de caracteres (OCR), Chrome reconoce automáticamente este tipo de PDF, por lo que puedes resaltar, copiar y buscar texto y hacer que se lea con un lector de pantalla como cualquier otra página.

La integración de la tecnología de reconocimiento óptico de caracteres (OCR) ha revolucionado la forma en que las personas con discapacidad visual o que prefieren usar lectores de pantalla para acceder al contenido usan los archivos PDF. Anteriormente, los archivos PDF escaneados eran esencialmente inaccesibles para los lectores de pantalla, ya que se trataban como imágenes en lugar de texto legible por máquina. Esto significaba que las personas con discapacidad visual no podían leer, buscar ni interactuar con el contenido de los archivos PDF escaneados.

Con la tecnología OCR, Chrome ahora puede analizar automáticamente los archivos PDF escaneados, identificar el texto dentro del archivo y convertirlo a un formato legible por máquina. Este proceso permite a los lectores de pantalla leer el texto en el PDF, lo que permite a las personas con discapacidad visual acceder a estos archivos y utilizarlos como cualquier otro documento digital.

Los beneficios de la integración de OCR son múltiples:

Accesibilidad mejorada: OCR hace que los archivos PDF escaneados que antes eran inaccesibles estén disponibles para las personas que usan lectores de pantalla. Esto abre un mundo de posibilidades para las personas que no podrían acceder de forma independiente a los documentos escaneados.
Experiencia de usuario mejorada: OCR permite a los usuarios interactuar con archivos PDF escaneados de la misma manera que lo harían con cualquier otro documento digital. Pueden resaltar texto, copiar secciones y buscar palabras o frases específicas, mejorando así su experiencia de lectura e investigación.
Mayor eficiencia: OCR elimina la necesidad de transcribir manualmente el texto de los archivos PDF escaneados. Esto ahorra tiempo y esfuerzo, lo que permite a los usuarios concentrarse en la tarea en cuestión en lugar de luchar por acceder a la información.

En resumen, la integración de la tecnología OCR en Chrome es un avance significativo que facilita enormemente el acceso a los archivos PDF para las personas con discapacidad visual. Al hacer que los documentos que antes eran inaccesibles se puedan buscar, leer e interactuar con ellos, Chrome está ayudando a cerrar la brecha digital para las personas que enfrentan desafíos en la lectura y el aprendizaje.

Leer fácilmente con el zoom de página

El zoom de página ahora te permite aumentar el tamaño del texto que ves en Chrome para Android sin afectar el diseño de la página web ni tu experiencia de navegación, tal como funciona en Chrome de escritorio. Puedes personalizar cuánto quieres ampliar y aplicar fácilmente tus preferencias a todas las páginas que visitas o solo a páginas específicas.

La función de zoom de página puede cambiar las reglas del juego para las personas con problemas de visión o que prefieren una mayor claridad en el texto para una lectura más fácil. Al permitir a los usuarios ajustar el tamaño del texto sin afectar el diseño de la página web, Chrome asegura que el texto sea visualmente más cómodo y fácil de leer, sin riesgo de superposición de texto o formato interrumpido.

Los beneficios de la función de zoom de página son:

Legibilidad mejorada: El zoom de página permite a los usuarios ajustar el tamaño del texto que ven, lo que facilita su lectura y la hace más agradable. Esto es especialmente útil para personas con baja visión, dislexia u otras deficiencias visuales.
Mayor comodidad: El zoom de página permite a los usuarios personalizar el tamaño del texto para que se ajuste a sus preferencias personales y requisitos visuales. Esto ayuda a reducir la fatiga visual y hace que la lectura de contenido más largo sea más cómoda.
Conservación del diseño: A diferencia de simplemente escalar toda la página web, el zoom de página permite a los usuarios aumentar o disminuir solo el tamaño del texto mientras se mantiene la integridad del diseño original. Esto asegura que la página web sea fácil de navegar y que todos los elementos estén colocados según lo previsto.
Personalización flexible: El zoom de página ofrece una amplia gama de opciones de personalización, lo que permite a los usuarios ajustar con precisión el tamaño del texto para que se adapte a sus necesidades específicas. Los usuarios pueden elegir niveles de zoom predefinidos o ingresar un valor personalizado, y pueden aplicar sus preferencias a todas las páginas web o solo a sitios web específicos.

Para comenzar a usar esta función, simplemente toque el menú de tres puntos en la parte superior derecha de Chrome y configure sus preferencias de zoom.

actualizado el 2025-05-17

# Google # Gemini # AIGC