Nouveautés IA et accessibilité sur Android et Chrome

Afin de célébrer la Journée mondiale de sensibilisation à l’accessibilité (GAAD), nous sommes ravis de présenter de nouvelles mises à jour pour Android et Chrome, ainsi que de nouvelles ressources pour l’écosystème. Les avancées de l’intelligence artificielle rendent sans cesse notre monde plus accessible. Aujourd’hui, pour célébrer la Journée mondiale de sensibilisation à l’accessibilité, nous déployons de nouvelles mises à jour pour les produits Android et Chrome, et ajoutons de nouvelles ressources pour les développeurs qui créent des outils de reconnaissance vocale.

Davantage d’innovations Android alimentées par l’IA

Nous consolidons notre travail et intégrons le meilleur de l’IA de Google et de Gemini dans des expériences mobiles de base personnalisées pour la vision et l’audition.

Obtenir tous les détails grâce à Gemini et TalkBack

L’année dernière, nous avons intégré les capacités de Gemini au lecteur d’écran TalkBack d’Android, offrant aux personnes aveugles ou malvoyantes des descriptions d’images générées par l’IA, même en l’absence de texte alternatif. Aujourd’hui, nous étendons cette intégration de Gemini afin de permettre aux utilisateurs de poser des questions et d’obtenir des réponses sur leurs images.

Cela signifie que la prochaine fois qu’un ami vous enverra une photo de sa nouvelle guitare, vous pourrez obtenir une description, poser des questions de suivi sur la marque et la couleur, ou même sur ce qui se trouve d’autre sur l’image. Désormais, les utilisateurs peuvent également obtenir des descriptions et poser des questions sur l’ensemble de leur écran. Ainsi, si vous faites des emplettes sur votre application d’achat préférée pour les dernières promotions, vous pouvez interroger Gemini sur la composition d’un article ou sur la disponibilité de rabais.

Plus concrètement, cette mise à jour élève les descriptions d’images à un niveau sans précédent en tirant parti de la puissance de Gemini. Les utilisateurs ne sont plus limités à des descriptions statiques ; ils peuvent interagir avec les images, poser des questions spécifiques et obtenir des réponses nuancées. Par exemple, un utilisateur peut télécharger une photo d’un monument historique et s’enquérir de son style architectural, de son année de construction ou de tout autre détail pertinent. Les capacités de traitement intelligentes de Gemini analyseront l’image, extrairont les informations pertinentes et fourniront une réponse complète dans un format facile à comprendre.

De plus, l’intégration de Gemini avec TalkBack va au-delà de la simple reconnaissance d’images. Elle s’étend également au contenu de l’écran, permettant aux utilisateurs de poser des questions sur les informations affichées sur leur appareil. Si vous rencontrez des difficultés pour naviguer sur une page Web complexe ou pour utiliser une application inconnue, vous pouvez simplement activer TalkBack et demander à Gemini des éclaircissements ou des conseils. Gemini analysera le contenu de l’écran, identifiera les éléments clés et fournira des explications ou des instructions de manière claire et concise. Cette approche interactive permet aux utilisateurs malvoyants de naviguer dans le monde numérique avec une confiance et une indépendance sans précédent.

Comprendre davantage d’émotions derrière les légendes

Grâce aux légendes expressives, votre téléphone peut fournir des légendes en temps réel pour tout ce qui contient du son sur la plupart des applications de votre téléphone - en utilisant l’intelligence artificielle pour non seulement capturer ce que quelqu’un dit, mais aussi la façon dont il le dit. Nous savons qu’une façon dont les gens s’expriment est en allongeant le son de leurs mots, c’est pourquoi nous avons développé une nouvelle fonctionnalité de durée sur les légendes expressives, afin que vous puissiez savoir quand un diffuseur de sport crie "amaaazing shot", ou qu’un message vidéo n’est pas un "non" mais un "nooooo". Vous recevrez également davantage d’étiquettes sonores, afin que vous puissiez savoir quand quelqu’un siffle ou se racle la gorge. Cette nouvelle version est déployée en anglais aux États-Unis, au Royaume-Uni, au Canada et en Australie, pour les appareils fonctionnant sous Android 15 et versions ultérieures.

Expressive Captions révolutionne l’expérience de sous-titrage en capturant les subtils changements de ton, le débit de la parole et les indices sonores. Pensez-y : un simple « d’accord » peut être utilisé pour exprimer l’accord, l’enthousiasme ou le sarcasme. Alors que le sous-titrage traditionnel se contente d’enregistrer les mots, Expressive Captions déchiffre les émotions cachées et les transmet au public par le biais d’indices textuels. Par exemple, un soupir peut indiquer de la frustration ou de la fatigue, tandis qu’un rire peut indiquer du divertissement ou de la joie. En intégrant ces signaux non verbaux, Expressive Captions ajoute de la profondeur et du contexte à l’expérience de visionnage des personnes malentendantes ou de celles qui préfèrent s’appuyer sur des aides visuelles.

De plus, la fonctionnalité de durée d’Expressive Captions ajoute une autre couche de fidélité et d’engagement. En reflétant avec précision l’étirement et le prolongement des mots, les sous-titres transmettent l’intensité émotionnelle et l’importance de l’orateur. Un « Non ! » prolongé exprime plus de résistance qu’un simple « Non », tandis qu’un « Merveilleux » allongé suscite l’excitation et l’admiration. Cette attention portée aux détails rend les sous-titres plus attrayants, informatifs et pertinents, favorisant ainsi une connexion plus profonde entre le public et le contenu qu’il consomme.

Outre l’amélioration des émotions, Expressive Captions comprend également des étiquettes sonores pour identifier et transcrire divers indices sonores, tels que les sifflets, les rires et les applaudissements. Ces étiquettes ajoutent du contexte aux sous-titres et permettent aux téléspectateurs de bien comprendre l’environnement audio, même si leur audition est limitée. En reconnaissant les éléments sonores clés, Expressive Captions permet aux téléspectateurs de participer et de comprendre le contenu qu’ils consomment, comblant ainsi le fossé entre l’information auditive et visuelle.

Améliorer la reconnaissance vocale à travers le monde

En 2019, nous avons lancé le projet Euphonia pour trouver des moyens de rendre la reconnaissance vocale plus accessible aux personnes ayant un langage non standard. Aujourd’hui, nous soutenons les développeurs et les organisations du monde entier, car ils apportent ce travail à davantage de langues et de contextes culturels.

Nouvelles ressources pour les développeurs

Afin d’améliorer l’écosystème mondial d’outils, nous mettons notre référentiel open source à la disposition des développeurs via la page GitHub du projet Euphonia. Ils peuvent désormais développer des outils audio personnalisés à des fins de recherche ou entraîner leurs modèles à s’adapter à différents schémas de parole.

En fournissant un référentiel open source, Google permet aux développeurs, aux chercheurs et aux organisations d’exploiter et de contribuer aux résultats du projet Euphonia. Cette approche collaborative accélère les progrès de la technologie de reconnaissance vocale pour les personnes ayant un langage non standard, garantissant que sa disponibilité peut s’étendre à divers contextes linguistiques et culturels. En partageant le code, les ensembles de données et les modèles, Google favorise une communauté d’innovation et d’expérimentation, créant des solutions révolutionnaires pour les technologies d’assistance.

De plus, la disponibilité des ressources pour les développeurs permet aux particuliers ou aux organisations de personnaliser les outils de reconnaissance vocale pour répondre à leurs besoins spécifiques. Les chercheurs peuvent utiliser ces ressources pour étudier différents schémas de parole et développer des algorithmes capables de transcrire avec précision une variété de schémas d’expression. Les start-ups ou les petites entreprises peuvent les intégrer à leurs applications ou services pour améliorer leur inclusivité et leur accessibilité. En abaissant les barrières à l’entrée pour la technologie de reconnaissance vocale, Google permet l’innovation, permettant aux développeurs de créer des solutions significatives permettant aux personnes ayant des troubles de la parole de communiquer et d’interagir avec le monde.

Soutenir de nouveaux projets en Afrique

Plus tôt cette année, nous avons collaboré avec Google.org pour soutenir la création du Centre pour l’inclusion linguistique numérique (CDLI) de l’University College London. Le CDLI s’engage à améliorer la technologie de reconnaissance vocale pour les locuteurs non anglophones en Afrique en créant des ensembles de données open source pour 10 langues africaines, en créant de nouveaux modèles de reconnaissance vocale et en continuant à soutenir l’écosystème d’organisations et de développeurs dans ce domaine.

Le soutien de Google.org au Centre pour l’inclusion linguistique numérique (CDLI) témoigne de l’engagement de l’entreprise à combler le fossé technologique linguistique en Afrique. En fournissant des fonds et des ressources au CDLI, Google contribue au développement de modèles de reconnaissance vocale plus précis et plus inclusifs sur le continent africain. L’accent mis par le CDLI sur la création d’ensembles de données ouverts à grande échelle pour les langues africaines est une étape essentielle dans la formation de systèmes de reconnaissance vocale robustes. En collectant et en annotant des échantillons vocaux dans les langues africaines, le Centre pour l’inclusion linguistique numérique (CDLI) jette les bases de l’avenir de la technologie de reconnaissance vocale, qui peut transcrire avec précision la parole des Africains, quelles que soient leur langue ou leur accent.

Outre la création d’ensembles de données, le Centre pour l’inclusion linguistique numérique (CDLI) s’engage également à créer de nouveaux modèles de reconnaissance vocale spécialement conçus pour répondre aux caractéristiques linguistiques uniques des langues africaines. Ces modèles tiennent compte des variations tonales, des schémas d’expression et du vocabulaire propres aux langues africaines, qui diffèrent souvent de l’anglais et des autres langues largement étudiées. En adaptant les modèles de reconnaissance vocale pour répondre à la complexité des langues africaines, le CDLI améliore la précision et la fiabilité de la technologie de reconnaissance vocale, afin que les Africains puissent y accéder et l’utiliser.

Plus important encore, le Centre pour l’inclusion linguistique numérique (CDLI) met l’accent sur le soutien de l’écosystème d’organisations et de développeurs sur le continent africain. Le CDLI propose des programmes de formation, des possibilités de mentorat et des ressources financières pour aider à constituer une communauté d’experts qualifiés. En favorisant les progrès de la technologie linguistique africaine, le CDLI crée des possibilités économiques pour les Africains et bâtit un avenir numérique fort et inclusif.

Élargir les options d’accessibilité pour les étudiants

Les outils d’accessibilité sont particulièrement utiles aux étudiants handicapés, qu’il s’agisse d’utiliser des gestes faciaux pour naviguer sur leur Chromebook grâce à Face controle ou d’utiliser le mode lecture pour personnaliser leur expérience de lecture.

Désormais, lorsque vous utilisez l’application Bluebook Testing du College Board sur un Chromebook (où les étudiants peuvent passer le SAT et la plupart des examens Advanced Placement), vous pourrez utiliser toutes les fonctionnalités d’accessibilité intégrées de Google. Il s’agit notamment du lecteur d’écran ChromeVox et de la dictée, ainsi que des propres outils de test numérique du College Board.

Voici comment les outils d’accessibilité peuvent transformer l’expérience d’apprentissage des étudiants handicapés :

  • Les étudiants malvoyants peuvent utiliser le lecteur d’écran ChromeVox, qui lit à haute voix le texte à l’écran, ce qui leur permet d’accéder au contenu écrit même s’ils ne peuvent pas le voir. ChromeVox peut également fournir des descriptions des images, des boutons et des liens, afin que les élèves puissent naviguer sur le Web et dans les applications en toute simplicité.
  • Les élèves ayant des troubles moteurs peuvent trouver la fonction Face controle très utile, car elle leur permet d’utiliser des expressions faciales, telles qu’un sourire ou un haussement de sourcils, pour naviguer sur leur Chromebook. Cette méthode de contrôle mains libres peut changer la donne pour les élèves qui ne peuvent pas utiliser un clavier ou une souris de manière traditionnelle.
  • Les élèves ayant des troubles d’apprentissage peuvent utiliser le mode lecture pour personnaliser leur expérience de lecture. Le mode lecture permet aux élèves de régler la taille, la couleur et l’espacement de la police afin de faciliter la lecture du texte. Il peut également supprimer les distractions, telles que les images et les publicités, afin que les élèves puissent se concentrer sur le contenu.

Dans l’ensemble, les outils d’accessibilité de Google ouvrent un monde de possibilités aux étudiants handicapés. En offrant un accès et un soutien personnalisés, ces outils permettent aux élèves de surmonter les obstacles, de réaliser leur plein potentiel et de réussir leurs études.

Rendre Chrome plus accessible

Plus de 2 milliards de personnes utilisent Chrome chaque jour, et nous nous engageons constamment à rendre notre navigateur plus convivial et à rendre accessibles à tous des fonctionnalités telles que les légendes en temps réel et les descriptions d’images pour les utilisateurs de lecteurs d’écran.

Accéder plus facilement aux PDF sur Chrome

Auparavant, si vous ouvriez un PDF numérisé dans le navigateur Chrome pour ordinateur, vous ne pouviez pas interagir avec lui à l’aide d’un lecteur d’écran. Désormais, grâce à la reconnaissance optique de caractères (ROC), Chrome reconnaît automatiquement ces types de PDF, vous pouvez donc mettre en surbrillance, copier et rechercher du texte, et les faire lire par un lecteur d’écran comme n’importe quelle autre page.

L’intégration de la technologie de reconnaissance optique de caractères (ROC) a révolutionné la façon dont les personnes malvoyantes ou celles qui préfèrent utiliser un lecteur d’écran pour accéder au contenu utilisent les fichiers PDF. Auparavant, les fichiers PDF numérisés étaient essentiellement inaccessibles aux lecteurs d’écran, car ils étaient traités comme des images plutôt que comme du texte lisible par machine. Cela signifie que les personnes malvoyantes ne pouvaient pas lire, rechercher ou interagir avec le contenu des fichiers PDF numérisés.

Grâce à la technologie ROC, Chrome peut désormais analyser automatiquement les PDF numérisés, identifier le texte du fichier et le convertir dans un format lisible par machine. Ce processus permet aux lecteurs d’écran de lire le texte dans les PDF, ce qui permet aux personnes malvoyantes d’accéder à ces fichiers et de les utiliser comme n’importe quel autre document numérique.

Les avantages de l’intégration de la ROC sont multiples :

  • Amélioration de l’accessibilité : La ROC rend les fichiers PDF numérisés, qui étaient auparavant inaccessibles, accessibles aux personnes qui utilisent des lecteurs d’écran. Cela leur ouvre un monde de possibilités pour les personnes qui ne peuvent pas accéder de manière indépendante aux documents numérisés.
  • Amélioration de l’expérience utilisateur : La ROC permet aux utilisateurs d’interagir avec les fichiers PDF numérisés de la même manière qu’avec n’importe quel autre document numérique. Ils peuvent mettre en surbrillance du texte, copier des sections et rechercher des mots ou des phrases spécifiques, ce qui améliore leur expérience de lecture et de recherche.
  • Efficacité accrue : La ROC élimine la nécessité de transcrire manuellement le texte des fichiers PDF numérisés. Cela permet d’économiser du temps et des efforts, ce qui permet aux utilisateurs de se concentrer sur la tâche à accomplir plutôt que de s’efforcer d’accéder à l’information.

Dans l’ensemble, l’intégration de la technologie ROC dans Chrome est une avancée majeure qui permet aux personnes malvoyantes d’accéder plus facilement aux fichiers PDF. En rendant les documents auparavant inaccessibles consultables, lisibles et interactifs, Chrome contribue à combler le fossé numérique entre les personnes qui ont des difficultés de lecture et d’apprentissage.

Lire facilement avec le zoom des pages

Le zoom des pages vous permet désormais d’augmenter la taille du texte que vous voyez dans Chrome pour Android sans affecter la mise en page de la page Web ni votre expérience de navigation, comme c’est le cas sur Chrome pour ordinateur. Vous pouvez personnaliser le niveau de zoom souhaité et appliquer facilement vos réglages à toutes les pages que vous visitez ou uniquement à certaines pages.

La fonction de zoom de page peut changer la donne pour les personnes ayant une mauvaise vue ou qui préfèrent une plus grande clarté du texte, ce qui permet une lecture plus facile. En permettant aux utilisateurs de régler la taille du texte sans affecter la mise en page de la page Web, Chrome s’assure que le texte est plus confortable et facile à lire visuellement, sans risque de chevauchement du texte ou de rupture de la mise en forme.

La fonction de zoom de page offre les avantages suivants :

  • Amélioration de la lisibilité : Le zoom de page permet aux utilisateurs de régler la taille du texte qu’ils voient, ce qui rend la lecture plus facile et plus agréable. Cela est particulièrement utile pour les personnes ayant une mauvaise vue, des troubles de la lecture ou d’autres déficiences visuelles.
  • Amélioration du confort : Le zoom de page permet aux utilisateurs de personnaliser la taille du texte en fonction de leurs préférences personnelles et de leurs besoins visuels. Cela contribue à réduire la fatigue oculaire et à rendre la lecture du contenu plus longue plus confortable.
  • Conservation de la mise en page : Contrairement au simple grossissement de l’ensemble de la page Web, le zoom de page permet uniquement aux utilisateurs d’augmenter ou de diminuer la taille du texte tout en conservant l’intégrité de la mise en page d’origine. Cela garantit que la page Web est facile à naviguer et que tous les éléments sont placés comme prévu.
  • Personnalisation flexible : Le zoom de page offre un large éventail d’options de personnalisation, permettant aux utilisateurs d’affiner la taille du texte en fonction de leurs besoins spécifiques. Les utilisateurs peuvent choisir parmi des niveaux de zoom prédéfinis ou entrer une valeur personnalisée, et appliquer leurs réglages à toutes les pages Web ou uniquement à certains sites Web.

Pour commencer à utiliser cette fonctionnalité, il suffit d’appuyer sur le menu à trois points dans le coin supérieur droit de Chrome, puis de définir vos préférences de zoom.
```