Neue KI- und Barrierefreiheits-Updates von Google

Zur Feier des Global Accessibility Awareness Day (GAAD) freuen wir uns, neue Updates für Android und Chrome sowie neue Ressourcen für das Ökosystem vorzustellen. Fortschritte in der künstlichen Intelligenz machen unsere Welt immer zugänglicher. Heute stellen wir, um den Global Accessibility Awareness Day zu feiern, neue Updates für Android- und Chrome-Produkte sowie neue Ressourcen für Entwickler zum Erstellen von Spracherkennungstools vor.

Mehr KI-gestützte Android-Innovationen

Wir festigen unsere Arbeit und integrieren das Beste von Google AI und Gemini in zentrale mobile Erlebnisse, die auf visuelle und auditive Bedürfnisse zugeschnitten sind.

Alle Details mit Gemini und TalkBack

Letztes Jahr haben wir die Funktionen von Gemini in TalkBack, den Screenreader von Android, integriert, um blinden oder sehbehinderten Menschen KI-generierte Bildbeschreibungen zu liefern, auch wenn kein Alternativtext vorhanden ist. Heute erweitern wir diese Gemini-Integration, damit Menschen Fragen stellen und Antworten zu ihren Bildern erhalten können.

Das bedeutet, dass Sie beim nächsten Mal, wenn ein Freund Ihnen ein Foto seiner neuen Gitarre schickt, eine Beschreibung erhalten und Folgefragen zu Marke und Farbe stellen oder sogar fragen können, was sich noch auf dem Bild befindet. Jetzt können die Leute auch Beschreibungen erhalten und Fragen zu ihrem gesamten Bildschirm stellen. Wenn Sie also gerade in Ihrer Lieblings-Shopping-App nach den neuesten Sonderangeboten stöbern, können Sie Gemini nach dem Material des Artikels oder nach Rabatten fragen.

Konkret gesagt, hebt dieses Update die Bildbeschreibungen auf ein bisher unerreichtes Niveau, indem es die Leistungsfähigkeit von Gemini nutzt. Benutzer sind nicht länger auf statische Beschreibungen beschränkt; sie können mit den Bildern interagieren, spezifische Fragen stellen und detaillierte Antworten erhalten. So können Benutzer beispielsweise ein Foto eines historischen Wahrzeichens hochladen und nach seinem architektonischen Stil, seinem Baujahr oder anderen relevanten Details fragen. Die intelligente Verarbeitung von Gemini analysiert das Bild, extrahiert relevante Informationen und liefert eine umfassende Antwort in einem leicht verständlichen Format.

Darüber hinaus geht die Integration von Gemini mit TalkBack über die einfache Bilderkennung hinaus. Sie erstreckt sich auch auf Bildschirminhalte, sodass Benutzer Fragen zu den Informationen stellen können, die auf ihrem Gerät angezeigt werden. Wenn Sie Schwierigkeiten haben, durch eine komplexe Webseite zu navigieren oder eine unbekannte Anwendung zu verwenden, können Sie einfach TalkBack aktivieren und Gemini um Klarstellung oder Anleitung bitten. Gemini analysiert den Bildschirminhalt, identifiziert Schlüsselelemente und liefert Erklärungen oder Anweisungen in einer klaren und prägnanten Weise. Dieser interaktive Ansatz ermöglicht es sehbehinderten Benutzern, mit beispiellosem Vertrauen und Unabhängigkeit durch die digitale Welt zu navigieren.

Mehr Emotionen hinter den Untertiteln verstehen

Mit Expressive Captions kann Ihr Telefon Echtzeit-Untertitel für alles mit Ton auf den meisten Apps auf Ihrem Telefon bereitstellen – mithilfe vonKI, um nicht nur festzuhalten, was jemand sagt, sondern auch, wie er es sagt. Wir wissen, dass Menschen sich unter anderem dadurch ausdrücken, dass sie die Klänge ihrer Wörter verlängern. Deshalb haben wir eine neue Dauerfunktion für Expressive Captions entwickelt, damit Sie wissen, wann ein Sportmoderator “amaaazing shot” ruft oder eine Videonachricht nicht “Nein”, sondern “neiiiiiin” lautet. Sie erhalten auch weitere Soundlabels, sodass Sie wissen, wann jemand pfeift oder sich räuspert. Diese neue Version wird in den USA, Großbritannien, Kanada und Australien in englischer Sprache für Geräte mit Android 15 und höher eingeführt.

Expressive Captions revolutioniert das Untertitelerlebnis, indem es subtile Tonhöhenänderungen, Sprechgeschwindigkeiten und akustische Hinweise erfasst. Denken Sie darüber nach: Ein einfaches “OK” kann Zustimmung, Aufregung oder Sarkasmus ausdrücken. Während herkömmliche Untertitel nur die Wörter transkribieren, entschlüsselt Expressive Captions die verborgene Emotion und vermittelt sie dem Betrachter durch Text-Hinweise. Ein Seufzer kann beispielsweise Frustration oder Müdigkeit vermitteln, während ein Kichern Vergnügen oder Freude bedeuten kann. Durch die Einbeziehung dieser nonverbalen Hinweise verleiht Expressive Captions dem Seherlebnis von Menschen mit Hörbehinderung oder denen, die sich gerne auf visuelle Hilfsmittel verlassen, Tiefe und Kontext.

Darüber hinaus fügt die Dauerfunktion von Expressive Captions eine weitere Ebene an Realismus und Engagement hinzu. Durch die genaue Darstellung von Dehnungen und Verlängerungen von Wörtern vermitteln die Untertitel die emotionale Intensität und Bedeutung des Sprechers. Ein langgezogenes “Nein!” vermittelt mehr Widerstand als ein kurzes “Nein”, während ein gedehntes “Wunderbar” Aufregung und Ehrfurcht hervorruft. Diese Liebe zum Detail macht die Untertitel ansprechender, informativer und resonanzfähiger und fördert so eine tiefere Verbindung zwischen dem Betrachter und den konsumierten Inhalten.

Neben der emotionalen Verbesserung enthält Expressive Captions auch Soundlabels zur Identifizierung und Transkription verschiedener akustischer Hinweise wie Pfeifen, Lachen und Applaus. Diese Labels fügen Untertiteln Kontext hinzu und ermöglichen es den Zuschauern, die Audio-Umgebung vollständig zu erfassen, selbst wenn ihr Gehör beeinträchtigt ist. Durch die Identifizierung wichtiger Tonelemente ermöglicht Expressive Captions den Zuschauern, sich an den Inhalten, die sie konsumieren, zu beteiligen und sie zu verstehen, und überbrückt die Lücke zwischen auditiven und visuellen Informationen.

Verbesserte Spracherkennung weltweit

Im Jahr 2019 starteten wir das Projekt Euphonia, um herauszufinden, wie die Spracherkennung für Menschen mit nicht standardmäßiger Sprache leichter zugänglich gemacht werden kann. Jetzt unterstützen wir Entwickler und Organisationen weltweit, die diese Arbeit in weitere Sprachen und kulturelle Kontexte tragen.

Neue Entwicklerressourcen

Um das Ökosystem von Tools weltweit zu verbessern, stellen wir Entwicklern unser Open-Source-Repository über die GitHub-Seite des Projekts Euphonia zur Verfügung. Sie können jetzt personalisierte Audio-Tools für die Forschung entwickeln oder ihre Modelle trainieren, um sich an verschiedene Sprachmuster anzupassen.

Durch die Bereitstellung eines Open-Source-Repositorys ermöglicht Google Entwicklern, Forschern und Organisationen, die Ergebnisse des Projekts Euphonia zu nutzen und dazu beizutragen. Dieser kollaborative Ansatz beschleunigt den Fortschritt der Spracherkennungstechnologien für nicht standardmäßige Sprache und stellt sicher, dass ihre Verfügbarkeit auf eine Vielzahl von Sprachen und kulturellen Kontexten ausgeweitet werden kann. Durch den Austausch von Code, Datensätzen und Modellen fördert Google eine Gemeinschaft von Innovation und Experimenten, die bahnbrechende Lösungen für unterstützende Technologien entwickelt.

Darüber hinaus ermöglicht die Verfügbarkeit von Entwicklerressourcen Einzelpersonen oder Organisationen, Spracherkennungstools an ihre spezifischen Bedürfnisse anzupassen. Forscher können diese Ressourcen nutzen, um verschiedene Sprachmuster zu untersuchen und Algorithmen zu entwickeln, die eine Vielzahl von Sprechweisen genau transkribieren können. Start-ups oder kleine Unternehmen können sie in ihre Anwendungen oder Dienste integrieren, um ihre Inklusivität und Barrierefreiheit zu verbessern. Durch die Senkung der Eintrittsbarrieren für Spracherkennungstechnologien ermöglicht Google Innovationen und befähigt Entwickler, sinnvolle Lösungen zu entwickeln, die es Menschen mit Sprachbehinderungen ermöglichen, mit der Welt zu kommunizieren und zu interagieren.

Unterstützung neuer Projekte in Afrika

Anfang dieses Jahres haben wir uns mit Google.org zusammengetan, um die Gründung des Centre for Digital Language Inclusion (CDLI) am University College London zu unterstützen. Das CDLI arbeitet daran, die Spracherkennung für nicht-englische Muttersprachler in Afrika zu verbessern, indem es Open-Source-Datensätze für 10 afrikanische Sprachen erstellt, neue Spracherkennungsmodelle entwickelt und weiterhin das Ökosystem von Organisationen und Entwicklern in diesem Bereich unterstützt.

Die Unterstützung von Google.org für das Centre for Digital Language Inclusion (CDLI) ist ein Beweis für das Engagement des Unternehmens, die technologische Kluft in Bezug auf afrikanische Sprachen zu überbrücken. Durch die Bereitstellung von Mitteln und Ressourcen für das CDLI trägt Google dazu bei, genauere und inklusivere Spracherkennungsmodelle in Afrika zu entwickeln. Der Fokus des CDLI auf die Erstellung großer Open-Source-Datensätze für afrikanische Sprachen ist ein wichtiger Schritt bei der Schulung robuster Spracherkennungssysteme. Durch das Sammeln und Annotieren von Sprachproben von afrikanischen Sprachen legt das CDLI den Grundstein für die Zukunft der Spracherkennungstechnologie, die die Sprache der afrikanischen Bevölkerung unabhängig von Sprache oder Akzent genau transkribieren kann.

Neben der Erstellung von Datensätzen arbeitet das CDLI auch an der Entwicklung neuer Spracherkennungsmodelle, die speziell auf die einzigartigen sprachlichen Merkmale afrikanischer Sprachen zugeschnitten sind. Diese Modelle berücksichtigen die Tonhöhenänderungen, Sprachmuster und Vokabulare afrikanischer Sprachen, die sich oft von Englisch und anderen weit verbreiteten Sprachen unterscheiden. Durch die Anpassung von Spracherkennungsmodellen an die Komplexität afrikanischer Sprachen verbessert das CDLI die Genauigkeit und Zuverlässigkeit der Spracherkennungstechnologie, sodass sie für die Menschen in Afrika zugänglich und nutzbar wird.

Am wichtigsten ist, dass sich das CDLI darauf konzentriert, das Ökosystem von Organisationen und Entwicklern auf dem afrikanischen Kontinent zu unterstützen. Das CDLI bietet Schulungsprogramme, Mentoring-Möglichkeiten und finanzielle Ressourcen, um eine Gemeinschaft von kompetenten Experten aufzubauen. Durch die Förderung des Fortschritts der afrikanischen Sprachtechnologie schafft das CDLI wirtschaftliche Möglichkeiten für die Menschen in Afrika und baut eine starke, inklusive digitale Zukunft auf.

Erweiterung der Barrierefreiheitsoptionen für Studenten

Barrierefreiheitstools sind besonders nützlich für behinderte Studenten, von der Navigation auf ihren Chromebooks mit Gesichtsbewegungen über die Gesichtssteuerung bis hin zur Anpassung ihrer Leseerfahrung mit dem Lesemodus.

Wenn Sie jetzt die Bluebook-Testanwendung des College Board auf Ihrem Chromebook verwenden (in der Studenten den SAT und die meisten Advanced Placement-Prüfungen ablegen können), können Sie alle integrierten Barrierefreiheitstools von Google nutzen. Dazu gehören der ChromeVox-Screenreader und die Diktierfunktion sowie die digitalen Testtools des College Board selbst.

So verändert Barrierefreiheit das Lernerlebnis von Studenten mit unterschiedlichen Behinderungen grundlegend:

  • Studenten mit Sehbehinderungen können ChromeVox, den Screenreader, nutzen, der den Text auf dem Bildschirm mündlich vorliest und so den Zugriff auf schriftliche Inhalte ermöglicht, auch wenn sie diese nicht sehen können. ChromeVox kann auch Beschreibungen von Bildern, Schaltflächen und Links liefern, sodass Studenten problemlos im Internet und in Anwendungen navigieren können.
  • Studenten mit motorischen Beeinträchtigungen finden möglicherweise die Gesichtssteuerungsfunktion der Gesichtssteuerung sehr nützlich, mit der sie Chromebook mit Gesichtsausdrücken wie Lächeln oder Augenbrauenheben navigieren können. Dieser handsfree Steuerungsansatz kann bahnbrechend für Studenten sein, die Tastatur oder Maus nicht auf herkömmliche Weise bedienen können.
  • Studenten mit Lernschwierigkeiten können ihre Leseerfahrung mithilfe des Lesemodus anpassen. Mit dem Lesemodus können Studenten Schriftgröße, Farbe und Abstände anpassen, um das Lesen von Text zu erleichtern. Außerdem werden Ablenkungen wie Bilder und Werbung entfernt, damit sich die Studenten auf den Inhalt konzentrieren können.

Insgesamt eröffnen die Barrierefreiheitstools von Google behinderten Studenten eine Welt voller Möglichkeiten. Durch die Bereitstellung angepassten Zugriffs und Supports ermöglichen diese Tools Studenten, Hindernisse zu überwinden, ihr volles Potenzial auszuschöpfen und akademisch erfolgreich zu sein.

Chrome zugänglicher machen

Täglich nutzen über zwei Milliarden Menschen Chrome, und wir sind stets bestrebt, unseren Browser benutzerfreundlicher zu gestalten und Funktionen wie Live-Untertitel und Bildbeschreibungen für Screenreader-Benutzer für alle zugänglich zu machen.

Einfacherer Zugriff auf PDFs in Chrome

Wenn Sie zuvor ein eingescanntes PDF in Ihrem Chrome-Browser auf dem Desktop geöffnet haben, konnten Sie mit keinem Screenreader damit interagieren. Dank der optischen Zeichenerkennung (OCR) erkennt Chrome diese Arten von PDFs jetzt automatisch, sodass Sie Text wie auf jeder anderen Seite hervorheben, kopieren und durchsuchen und ihn mit einem Screenreader lesen können.

Die Integration der Optical Character Recognition (OCR)-Technologie hat die Art und Weise, wie Menschen mit Sehbehinderung oder Menschen, die Inhalte lieber mit Screenreadern abrufen, PDF-Dateien verwenden, revolutioniert. Zuvor waren gescannte PDF-Dateien für Screenreader im Wesentlichen unzugänglich, da sie als Bilder und nicht als maschinenlesbarer Text behandelt wurden. Das bedeutete, dass Menschen mit Sehbehinderung den Inhalt in gescannten PDF-Dateien nicht lesen, suchen oder mit ihm interagieren konnten.

Mithilfe der OCR-Technologie kann Chrome nun automatisch gescannte PDFs analysieren, den Text in der Datei identifizieren und in ein maschinenlesbares Format umwandeln. Dieser Vorgang ermöglicht es Screenreadern, den Text in der PDF-Datei zu lesen, sodass Menschen mit Sehbehinderung auf diese Dateien zugreifen und sie wie jedes andere digitale Dokument verwenden können.

Die Vorteile der OCR-Integration sind vielfältig:

  • Verbesserte Barrierefreiheit: OCR macht gescannte PDF-Dateien, die zuvor unzugänglich waren, für Menschen mit Screenreadern zugänglich. Dies eröffnet Menschen, die nicht in der Lage waren, eigenständig auf gescannte Dokumente zuzugreifen, eine Welt voller Möglichkeiten.
  • Verbesserte Benutzererfahrung: OCR ermöglicht es Benutzern, mit gescannten PDF-Dateien auf die gleiche Weise zu interagieren wie mit jedem anderen digitalen Dokument. Sie können Text hervorheben, Abschnitte kopieren und nach bestimmten Wörtern oder Sätzen suchen, was ihr Lese- und Forschungserlebnis verbessert.
  • Höhere Effizienz: OCR macht die manuelle Transkription von Text in gescannten PDF-Dateien überflüssig. Dies spart Zeit und Mühe, sodass sich Benutzer auf die anstehende Aufgabe konzentrieren können, anstatt sich abzumühen, auf Informationen zuzugreifen.

Zusammenfassend lässt sich sagen, dass die Integration der OCR-Technologie in Chrome ein bedeutender Fortschritt ist, der den Zugriff auf PDF-Dateien für Menschen mit Sehbehinderung erheblich erleichtert. Indem Chrome zuvor unzugängliche Dokumente durchsuchbar, lesbar und interaktiv macht, trägt es dazu bei, die digitale Kluft für Menschen zu überbrücken, die beim Lesen und Lernen vor Herausforderungen stehen.

Einfaches Lesen mit der Seitenzoomfunktion

Mit der Seitenzoomfunktion können Sie jetzt in Chrome für Android die Größe des angezeigten Textes vergrößern, ohne das Seitenlayout oder Ihr Browsererlebnis zu beeinträchtigen – genau wie auf dem Chrome-Desktop. Sie können anpassen, wie stark Sie zoomen möchten, und Ihre Einstellungen einfach auf alle Seiten, die Sie besuchen, oder nur auf bestimmte Seiten anwenden.

Die Seitenzoomfunktion kann das Leben von Menschen verändern, die eine Sehschwäche haben oder einen größeren Text bevorzugen, damit sie leichter lesen können. Indem Chrome es Benutzern ermöglicht, die Textgröße anzupassen, ohne das Layout der Webseite zu beeinträchtigen, stellt Chrome sicher, dass der Text optisch komfortabler und leichter zu lesen ist, ohne die Gefahr von Textüberlappungen oder Formatierungsfehlern.

Die Vorteile der Seitenzoomfunktion umfassen:

  • Verbesserte Lesbarkeit: Die Seitenzoomfunktion ermöglicht es Benutzern, die Größe des angezeigten Textes anzupassen, was das Lesen einfacher und angenehmer macht. Dies ist besonders hilfreich für Menschen mit Sehschwäche, Legasthenie oder anderen Sehbehinderungen.
  • Erhöhter Komfort: Die Seitenzoomfunktion ermöglicht es Benutzern, die Textgröße an ihre persönlichen Vorlieben und Sehbedürfnisse anzupassen. Dies trägt dazu bei, die Belastung der Augen zu verringern, und macht das Lesen längerer Inhalte komfortabler.
  • Layout beibehalten: Im Gegensatz zum einfachen Zoomen der gesamten Webseite ermöglicht die Seitenzoomfunktion dem Benutzer, nur die Textgröße zu vergrößern oder zu verkleinern, während die Integrität des ursprünglichen Layouts erhalten bleibt. Dies stellt sicher, dass die Webseite einfach zu navigieren ist und alle Elemente wie vorgesehen platziert sind.
  • Flexible Anpassung: Die Seitenzoomfunktion bietet eine breite Palette von Anpassungsoptionen, die es Benutzern ermöglichen, die Textgröße an ihre spezifischen Bedürfnisse anzupassen. Benutzer können aus vordefinierten Zoomstufen wählen oder einen benutzerdefinierten Wert eingeben und ihre Einstellungen auf alle Webseiten oder nur auf bestimmte Websites anwenden.

Klicken Sie einfach auf das Menü mit den drei Punkten oben rechts in Chrome und legen Sie dann Ihre Zoomeinstellungen fest, um diese Funktion zu nutzen.