Nieuwe AI & Toegankelijkheidsupdates

Ter ere van Global Accessibility Awareness Day (GAAD), zijn we verheugd om nieuwe updates voor Android en Chrome te introduceren, evenals nieuwe bronnen voor het ecosysteem. De vooruitgang in Artificial Intelligence (AI) maakt onze wereld steeds toegankelijker. Vandaag, ter ere van Global Accessibility Awareness Day, brengen we nieuwe updates uit voor Android- en Chrome-producten en voegen we nieuwe bronnen toe voor ontwikkelaars om spraakherkenningstools te bouwen.

Meer AI-aangedreven Android-innovaties

We versterken ons werk en integreren het beste van Google AI en Gemini in de belangrijkste mobiele ervaringen die zijn aangepast voor visuele en auditieve toegankelijkheid.

Alle details via Gemini en TalkBack

Vorig jaar introduceerden we de mogelijkheden van Gemini in TalkBack, de schermlezer van Android, en boden we AI-gegenereerde afbeeldingsbeschrijvingen voor blinden of slechtzienden, zelfs als er geen alternatieve tekst was. Vandaag breiden we deze Gemini-integratie uit zodat mensen vragen kunnen stellen en antwoorden kunnen krijgen over hun afbeeldingen.

Dit betekent dat de volgende keer dat een vriend je een foto stuurt van zijn nieuwe gitaar, je een beschrijving kunt krijgen en vervolgvragen kunt stellen over het merk en de kleur, of zelfs wat er nog meer op de foto staat. Mensen kunnen nu ook beschrijvingen krijgen en vragen stellen over hun hele scherm. Dus als je op je favoriete shopping-app naar de nieuwste aanbiedingen kijkt, kun je Gemini vragen naar het materiaal van een artikel of of er kortingen zijn.

Meer specifiek tilt deze update afbeeldingsbeschrijvingen naar een ongekend niveau door gebruik te maken van de kracht van Gemini. Gebruikers zijn niet langer beperkt tot statische beschrijvingen; ze kunnen interactie hebben met afbeeldingen, specifieke vragen stellen en gedetailleerde antwoorden krijgen. Een gebruiker kan bijvoorbeeld een foto van een historisch monument uploaden en vragen naar de architectuur, het bouwjaar of andere relevante details. De intelligente verwerkingskracht van Gemini parseert de afbeelding, extraheert relevante informatie en biedt een uitgebreid antwoord in een gemakkelijk te begrijpen formaat.

Bovendien gaat de integratie van Gemini met TalkBack verder dan alleen afbeeldingsherkenning. Het strekt zich ook uit tot scherminhoud, waardoor gebruikers vragen kunnen stellen over de informatie die op hun apparaat wordt weergegeven. Als je problemen hebt met het navigeren op een complexe webpagina of het gebruik van een onbekende app, kun je eenvoudig TalkBack activeren en Gemini om verduidelijking of begeleiding vragen. Gemini analyseert de scherminhoud, identificeert belangrijke elementen en biedt uitleg of instructies op een duidelijke en beknopte manier. Deze interactieve aanpak stelt gebruikers met een visuele beperking in staat om met ongekend vertrouwen en onafhankelijkheid door de digitale wereld te navigeren.

Meer emoties achter de ondertiteling begrijpen

Met Expressive Captions kan je telefoon live ondertiteling bieden voor alles met audio in de meeste apps op je telefoon - met behulp van AI om niet alleen vast te leggen wat iemand zegt, maar ook hoe ze het zeggen. We weten dat mensen zich onder andere uitdrukken door de manier waarop ze woorden rekken, daarom hebben we een nieuwe duurfunctie op Expressive Captions ontwikkeld, zodat je weet wanneer een sportomroeper “amaaazing shot” roept, of dat een videobericht niet “nee” is, maar “neeeeee”. Je ontvangt ook meer geluidslabels, zodat je weet wanneer iemand fluit of zijn keel schraapt. Deze nieuwe versie wordt in het Engels uitgerold in de VS, het VK, Canada en Australië, voor apparaten met Android 15 en hoger.

Expressive Captions revolutioneert de ondertitelervaring door subtiele veranderingen in toon, spraaksnelheid en geluidssignalen vast te leggen. Denk er eens over na: een eenvoudig “goed” kan instemming, opwinding of sarcasme uitdrukken. Terwijl traditionele ondertitels alleen de woorden zouden vastleggen, ontcijfert Expressive Captions de verborgen emotie en communiceert deze via tekstuele aanwijzingen aan de kijker. Een zucht kan bijvoorbeeld frustratie of vermoeidheid aangeven, terwijl een gegiechel duidt op amusement of vreugde. Door deze non-verbale aanwijzingen op te nemen, voegt Expressive Captions diepte en context toe aan kijkervaringen voor doven of slechthorenden, of voor degenen die liever op visuele hulpmiddelen vertrouwen.

De duurfunctie van Expressive Captions voegt een extra laag realisme en betrokkenheid toe. Door de rekking en verlenging van woorden nauwkeurig weer te geven, communiceert de ondertiteling de emotionele intensiteit en het belang van de spreker. Een uitgerekt “Nee!” brengt meer verzet over dan een kort “Nee,” terwijl een langdradig “Geweldig” opwinding en ontzag oproept. Deze aandacht voor detail maakt de ondertiteling boeiender, informatiever en resonanter, waardoor een diepere verbinding wordt bevorderd tussen kijkers en de inhoud die ze consumeren.

Naast emotionele verbeteringen bevat Expressive Captions ook geluidslabels om een verscheidenheid aan audiosignalen te identificeren en te transcriberen, zoals gefluit, gelach en applaus. Deze labels voegen context toe aan de ondertiteling en stellen kijkers in staat om de audio-omgeving volledig te begrijpen, zelfs als hun gehoor beperkt is. Door belangrijke audio-elementen te identificeren, stelt Expressive Captions kijkers in staat om deel te nemen aan en de inhoud die ze consumeren te begrijpen, waardoor de kloof tussen auditieve en visuele informatie wordt overbrugd.

Spraakherkenning wereldwijd verbeteren

In 2019 lanceerden we Project Euphonia om manieren te vinden om spraakherkenning toegankelijker te maken voor mensen met niet-standaard spraak. Nu ondersteunen we ontwikkelaars en organisaties wereldwijd terwijl ze dit werk naar meer talen en culturele contexten brengen.

Nieuwe bronnen voor ontwikkelaars

Om het ecosysteem van tools wereldwijd te verbeteren, bieden we ontwikkelaars onze open-source repository aan via de GitHub-pagina van Project Euphonia. Ze kunnen nu gepersonaliseerde audiotools ontwikkelen voor onderzoek of hun modellen trainen om zich aan te passen aan verschillende spraakpatronen.

Door een open-source repository aan te bieden, stelt Google ontwikkelaars, onderzoekers en organisaties in staat om voort te bouwen op de bevindingen van Project Euphonia en eraan bij te dragen. Deze collaboratieve aanpak versnelt de vooruitgang van spraakherkenningstechnologieën voor niet-standaard spraak, waardoor de beschikbaarheid ervan wordt uitgebreid naar een breed scala aan talen en culturele contexten. Door code, datasets en modellen te delen, bevordert Google een gemeenschap van innovatie en experimenten, waardoor baanbrekende oplossingen worden gecreëerd voor ondersteunende technologie.

De beschikbaarheid van ontwikkelaarsbronnen stelt individuen en organisaties in staat om spraakherkenningstools aan te passen aan hun specifieke behoeften. Onderzoekers kunnen deze bronnen gebruiken om verschillende spraakpatronen te onderzoeken en algoritmen te ontwikkelen die een breed scala aan spreekstijlen nauwkeurig kunnen transcriberen. Startups of kleine bedrijven kunnen het integreren in hun toepassingen of diensten om de inclusie en toegankelijkheid te verbeteren. Door de drempel voor spraakherkenningstechnologie te verlagen, maakt Google innovatie mogelijk, waardoor ontwikkelaars zinvolle oplossingen kunnen creëren die mensen met spraakbeperkingen in staat stellen om met de wereld te communiceren en te interageren.

Ondersteuning van nieuwe projecten in Afrika

Eerder dit jaar werkten we samen met Google.org om de oprichting van het Centre for Digital Language Inclusion (CDLI) aan het University College London te ondersteunen. CDLI zet zich in voor het verbeteren van spraakherkenningstechnologie voor niet-Engels sprekenden in Afrika door open-source datasets in 10 Afrikaanse talen te creëren, nieuwe spraakherkenningsmodellen te bouwen en het ecosysteem van organisaties en ontwikkelaars op dit gebied te blijven ondersteunen.

De steun van Google.org aan het Centre for Digital Language Inclusion (CDLI) is een bewijs van de toewijding van het bedrijf aan het overbruggen van de technologische kloof in talen in Afrika. Door CDLI middelen en middelen te verstrekken, helpt Google bij het ontwikkelen van nauwkeurigere en inclusievere spraakherkenningsmodellen voor het Afrikaanse continent. De focus van CDLI op het creëren van grootschalige, open datasets voor Afrikaanse talen is een cruciale stap in de richting van het trainen van robuuste spraakherkenningssystemen. Door spraakvoorbeelden in Afrikaanse talen te verzamelen en te annoteren, legt CDLI de basis voor de toekomst van spraakherkenningstechnologie die nauwkeurig de spraak van Afrikaanse mensen kan transcriberen, ongeacht hun taal of accent.

Naast het creëren van datasets zet het Centre for Digital Language Inclusion (CDLI) zich in voor het bouwen van nieuwe spraakherkenningsmodellen die specifiek zijn ontworpen voor de unieke taalkundige kenmerken van Afrikaanse talen. Deze modellen houden rekening met de toonvariaties, spraakpatronen en vocabulaire die veel voorkomen in Afrikaanse talen, wat vaak verschilt van het Engels en andere veel bestudeerde talen. Door spraakherkenningsmodellen aan te passen aan de complexiteit van Afrikaanse talen, vergroot CDLI de nauwkeurigheid en betrouwbaarheid van spraakherkenningstechnologie, zodat Afrikaanse mensen er toegang toe hebben en deze kunnen gebruiken.

Bovenal legt het Centre for Digital Language Inclusion (CDLI) de nadruk op het ondersteunen van het ecosysteem van organisaties en ontwikkelaars op het Afrikaanse continent. CDLI biedt trainingsprogramma’s, mentorschapsmogelijkheden en financiële middelen om een gemeenschap van bekwame experts op te bouwen. Door de vooruitgang van taalte