Nuovi aggiornamenti AI e accessibilità su Android e Chrome | it

Per celebrare la Giornata mondiale della consapevolezza sull’accessibilità (GAAD), siamo lieti di presentare nuovi aggiornamenti per Android e Chrome, oltre a nuove risorse per l’ecosistema. I progressi nell’intelligenza artificiale rendono costantemente il nostro mondo sempre più accessibile. Oggi, per celebrare la GAAD, stiamo lanciando nuovi aggiornamenti ai prodotti Android e Chrome e aggiungendo nuove risorse per gli sviluppatori per la creazione di strumenti di riconoscimento vocale.

Ulteriori innovazioni Android basate sull’intelligenza artificiale

Stiamo consolidando il nostro lavoro e integrando le migliori funzionalità di Google AI e Gemini nelle esperienze mobili principali personalizzate per la vista e l’udito.

Ottieni tutti i dettagli tramite Gemini e TalkBack

L’anno scorso, abbiamo introdotto le funzionalità di Gemini in TalkBack, il lettore di schermo di Android, fornendo descrizioni di immagini generate dall’intelligenza artificiale per le persone cieche o ipovedenti, anche in assenza di testo alternativo. Oggi, stiamo ampliando questa integrazione di Gemini in modo che le persone possano porre domande e ottenere risposte sulle loro immagini.

Ciò significa che la prossima volta che un amico ti invia una foto della sua nuova chitarra, puoi ottenere una descrizione e porre domande di follow-up sulla marca e sul colore, o persino su cos’altro c’è nell’immagine. Ora, le persone possono anche ottenere descrizioni e porre domande sull’intero schermo. Pertanto, se stai acquistando le ultime promozioni sulla tua app di shopping preferita, puoi chiedere a Gemini informazioni sul materiale dell’articolo o se ci sono sconti.

Più specificamente, questo aggiornamento porta le descrizioni delle immagini a livelli mai visti prima sfruttando la potenza di Gemini. Gli utenti non sono più limitati a descrizioni statiche; possono interagire con le immagini, porre domande specifiche e ottenere risposte dettagliate. Ad esempio, un utente può caricare una foto di un punto di riferimento storico e chiedere informazioni sul suo stile architettonico, l’anno di costruzione o qualsiasi altro dettaglio rilevante. La capacità di elaborazione intelligente di Gemini analizzerà l’immagine, estrarrà le informazioni rilevanti e fornirà una risposta completa in un formato di facile comprensione.

Inoltre, l’integrazione di Gemini con TalkBack va oltre il semplice riconoscimento delle immagini. Si estende anche al contenuto dello schermo, consentendo agli utenti di porre domande sulle informazioni visualizzate sui propri dispositivi. Se hai difficoltà a navigare in una pagina Web complessa o a utilizzare un’app sconosciuta, puoi semplicemente attivare TalkBack e chiedere a Gemini chiarimenti o indicazioni. Gemini analizzerà il contenuto dello schermo, identificherà gli elementi chiave e fornirà spiegazioni o istruzioni in modo chiaro e conciso. Questo approccio interattivo consente agli utenti con problemi di vista di navigare nel mondo digitale con sicurezza e indipendenza senza precedenti.

Comprendere più emozioni dietro i sottotitoli

Con i sottotitoli espressivi, il tuo telefono può fornire sottotitoli in tempo reale per tutto ciò che ha l’audio nella maggior parte delle app sul tuo telefono, utilizzando l’intelligenza artificiale per catturare non solo ciò che qualcuno sta dicendo, ma anche il modo in cui lo sta dicendo. Sappiamo che un modo in cui le persone si esprimono è allungando i suoni delle loro parole, ecco perché abbiamo sviluppato nuove funzionalità di durata sui sottotitoli espressivi, quindi puoi sapere quando un annunciatore sportivo sta urlando un “tirooo fantastico” o un messaggio video non è “no” ma “nooooo”. Riceverai anche più etichette sonore in modo da poter sapere quando qualcuno sta fischiando o schiarendo la gola. Questa nuova versione è in fase di lancio in inglese negli Stati Uniti, nel Regno Unito, in Canada e in Australia, per i dispositivi con Android 15 e versioni successive.

Expressive Captions rivoluziona l’esperienza dei sottotitoli catturando sottili variazioni di tono, velocità del parlato e segnali sonori. Pensaci: la semplice parola “ok” può essere usata per esprimere consenso, eccitazione o sarcasmo. Mentre i sottotitoli tradizionali catturano solo le parole, gli Expressive Captions decifrano le emozioni nascoste e le trasmettono al pubblico tramite segnali testuali. Ad esempio, un sospiro può indicare frustrazione o stanchezza, mentre una risatina può indicare divertimento o gioia. Includendo questi segnali non verbali, gli Expressive Captions aggiungono profondità e contesto all’esperienza visiva delle persone con problemi di udito o che preferiscono affidarsi agli ausili visivi.

Inoltre, la funzione di durata degli Expressive Captions aggiunge un ulteriore livello di realismo e coinvolgimento. Riflettendo accuratamente l’allungamento e l’estensione delle parole, i sottotitoli trasmettono l’intensità emotiva e il significato dell’oratore. Un “No!” allungato trasmette più resistenza di un semplice “No”, mentre un “Woooow” prolungato ispira eccitazione e soggezione. Questa attenzione ai dettagli rende i sottotitoli più accattivanti, informativi e risonanti, promuovendo una connessione più profonda tra il pubblico e i contenuti che sta consumando.

Oltre al miglioramento emotivo, Expressive Captions include anche etichette sonore per identificare e trascrivere vari segnali audio, come fischi, risate e applausi. Queste etichette aggiungono contesto ai sottotitoli e consentono agli spettatori di afferrare completamente l’ambiente audio, anche se il loro udito è limitato. Identificando gli elementi sonori chiave, Expressive Captions consente agli spettatori di impegnarsi e comprendere i contenuti che stanno consumando, colmando il divario tra le informazioni uditive e visive.

Migliorare il riconoscimento vocale in tutto il mondo

Nel 2019, abbiamo lanciato il progetto Euphonia per trovare modi per rendere il riconoscimento vocale più accessibile alle persone con voce non standard. Ora, stiamo supportando sviluppatori e organizzazioni in tutto il mondo mentre portano questo lavoro in più lingue e contesti culturali.

Nuove risorse per sviluppatori

Per migliorare l’ecosistema degli strumenti a livello globale, stiamo rendendo disponibile ai sviluppatori il nostro repository open source tramite la pagina GitHub del progetto Euphonia. Ora possono sviluppare strumenti audio personalizzati per la ricerca o addestrare i propri modelli per adattarsi a diversi modelli vocali.

Fornendo il repository open source, Google consente agli sviluppatori, ai ricercatori e alle organizzazioni di sfruttare e contribuire ai risultati del progetto Euphonia. Questo approccio collaborativo accelera il progresso delle tecnologie di riconoscimento vocale per voci non standard, garantendo che la sua disponibilità possa estendersi a una vasta gamma di lingue e contesti culturali. Condividendo codice, set di dati e modelli, Google promuove una comunità di innovazione e sperimentazione, creando soluzioni rivoluzionarie per le tecnologie assistive.

Inoltre, la disponibilità di risorse per sviluppatori consente a individui o organizzazioni di personalizzare gli strumenti di riconoscimento vocale per soddisfare le loro esigenze specifiche. I ricercatori possono utilizzare queste risorse per indagare su diversi modelli vocali e sviluppare algoritmi in grado di trascrivere accuratamente una vasta gamma di stili di parlato. Le startup o le piccole imprese possono integrarsi nelle loro applicazioni o servizi per migliorarne l’inclusività e l’accessibilità. Abbassando le barriere all’ingresso per le tecnologie di riconoscimento vocale, Google consente l’innovazione, consentendo agli sviluppatori di creare soluzioni significative che consentono alle persone con disturbi del linguaggio di comunicare e interagire con il mondo.

Supporto a nuovi progetti in Africa

All’inizio di quest’anno, abbiamo collaborato con Google.org per sostenere la creazione del Digital Language Inclusion Center (CDLI) presso l’University College London. Il CDLI si sta concentrando sul miglioramento del riconoscimento vocale per le persone che parlano lingue africane diverse dall’inglese creando set di dati open source in dieci lingue africane, costruendo nuovi modelli di riconoscimento vocale e continuando a supportare l’ecosistema di organizzazioni e sviluppatori nel campo.

Il supporto di Google.org al Digital Language Inclusion Center (CDLI) testimonia l’impegno dell’azienda a colmare il divario tecnologico linguistico in Africa. Fornendo finanziamenti e risorse al CDLI, Google sta aiutando a sviluppare modelli di riconoscimento vocale più accurati e inclusivi in Africa continentale. L’attenzione del CDLI sulla creazione di set di dati aperti su larga scala per le lingue africane è un passo importante verso la formazione di potenti sistemi di riconoscimento vocale. Raccogliendo e annotando esempi di parlato in lingue africane, il Digital Language Inclusion Center (CDLI) sta ponendo le basi per il futuro delle tecnologie di riconoscimento vocale in grado di trascrivere accuratamente il parlato delle persone in Africa, indipendentemente dalla loro lingua o accento.

Oltre alla creazione di set di dati, il Digital Language Inclusion Center (CDLI) si sta concentrando sulla costruzione di nuovi modelli di riconoscimento vocale appositamente progettati per le caratteristiche linguistiche uniche delle lingue africane. Questi modelli tengono conto delle variazioni tonali, dei modelli di parlato e del vocabolario delle lingue africane, che spesso differiscono dall’inglese e da altre lingue ampiamente studiate. Adattando i modelli di riconoscimento vocale per accogliere le complessità delle lingue africane, il CDLI sta migliorando l’accuratezza e l’affidabilità delle tecnologie di riconoscimento vocale in modo che le persone in Africa possano accedervi e utilizzarle.

Soprattutto, il Digital Language Inclusion Center (CDLI) si sta concentrando sull’assistenza all’ecosistema di organizzazioni e sviluppatori in tutto il continente africano. Fornendo programmi di formazione, opportunità di tutoraggio e risorse finanziarie, il CDLI aiuta a costruire una comunità esperta di esperti. Promuovendo il progresso delle tecnologie linguistiche in Africa, il CDLI sta creando opportunità economiche per le persone in Africa e costruendo un futuro digitale forte e inclusivo.

Ampliare le opzioni di accessibilità per gli studenti

Gli strumenti di accessibilità sono particolarmente utili per gli studenti con disabilità, dall’utilizzo di gesti facciali per navigare nei loro Chromebook con Face Controls alla personalizzazione della loro esperienza di lettura con la modalità di lettura.

Ora, quando utilizzi l’app Bluebook di College Board sul tuo Chromebook (dove gli studenti possono sostenere il SAT e la maggior parte degli esami Advanced Placement), potrai utilizzare tutte le funzionalità di accessibilità integrate di Google. Ciò include il lettore di schermo ChromeVox e la dettatura, nonché gli strumenti di test digitale del College Board.

Ecco come gli strumenti di accessibilità possono rivoluzionare l’esperienza di apprendimento per gli studenti con disabilità diverse:

Gli studenti con problemi di vista possono utilizzare il lettore di schermo ChromeVox, che legge ad alta voce il testo sullo schermo, rendendo accessibile il contenuto scritto anche se non possono vederlo. ChromeVox può anche fornire descrizioni di immagini, pulsanti e collegamenti, consentendo agli studenti di navigare sul Web e nelle app senza problemi.
Gli studenti con disabilità motorie possono trovare estremamente utile la funzione Face Controls di Face Controls, che consente loro di navigare nel proprio Chromebook utilizzando le espressioni facciali, come sorridere o alzare le sopracciglia. Questo metodo di controllo a mani libere può essere rivoluzionario per gli studenti che non sono in grado di utilizzare una tastiera o un mouse nel modo tradizionale.
Gli studenti con difficoltà di apprendimento possono utilizzare la modalità di lettura per personalizzare la propria esperienza di lettura. La modalità di lettura consente agli studenti di regolare le dimensioni, il colore e la spaziatura dei caratteri, rendendo più facile il testo da leggere. Può anche eliminare le distrazioni, come immagini e pubblicità, consentendo agli studenti di concentrarsi sul contenuto.

Nel complesso, gli strumenti di accessibilità di Google aprono un mondo di possibilità per gli studenti con disabilità. Fornendo accesso e supporto personalizzati, questi strumenti consentono agli studenti di superare le barriere, raggiungere il loro pieno potenziale e avere successo accademicamente.

Rendere Chrome più accessibile

Ogni giorno più di 2 miliardi di persone utilizzano Chrome e ci impegniamo costantemente a rendere il nostro browser più accessibile e disponibile per tutti con funzionalità come i sottotitoli in tempo reale e le descrizioni delle immagini per gli utenti di screen reader.

Accesso più facile ai PDF su Chrome

In precedenza, se aprivi un PDF scansionato nel browser Chrome desktop, non potevi interagire con esso utilizzando un lettore di schermo. Ora, con il riconoscimento ottico dei caratteri (OCR), Chrome riconoscerà automaticamente questi tipi di PDF, quindi puoi evidenziare, copiare e cercare il testo e farli leggere dal lettore di schermo come qualsiasi altra pagina.

L’integrazione della tecnologia di riconoscimento ottico dei caratteri (OCR) ha rivoluzionato il modo in cui le persone con problemi di vista o che preferiscono utilizzare i lettori di schermo per accedere al contenuto utilizzano i file PDF. In precedenza, i file PDF scansionati erano essenzialmente inaccessibili ai lettori di schermo perché venivano trattati come immagini anziché testo leggibile dalla macchina. Ciò significava che le persone con problemi di vista non potevano leggere, cercare o interagire con il contenuto all’interno di un file PDF scansionato.

Con la tecnologia OCR, Chrome ora analizza automaticamente i PDF scansionati, identifica il testo all’interno del file e lo converte in un formato leggibile dalla macchina. Questo processo consente ai lettori di schermo di leggere il testo all’interno del PDF, rendendo i file accessibili e utilizzabili da persone con problemi di vista come qualsiasi altro documento digitale.

I vantaggi dell’integrazione OCR sono molteplici:

Migliore accessibilità: l’OCR rende i file PDF scansionati precedentemente non accessibili accessibili alle persone che utilizzano i lettori di schermo. Questo apre un mondo di possibilità per le persone che non riuscivano ad accedere ai documenti scansionati in modo indipendente.
Migliore esperienza utente: L’OCR consente agli utenti di interagire con i file PDF scansionati nello stesso modo in cui interagirebbero con qualsiasi altro documento digitale. Possono evidenziare il testo, copiare brani e cercare parole o frasi specifiche, migliorando la loro esperienza di lettura e ricerca.
Maggiore efficienza: L’OCR elimina la necessità di trascrivere manualmente il testo dai file PDF scansionati. Ciò consente di risparmiare tempo e fatica, consentendo agli utenti di concentrarsi sull’attività da svolgere piuttosto che lottare per accedere alle informazioni.

In sintesi, l’integrazione della tecnologia OCR in Chrome è un significativo passo avanti nel rendere i file PDF più accessibili alle persone con problemi di vista. Rendendo i documenti scansionati precedentemente inaccessibili ricercabili, leggibili e interattivi, Chrome sta aiutando a colmare il divario digitale per le persone che affrontano difficoltà nella lettura e nell’apprendimento.

Leggere facilmente con lo zoom della pagina

Lo zoom della pagina ora ti consente di aumentare le dimensioni del testo che vedi in Chrome per Android senza influire sul layout della pagina Web o sulla tua esperienza di navigazione, proprio come funziona su Chrome desktop. Puoi personalizzare la quantità di ingrandimento che desideri e applicare facilmente la tua preferenza a tutte le pagine che visiti o solo a singole pagine specifiche.

La funzione di zoom della pagina può essere trasformativa per le persone con problemi di vista o che preferiscono una maggiore chiarezza del testo per una lettura più facile. Consentendo agli utenti di regolare le dimensioni del testo senza influire sul layout della pagina Web, Chrome garantisce che il testo sia visivamente più confortevole e facile da leggere, senza il rischio di sovrapposizione del testo o formattazione corrotta.

I vantaggi della funzione di zoom della pagina includono:

Migliore leggibilità: lo zoom della pagina consente agli utenti di regolare le dimensioni del testo che vedono, il che rende la lettura più facile e più piacevole. Questo è particolarmente utile per le persone con problemi di vista, dislessia o altre difficoltà di lettura.
Maggiore comfort: lo zoom della pagina consente agli utenti di personalizzare le dimensioni del testo per soddisfare le loro preferenze personali e i requisiti visivi. Questo aiuta a ridurre l’affaticamento degli occhi e rende più confortevole la lettura di materiale più lungo.
Layout preservato: invece di ingrandire semplicemente l’intera pagina Web, lo zoom della pagina consente agli utenti di aumentare o diminuire le dimensioni del testo mantenendo l’integrità del layout originale. Ciò garantisce che la pagina Web sia facile da navigare e che tutti gli elementi siano posizionati come previsto.
Personalizzazione flessibile: lo zoom della pagina offre una vasta gamma di opzioni di personalizzazione, consentendo agli utenti di regolare le dimensioni del testo per soddisfare le loro esigenze specifiche. Gli utenti possono scegliere livelli di zoom predefiniti o inserire valori personalizzati e applicare le proprie preferenze a tutte le pagine Web o solo a siti Web specifici.

Per iniziare a utilizzare questa funzionalità, fai semplicemente clic sul menu a tre punti nell’angolo in alto a destra di Chrome, quindi imposta le tue preferenze di zoom.

aggiornato il 2025-05-17

# Google # Gemini # AIGC