Novas Atualizações de IA e Acessibilidade no Google | pt

Para celebrar o Dia Global da Conscientização sobre Acessibilidade (GAAD), temos o prazer de apresentar novas atualizações para Android e Chrome, juntamente com novos recursos para o ecossistema. Os avanços na inteligência artificial tornam continuamente nosso mundo cada vez mais acessível. Hoje, estamos lançando novas atualizações para nossos produtos Android e Chrome e adicionando novos recursos para desenvolvedores criarem ferramentas de reconhecimento de voz.

Mais inovação Android alimentada por IA

Estamos consolidando nosso trabalho e integrando o melhor do Google AI e Gemini para personalizar as principais experiências móveis para pessoas com deficiência visual e auditiva.

Obtenha todos os detalhes com Gemini e TalkBack

No ano passado, trouxemos os recursos do Gemini para o TalkBack, o leitor de tela do Android, fornecendo descrições de imagens geradas por IA para pessoas cegas ou com deficiência visual, mesmo que não haja texto alternativo. Hoje, estamos expandindo essa integração do Gemini para que as pessoas possam fazer perguntas e obter respostas sobre suas imagens.

Isso significa que, da próxima vez que um amigo lhe enviar uma foto de seu novo violão, você poderá obter uma descrição e fazer perguntas de acompanhamento sobre a marca e a cor, ou mesmo o que mais está na imagem. As pessoas agora também podem obter descrições e fazer perguntas sobre toda a tela. Portanto, se você estiver comprando a última promoção em seu aplicativo de compras favorito, você pode perguntar ao Gemini sobre o material do item ou se há um desconto disponível.

Mais especificamente, esta atualização eleva as descrições de imagens a níveis sem precedentes, aproveitando o poder do Gemini. Os usuários não estão mais limitados a descrições estáticas; eles podem interagir com as imagens, fazer perguntas específicas e receber respostas detalhadas. Por exemplo, um usuário pode fazer o upload de uma foto de um marco histórico e perguntar sobre seu estilo arquitetônico, ano de construção ou qualquer outro detalhe relevante. Os recursos de processamento inteligente do Gemini analisarão a imagem, extrairão informações relevantes e fornecerão uma resposta abrangente em um formato facilmente compreensível.

Além disso, a integração do Gemini com o TalkBack vai além do simples reconhecimento de imagem. Ele também se estende ao conteúdo da tela, permitindo que os usuários façam perguntas sobre as informações exibidas em seus dispositivos. Se você estiver tendo dificuldades para navegar em uma página da Web complexa ou usar um aplicativo desconhecido, você pode simplesmente ativar o TalkBack e pedir ao Gemini para esclarecer ou orientar você. O Gemini analisará o conteúdo da tela, identificará os principais elementos e fornecerá explicações ou instruções de forma clara e concisa. Essa abordagem interativa capacita os usuários com deficiência visual a navegar no mundo digital com confiança e independência sem precedentes.

Entenda mais emoção por trás das legendas

Com as legendas expressivas, seu telefone pode fornecer legendas em tempo real para qualquer coisa com áudio na maioria dos aplicativos em seu telefone - usando inteligência artificial para não apenas capturar o que alguém diz, mas também como eles dizem. Sabemos que uma das maneiras pelas quais as pessoas se expressam é alongando o som de suas palavras, e é por isso que desenvolvemos um novo recurso de duração nas legendas expressivas, para que você possa saber quando um locutor esportivo está gritando “amaaazing shot” ou uma mensagem de vídeo não é “não”, mas “nããão”. Você também receberá mais rótulos de som para que possa saber quando alguém está assobiando ou limpando a garganta. Esta nova versão está sendo lançada em inglês nos Estados Unidos, Reino Unido, Canadá e Austrália para dispositivos executando o Android 15 e superior.

As legendas expressivas revolucionam a experiência de legendagem ao capturar mudanças sutis de tom, ritmo da fala e pistas sonoras. Pense nisso: um simples “ok” pode transmitir concordância, entusiasmo ou sarcasmo. Enquanto as legendas tradicionais apenas transcrevem as palavras, as legendas expressivas decifram as emoções subjacentes e as transmitem ao público por meio de dicas textuais. Por exemplo, um suspiro pode indicar frustração ou exaustão, enquanto uma risadinha pode sinalizar diversão ou alegria. Ao incorporar essas dicas não verbais, as legendas expressivas adicionam profundidade e contexto à experiência de visualização de pessoas com deficiência auditiva ou que preferem confiar em auxiliares visuais.

Além disso, a funcionalidade de duração nas legendas expressivas adiciona outra camada de autenticidade e engajamento. Ao refletir com precisão os alongamentos e prolongamentos das palavras, as legendas transmitem a intensidade emocional e o significado do falante. Um “não!” prolongado comunica mais resistência do que um “não” conciso, enquanto um “maravilhoso” alongado evoca excitação e admiração. Essa atenção aos detalhes torna as legendas mais envolventes, informativas e ressonantes, promovendo uma conexão mais profunda entre o público e o conteúdo que eles consomem.

Além dos aprimoramentos emocionais, as legendas expressivas também incorporam rótulos de som para identificar e transcrever várias dicas auditivas, como assobios, risadas e aplausos. Esses rótulos adicionam contexto às legendas e permitem que os espectadores compreendam totalmente o ambiente de áudio, mesmo que sua audição seja comprometida. Ao identificar elementos sonoros importantes, as legendas expressivas capacitam os espectadores a participar e compreender o conteúdo que consomem, preenchendo a lacuna entre as informações auditivas e visuais.

Melhorando o reconhecimento de voz em todo o mundo

Em 2019, lançamos o Projeto Euphonia para encontrar maneiras de tornar o reconhecimento de voz mais acessível para pessoas com fala não padrão. Agora, estamos apoiando desenvolvedores e organizações em todo o mundo, enquanto eles trazem este trabalho para mais configurações de idiomas e culturas.

Novos recursos para desenvolvedores

Para melhorar o ecossistema de ferramentas globalmente, estamos disponibilizando nosso repositório de código aberto para desenvolvedores por meio da página do GitHub do Projeto Euphonia. Eles agora podem desenvolver ferramentas de áudio personalizadas para pesquisa ou treinar seus modelos para acomodar diferentes padrões de fala.

Ao fornecer um repositório de código aberto, o Google permite que desenvolvedores, pesquisadores e organizações aproveitem e contribuam para as descobertas do Projeto Euphonia. Essa abordagem colaborativa acelera os avanços na tecnologia de reconhecimento de fala para fala não padrão, garantindo que sua disponibilidade possa se estender a uma ampla gama de idiomas e configurações culturais. Ao compartilhar código, conjuntos de dados e modelos, o Google promove uma comunidade de inovação e experimentação, fomentando soluções inovadoras para tecnologia assistiva.

Além disso, a disponibilidade de recursos para desenvolvedores capacita indivíduos ou organizações a personalizar ferramentas de reconhecimento de fala para atender às suas necessidades específicas. Os pesquisadores podem aproveitar esses recursos para investigar diferentes padrões de fala e desenvolver algoritmos capazes de transcrever com precisão uma ampla gama de estilos de fala. Startups ou pequenas empresas podem integrá-los em seus aplicativos ou serviços para aumentar sua inclusão e acessibilidade. Ao reduzir a barreira à entrada para a tecnologia de reconhecimento de fala, o Google permite a inovação, permitindo que os desenvolvedores criem soluções significativas que dão às pessoas com deficiência na fala a capacidade de se comunicar e interagir com o mundo.

Apoio a novos projetos na África

No início deste ano, fizemos uma parceria com o Google.org para apoiar a criação do Centro de Inclusão da Língua Digital (CDLI) na University College London. O CDLI se dedica a melhorar o reconhecimento de voz para pessoas não falantes de inglês na África, criando conjuntos de dados de código aberto para 10 línguas africanas, construindo novos modelos de reconhecimento de voz e continuando a apoiar organizações e um ecossistema de desenvolvedores neste espaço.

O apoio do Google.org ao Centro de Inclusão da Língua Digital (CDLI) é uma prova do compromisso da empresa em preencher a lacuna tecnológica para idiomas africanos. Ao fornecer financiamento e recursos ao CDLI, o Google está ajudando a desenvolver modelos de reconhecimento de fala mais precisos e inclusivos no continente africano. O foco do CDLI na criação de conjuntos de dados abertos em larga escala para línguas africanas é uma etapa essencial no treinamento de sistemas robustos de reconhecimento de fala. Ao coletar e anotar amostras de fala em línguas africanas, o CDLI está lançando as bases para o futuro da tecnologia de reconhecimento de fala que pode transcrever com precisão a fala dos povos africanos, independentemente de seu idioma ou sotaque.

Além da criação de conjuntos de dados, o CDLI se dedica a construir novos modelos de reconhecimento de fala projetados especificamente para as características linguísticas exclusivas das línguas africanas. Esses modelos levam em consideração variações de tom, padrões fonéticos e vocabulário em línguas africanas que geralmente são diferentes do inglês e de outros idiomas amplamente pesquisados. Ao personalizar modelos de reconhecimento de fala para se adequarem às complexidades das línguas africanas, o CDLI está aumentando a precisão e a confiabilidade da tecnologia de reconhecimento de fala para que seja acessível e utilizável pelos povos africanos.

Acima de tudo, o CDLI está focado em apoiar organizações e um ecossistema de desenvolvedores no continente africano. O CDLI oferece programas de treinamento, oportunidades de orientação e recursos financeiros para ajudar a construir uma comunidade qualificada de especialistas. Ao promover os avanços na tecnologia de idioma africano, o CDLI está criando oportunidades econômicas e construindo um futuro digital robusto e inclusivo para os povos africanos.

Expandindo as opções de acessibilidade para alunos

As ferramentas de acessibilidade são especialmente úteis para alunos com deficiência, desde usar gestos faciais para navegar em seu Chromebook com controles faciais até usar o modo de leitura para personalizar sua experiência de leitura.

Agora, quando você está usando o aplicativo de teste Bluebook do College Board em um Chromebook, onde os alunos podem fazer o SAT e a maioria dos exames Advanced Placement, você terá acesso a todos os recursos de acessibilidade integrados do Google. Isso inclui o leitor de tela ChromeVox e ditado, bem como as próprias ferramentas de teste digitais do College Board.

Veja como a acessibilidade pode revolucionar a experiência de aprendizado para alunos com diferentes deficiências:

Alunos com deficiência visual podem aproveitar o leitor de tela ChromeVox, que pode ler em voz alta o texto na tela, tornando o conteúdo escrito acessível mesmo que eles não consigam vê-lo. O ChromeVox também pode fornecer descrições de imagens, botões e links, permitindo que os alunos naveguem na web e em aplicativos sem problemas.
Alunos com deficiência motora podem achar o recurso de controle facial do controle facial incrivelmente útil, o que permite que eles naveguem em seu Chromebook usando expressões faciais, como sorrir ou levantar as sobrancelhas. Este método de controle mãos-livres pode mudar o jogo para alunos que não conseguem usar um teclado ou mouse da maneira tradicional.
Alunos com dificuldades de aprendizado podem usar o modo de leitura para personalizar sua experiência de leitura. O modo de leitura permite que os alunos ajustem o tamanho da fonte, a cor e o espaçamento, facilitando a leitura do texto. Ele também pode eliminar distrações, como imagens e anúncios, permitindo que os alunos se concentrem no conteúdo.

No geral, as ferramentas de acessibilidade do Google abrem um mundo de possibilidades para alunos com deficiência. Ao fornecer acesso e suporte personalizados, essas ferramentas permitem que os alunos superem barreiras, atinjam todo o seu potencial e tenham sucesso acadêmico.

Tornando o Chrome mais acessível

Com mais de 2 bilhões de pessoas usando o Chrome todos os dias, estamos sempre comprometidos em tornar nosso navegador mais fácil de usar e para todos, com recursos como legendas ao vivo e descrições de imagens para usuários de leitores de tela.

Acesso mais fácil a PDFs no Chrome

Anteriormente, se você abrisse um PDF digitalizado no navegador Chrome para computador, não conseguiria interagir com ele usando um leitor de tela. Agora, com o reconhecimento ótico de caracteres (OCR), o Chrome reconhece automaticamente esses tipos de PDFs, para que você possa realçar, copiar e pesquisar texto e fazer com que ele seja lido por um leitor de tela como faria com qualquer outra página.

A integração da tecnologia de reconhecimento ótico de caracteres (OCR) revolucionou a maneira como pessoas com deficiência visual ou que preferem usar leitores de tela para acessar conteúdo utilizam arquivos PDF. Anteriormente, os arquivos PDF digitalizados eram essencialmente inacessíveis para leitores de tela, pois eram tratados como imagens em vez de texto legível por máquina. Isso significava que pessoas com deficiência visual não conseguiam ler, pesquisar ou interagir com o conteúdo de arquivos PDF digitalizados.

Com a tecnologia OCR, o Chrome agora pode analisar automaticamente PDFs digitalizados, identificar o texto presente no arquivo e convertê-lo em um formato legível por máquina. Esse processo permite que leitores de tela leiam o texto em um PDF, permitindo que pessoas com deficiência visual acessem e utilizem esses arquivos como fariam com qualquer outro documento digital.

Os benefícios da integração do OCR são múltiplos:

Maior acessibilidade: O OCR torna os arquivos PDF digitalizados, que antes eram inacessíveis, acessíveis a pessoas que usam leitores de tela. Isso abre um mundo de possibilidades para indivíduos que não conseguiam acessar documentos digitalizados de forma independente.
Experiência do usuário aprimorada: O OCR permite que os usuários interajam com arquivos PDF digitalizados da mesma forma que fariam com qualquer outro documento digital. Eles podem realçar texto, copiar trechos e pesquisar palavras ou frases específicas, aprimorando sua experiência de leitura e pesquisa.
Maior eficiência: O OCR elimina a necessidade de transcrever manualmente o texto de arquivos PDF digitalizados. Isso economiza tempo e esforço, permitindo que os usuários se concentrem na tarefa em questão, em vez de lutar para acessar as informações.

Em resumo, a integração da tecnologia OCR ao Chrome é um avanço significativo para tornar os arquivos PDF mais acessíveis a pessoas com deficiência visual. Ao tornar documentos antes inacessíveis pesquisáveis, legíveis e interativos, o Chrome está ajudando a preencher a lacuna digital para pessoas que enfrentam dificuldades de leitura e aprendizado.

Facilidade ao ler com o zoom de página

O zoom de página agora permite aumentar o tamanho do texto que você vê no Chrome para Android sem afetar o layout da página ou a experiência de navegação - assim como funciona no Chrome para computador. Você pode personalizar o quanto deseja ampliar e aplicar facilmente suas preferências a todas as páginas que visita ou apenas a páginas específicas.

O recurso de zoom de página transforma a experiência de pessoas com baixa visão ou que preferem texto maior para maior clareza e mais facilidade de leitura. Ao permitir que os usuários ajustem o tamanho do texto sem afetar o layout da página da Web, o Chrome garante que o texto esteja visualmente mais confortável e fácil de ler, sem o risco de sobreposição de texto ou formatação danificada.

O recurso de zoom de página oferece os seguintes benefícios:

Legibilidade aprimorada: O zoom de página permite que os usuários ajustem o tamanho do texto que veem, o que torna a leitura mais fácil e agradável. Isso é particularmente útil para pessoas com baixa visão, dislexia ou outras deficiências visuais.
Conforto aprimorado: O zoom de página permite que os usuários personalizem o tamanho do texto para atender às suas preferências e necessidades visuais individuais. Isso ajuda a reduzir o cansaço visual e torna a leitura de conteúdo mais longo mais confortável.
Preservação do layout: Ao contrário de simplesmente ampliar a página da Web inteira, o zoom de página permite que os usuários aumentem ou diminuam o tamanho do texto apenas, mantendo a integridade do layout original. Isso garante que a página da Web seja fácil de navegar e que todos os elementos sejam colocados conforme o esperado.
Personalização flexível: O zoom de página oferece uma ampla gama de opções de personalização, permitindo que os usuários ajustem o tamanho do texto de acordo com suas necessidades específicas. Os usuários podem escolher níveis de zoom predefinidos ou inserir um valor personalizado e aplicar suas preferências a todas as páginas da Web ou apenas a sites específicos.

Para começar a usar este recurso, basta tocar no menu de três pontos no canto superior direito do Chrome e definir suas preferências de zoom.

atualizado em 2025-05-17

# Google # Gemini # AIGC