Aby uczcić Global Accessibility Awareness Day (GAAD), z radością przedstawiamy nowe aktualizacje dla Androida i Chrome, a także nowe zasoby dla ekosystemu. Postępy w sztucznej inteligencji (AI) stale sprawiają, że nasz świat staje się coraz bardziej dostępny. Dziś, świętując Global Accessibility Awareness Day, wprowadzamy nowe aktualizacje do naszych produktów Android i Chrome oraz dodajemy nowe zasoby dla programistów budujących narzędzia do rozpoznawania mowy.
Więcej innowacji dla Androida opartych na sztucznej inteligencji
Umacniamy nasze wysiłki i integrujemy to co najlepsze w Google AI i Gemini z podstawowymi mobilnymi doświadczeniami, dostosowanymi dla osób z wadami wzroku i słuchu.
Uzyskaj wszystkie szczegóły dzięki Gemini i TalkBack
W zeszłym roku wprowadziliśmy możliwości Gemini do TalkBack, czytnika ekranu dla Androida, zapewniając generowane przez AI opisy obrazów dla osób niewidomych lub niedowidzących, nawet jeśli nie ma tekstu alternatywnego. Dziś rozszerzamy tę integrację Gemini, aby ludzie mogli zadawać pytania i uzyskiwać odpowiedzi dotyczące swoich obrazów.
Oznacza to, że następnym razem, gdy przyjaciel wyśle Ci zdjęcie swojej nowej gitary, możesz uzyskać opis i zadać pytania uzupełniające dotyczące marki, koloru, a nawet tego, co jeszcze znajduje się na obrazie. Teraz ludzie mogą również uzyskiwać opisy i zadawać pytania dotyczące całego swojego ekranu. Więc jeśli robisz zakupy na najnowszych promocjach w swojej ulubionej aplikacji zakupowej, możesz zapytać Gemini o materiał przedmiotu lub o to, czy są jakieś zniżki.
Mówiąc bardziej szczegółowo, ta aktualizacja podnosi opisy obrazów na niespotykany dotąd poziom, wykorzystując potęgę Gemini. Użytkownicy nie są już ograniczeni do statycznych opisów; mogą wchodzić w interakcje z obrazami, zadawać konkretne pytania i uzyskiwać niuansowe odpowiedzi. Na przykład użytkownik może przesłać zdjęcie zabytku historycznego i zapytać o jego styl architektoniczny, rok budowy lub wszelkie inne istotne szczegóły. Inteligentne możliwości przetwarzania Gemini przeanalizują obraz, wyodrębnią istotne informacje i dostarczą kompleksową odpowiedź w łatwo zrozumiałym formacie.
Co więcej, integracja Gemini z TalkBack wykracza poza proste rozpoznawanie obrazów. Rozciąga się również na zawartość ekranu, umożliwiając użytkownikom zadawanie pytań dotyczących informacji wyświetlanych na ich urządzeniach. Jeśli masz trudności z poruszaniem się po złożonej stronie internetowej lub korzystaniem z nieznanej aplikacji, możesz po prostu aktywować TalkBack i poprosić Gemini o wyjaśnienie lub wskazówki. Gemini przeanalizuje zawartość ekranu, zidentyfikuje kluczowe elementy i dostarczy wyjaśnienia lub instrukcje w jasny i zwięzły sposób. To interaktywne podejście umożliwia użytkownikom z wadami wzroku pewne i niezależne poruszanie się po cyfrowym świecie.
Zrozumieć więcej emocji za napisami
Dzięki Expressive Captions Twój telefon może zapewniać napisy w czasie rzeczywistym do wszystkiego z dźwiękiem w większości aplikacji na Twoim telefonie — korzystając ze sztucznej inteligencji, aby nie tylko uchwycić to, co ktoś mówi, ale także sposób, w jaki to mówi. Wiemy, że jednym ze sposobów, w jaki ludzie wyrażają siebie, jest rozwlekanie dźwięków ich słów, dlatego opracowaliśmy nową funkcję trwania w Expressive Captions, dzięki czemu możesz wiedzieć, kiedy sprawozdawca sportowy krzyczy "amaaazing shot", albo że wiadomość wideo brzmi "no", a nie "nooooo". Otrzymasz również więcej etykiet dźwiękowych, więc możesz wiedzieć, kiedy ktoś gwiżdże lub odchrząkuje. Ta nowa wersja jest wprowadzana w języku angielskim w Stanach Zjednoczonych, Wielkiej Brytanii, Kanadzie i Australii na urządzeniach z systemem Android 15 i nowszym.
Expressive Captions rewolucjonizuje sposób postrzegania napisów, wychwytując subtelne zmiany tonu, tempo mowy i dźwiękowe wskazówki. Pomyśl o tym: proste „ok” może oznaczać zgodę, podekscytowanie lub sarkazm. Tradycyjne napisy rejestrują tylko słowa, natomiast Expressive Captions rozszyfrowuje ukryte emocje i przekazuje je widzom za pomocą wskazówek tekstowych. Na przykład westchnienie może oznaczać frustrację lub zmęczenie, a chichot może oznaczać zabawę lub radość. Włączając te niewerbalne wskazówki, Expressive Captions dodaje głębi i kontekstu do wrażeń wizualnych osób niedosłyszących lub tych, którzy wolą polegać na pomocy wizualnej.
Ponadto funkcja długości trwania Expressive Captions dodaje kolejną warstwę realizmu i zaangażowania. Dokładnie odzwierciedlając rozciąganie i wydłużanie słów, napisy przekazują intensywność emocjonalną i znaczenie mówcy. Długie „Nie!” przekazuje więcej oporu niż zwięzłe „Nie”, a wydłużone „Wspaniale” wywołuje podekscytowanie i podziw. Ta dbałość o szczegóły sprawia, że napisy stają się bardziej wciągające, pouczające i poruszające, sprzyjając głębszemu połączeniu między widzami a treściami, które konsumują.
Oprócz udoskonalania emocji, Expressive Captions zawiera również etykiety dźwiękowe do identyfikowania i transkrypcji różnych wskazówek dźwiękowych, takich jak gwizdy, śmiechy i oklaski. Te etykiety dodają kontekstu do napisów i pozwalają widzom w pełni zrozumieć otoczenie dźwiękowe, nawet jeśli ich słuch jest upośledzony. Rozpoznając kluczowe elementy dźwiękowe, Expressive Captions umożliwia widzom włączanie się i rozumienie treści, które konsumują, tym samym wypełniając lukę między informacjią słuchową i wizualną.
Ulepszanie rozpoznawania mowy na całym świecie
W 2019 roku uruchomiliśmy Project Euphonia, aby znaleźć sposoby na uczynienie rozpoznawania mowy bardziej dostępnym dla osób z niestandardową mową. Teraz wspieramy programistów i organizacje na całym świecie, gdy przenoszą tę pracę do większej liczby języków i kontekstów kulturowych.
Nowe zasoby dla programistów
Aby poprawić ekosystem narzędzi na całym świecie, udostępniamy programistom nasze repozytorium o otwartym kodzie źródłowym za pośrednictwem strony GitHub Project Euphonia. Mogą teraz opracowywać spersonalizowane narzędzia audio do badań lub szkolić ich modele w celu dostosowania się do różnych wzorców mowy.
Udostępniając repozytorium o otwartym kodzie źródłowym, Google umożliwia programistom, badaczom i organizacjom wykorzystanie wyników Project Euphonia i wnoszenie do nich wkładu. To podejście oparte na współpracy przyspiesza postęp w technologiach rozpoznawania mowy niestandardowej, zapewniając rozszerzenie jej zastosowania na różne języki i konteksty kulturowe. Udostępniając kod, zbiory danych i modele, Google pielęgnuje społeczność innowacji i eksperymentów, tworząc przełomowe rozwiązania dla technologii wspomagających.
Ponadto dostępność zasobów dla programistów umożliwia osobom lub organizacjom dostosowywanie narzędzi do rozpoznawania mowy do ich konkretnych potrzeb. Badacze mogą wykorzystać te zasoby do badania różnych wzorców mowy i opracowywania algorytmów, które mogą dokładnie transkrybować różne sposoby mówienia. Start-upy lub małe firmy mogą zintegrować je ze swoimi aplikacjami lub usługami w celu zwiększenia ich integracji i dostępności. Obniżając próg wejścia do technologii rozpoznawania mowy, Google umożliwia innowacje, pozwalając programistom tworzyć znaczące rozwiązania, które umożliwiają osobom z zaburzeniami mowy komunikowanie się i interakcję ze światem.
Wspieranie nowych projektów w Afryce
Na początku tego roku współpracowaliśmy z Google.org, aby zapewnić wsparcie dla Centrum Włączenia Języków Cyfrowych (CDLI) na University College London. CDLI koncentruje się na ulepszaniu technologii rozpoznawania mowy wśród osób nieanglojęzycznych w Afryce, tworząc zbiory danych o otwartym kodzie źródłowym dla 10 języków afrykańskich, budując nowe modele rozpoznawania mowy i stale wspierając ekosystem organizacji i programistów w tej dziedzinie.
Wsparcie Google.org dla Centrum Włączenia Języków Cyfrowych (CDLI) jest dowodem zaangażowania firmy w niwelowanie luki technologicznej w językach afrykańskich. Zapewniając CDLI finansowanie i zasoby, Google pomaga w opracowywaniu dokładniejszych i bardziej integracyjnych modeli rozpoznawania mowy na kontynencie afrykańskim. Koncentracja CDLI na tworzeniu dużych otwartych zbiorów danych dla języków afrykańskich jest istotnym krokiem w szkoleniu potężnych systemów rozpoznawania mowy. Gromadząc i opatrując adnotacjami próbki mowy w językach afrykańskich, Centrum Włączenia Języków Cyfrowych (CDLI) tworzy podstawy dla przyszłości technologii rozpoznawania mowy, która może dokładnie transkrybować mowę Afrykańczyków, niezależnie od ich języka lub akcentu.
Oprócz tworzenia swoich zbiorów danych, Centrum Włączenia Języków Cyfrowych (CDLI) koncentruje się również na budowaniu nowych modeli rozpoznawania mowy, które są specjalnie zaprojektowane pod kątem unikalnych cech językowych języków afrykańskich. Modele te uwzględniają zmiany tonalne, wzorce mowy i słownictwo w językach afrykańskich, które często różnią się od angielskiego i innych szeroko badanych języków. Dostosowując modele rozpoznawania mowy do złożoności języków afrykańskich, CDLI poprawia dokładność i niezawodność technologii rozpoznawania mowy, dzięki czemu jest ona dostępna i użyteczna dla Afrykańczyków.
Co najważniejsze, Centrum Włączenia Języków Cyfrowych (CDLI) koncentruje się na wspieraniu ekosystemu organizacji i programistów na kontynencie afrykańskim. CDLI zapewnia programy szkoleniowe, możliwości mentoringu i zasoby finansowe, aby pomóc w zbudowaniu wykwalifikowanej społeczności ekspertów. Wspierając postęp w technologiach języków afrykańskich, CDLI tworzy możliwości gospodarcze dla Afrykańczyków i buduje silną, integracyjną przyszłość cyfrową.
Rozszerzanie opcji dostępu dla studentów
Narzędzia ułatwień dostępu są szczególnie przydatne dla niepełnosprawnych studentów, od używania gestów twarzy do nawigacji po Chromebooku za pomocą Face Controls po dostosowywanie wrażeń z czytania za pomocą Reading Mode.
Teraz, gdy korzystasz z Bluebook testing App College Board na swoim Chromebooku — gdzie uczniowie mogą zdawać SAT i większość egzaminów Advanced Placement — będziesz mógł korzystać ze wszystkich wbudowanych funkcji ułatwień dostępu Google. Obejmuje to czytnik ekranu ChromeVox i dyktowanie, a także własne narzędzia do testowania cyfrowego College Board.
Oto, jak funkcje ułatwień dostępu mogą zrewolucjonizować proces uczenia się dla studentów z różnymi niepełnosprawnościami:
- Uczniowie z upośledzeniem wzroku mogą korzystać z czytnika ekranu ChromeVox, który odczytuje na głos tekst na ekranie, zapewniając im dostęp do treści pisemnych, nawet jeśli nie mogą ich zobaczyć. ChromeVox może również zawierać opisy obrazów, przycisków i łączy, umożliwiając uczniom płynne poruszanie się po Internecie i aplikacjach.
- Uczniowie z niepełnosprawnością ruchową mogą uznać Face Controls za bardzo pomocne, co pozwala im nawigować po Chromebooku za pomocą mimiki twarzy, np. uśmiechu lub uniesienia brwi. To bezdotykowe rozwiązanie może zmienić zasady gry dla uczniów, którzy nie mogą korzystać z klawiatury lub myszy w tradycyjny sposób.
- Uczniowie z trudnościami w uczeniu się mogą korzystać z Reading Mode do dostosowywania swoich wrażeń z czytania. Reading Mode umożliwia uczniom dostosowanie rozmiaru czcionki, koloru i odstępów, dzięki czemu tekst jest łatwiejszy do czytania. Może również wyeliminować rozpraszające elementy, takie jak obrazy i reklamy, umożliwiając uczniom skupienie się na treści.
Ogólnie rzecz biorąc, narzędzia ułatwień dostępu Google otwierają świat możliwości dla niepełnosprawnych studentów. Zapewniając dostosowany dostęp i wsparcie, narzędzia te umożliwiają uczniom pokonywanie przeszkód, pełne wykorzystywanie ich potencjału i odnosić sukcesy w nauce.
Ułatwianie dostępu do Chrome
Ponad 2 miliardy ludzi korzysta z Chrome na co dzień i stale dążymy do tego, aby nasza przeglądarka była bardziej dostępna i aby każdy miał dostęp do takich funkcji, jak Live Caption i opisy obrazów dla użytkowników czytników ekranu.
Łatwiejszy dostęp do PDF w Chrome
Wcześniej, jeśli otworzyłeś zeskanowany plik PDF w przeglądarce Chrome na komputerze, nie mogłeś wchodzić z nim w interakcje za pomocą czytnika ekranu. Teraz dzięki Optical Character Recognition (OCR) Chrome automatycznie rozpoznaje tego typu pliki PDF, dzięki czemu możesz podświetlać, kopiować i wyszukiwać tekst oraz czytać je za pomocą czytnika ekranu, jak każdą inną stronę.
Integracja technologii Optical Character Recognition (OCR) zrewolucjonizowała sposób, w jaki osoby z wadami wzroku lub te, które wolą korzystać z czytników ekranu, aby uzyskać dostęp do treści, wchodzą w interakcje z plikami PDF. Wcześniej zeskanowane pliki PDF były zasadniczo niedostępne dla czytników ekranu, ponieważ były traktowane jako obrazy, a nie tekst do odczytu maszynowego. Oznaczało to, że osoby z wadami wzroku nie mogły czytać, wyszukiwać ani wchodzić w interakcje z treścią w zeskanowanych plikach PDF.
Dzięki technologii OCR Chrome może teraz automatycznie analizować zeskanowane pliki PDF, rozpoznawać tekst w pliku i konwertować go na формат do odczytu maszynowego. Ten proces umożliwia czytnikom ekranu odczytywanie tekstu w pliku PDF, dzięki czemu osoby z wadami wzroku mogą uzyskiwać dostęp do tych plików i korzystać z nich jak z każdego innego dokumentu cyfrowego.
Zalety integracji OCR są wielorakie:
- Zwiększona dostępność: OCR sprawia, że zeskanowane pliki PDF, które wcześniej były niedostępne, stają się dostępne dla osób korzystających z czytników ekranu. Otwiera to świat możliwości dla osób, które nie mogą samodzielnie uzyskać dostępu do zeskanowanych dokumentów.
- Ulepszone doświadczenie użytkownika: OCR umożliwia użytkownikom interakcję z zeskanowanymi plikami PDF w taki sam sposób, jak z każdym innym dokumentem cyfrowym. Mogą podświetlać tekst, kopiować fragmenty i wyszukiwać określone słowa lub frazy, poprawiając w ten sposób swoje wrażenia z czytania i badania.
- Większa wydajność: OCR eliminuje potrzebę ręcznego przepisywania tekstu z zeskanowanych plików PDF. Oszczędza to czas i wysiłek, umożliwiając użytkownikom skupienie się na zadaniu, zamiast walczyć o dostęp do informacji.
Podsumowując, integracja technologii OCR w Chrome jest znaczącym krokiem naprzód w zakresie доступности plików PDF dla osób z wadami wzroku. Umożliwiając przeszukiwanie, odczytywanie i wchodzenie w interakcje z dokumentami, które wcześniej były niedostępne, Chrome pomaga wypełnić lukę cyfrową dla osób, które borykają się z trudnościami w czytaniu i uczeniu się.
Łatwe czytanie dzięki powiększeniu strony
Powiększenie strony umożliwia teraz powiększanie rozmiaru wyświetlanego tekstu w Chrome na Androida bez wpływu na układ strony internetowej lub wrażenia podczas przeglądania — tak jak działa to w Chrome na komputerze. Możesz dostosować, o ile chcesz powiększyć i z łatwością zastosować swoje preferencje do wszystkich odwiedzanych stron lub tylko do określonych stron.
Funkcja powiększania strony może zmienić zasady gry dla osób, które słabo widzą lub które wolą większą czytelność tekstu, aby ułatwić czytanie. Umożliwiając użytkownikom dostosowanie rozmiaru tekstu bez wpływu na układ strony internetowej, Chrome zapewnia, że tekst jest bardziej komfortowy wizualnie i łatwiejszy do odczytania, bez ryzyka nakładania się tekstu lub uszkodzenia formatowania.
Oto zalety funkcji powiększania strony:
- Poprawiona czytelność: Powiększanie strony umożliwia użytkownikom dostosowanie rozmiaru wyświetlanego tekstu, dzięki czemu czytanie jest łatwiejsze i przyjemniejsze. Jest to szczególnie przydatne dla osób słabo widzących, cierpiących na dysleksję lub mających inne wady wzroku.
- Zwiększony komfort: Powiększanie strony umożliwia użytkownikom dostosowanie rozmiaru tekstu do swoich osobistych preferencji i wymagań wizualnych. Pomaga to zmniejszyć zmęczenie oczu i uprzyjemnia czytanie dłuższych treści.
- Zachowany układ: W przeciwieństwie do prostego powiększania całej strony internetowej, powiększanie strony umożliwia użytkownikom tylko powiększanie lub zmniejszanie rozmiaru tekstu, zachowując integralność oryginalnego układu. Dzięki temu strona internetowa jest łatwa w nawigacji, a wszystkie elementy są umieszczone zgodnie z przeznaczeniem.
- Elastyczne dostosowywanie: Powiększanie strony oferuje szeroki zakres opcji dostosowywania, umożliwiając użytkownikom precyzyjne dostrojenie rozmiaru tekstu do swoich konkretnych