Cập nhật AI và Trợ năng mới trên Android, Chrome | vi

Để kỷ niệm Ngày Nhận thức về Khả năng Tiếp cận Toàn cầu (GAAD), chúng tôi rất vui mừng giới thiệu các bản cập nhật mới cho Android và Chrome, cùng với các tài nguyên mới cho hệ sinh thái. Những tiến bộ trong trí tuệ nhân tạo (AI) không ngừng làm cho thế giới của chúng ta trở nên dễ tiếp cận hơn. Hôm nay, để kỷ niệm Ngày Nhận thức về Khả năng Tiếp cận Toàn cầu, chúng tôi đang triển khai các bản cập nhật mới cho các sản phẩm Android và Chrome, đồng thời bổ sung các tài nguyên mới cho các nhà phát triển xây dựng các công cụ nhận dạng giọng nói.

Nhiều Cải tiến Android Hơn Được Hỗ Trợ Bởi AI

Chúng tôi đang củng cố công việc của mình và tích hợp các tính năng tốt nhất của Google AI và Gemini vào các trải nghiệm di động cốt lõi được tùy chỉnh cho thị giác và thính giác.

Nhận Tất Cả Thông Tin Chi Tiết Với Gemini và TalkBack

Năm ngoái, chúng tôi đã giới thiệu sức mạnh của Gemini vào trình đọc màn hình TalkBack của Android, cung cấp mô tả hình ảnh do AI tạo ra cho những người khiếm thị hoặc thị lực kém, ngay cả khi không có văn bản thay thế. Hôm nay, chúng tôi đang mở rộng tích hợp Gemini này để mọi người có thể đặt câu hỏi và nhận câu trả lời về hình ảnh của họ.

Điều này có nghĩa là lần tới khi một người bạn gửi cho bạn một bức ảnh về cây đàn guitar mới của họ, bạn có thể nhận được mô tả và yêu cầu các câu hỏi tiếp theo về nhãn hiệu và màu sắc, hoặc thậm chí những gì khác có trong hình ảnh. Giờ đây, mọi người cũng có thể nhận được mô tả và hỏi câu hỏi về toàn bộ màn hình của họ. Vì vậy, nếu bạn đang mua sắm các chương trình khuyến mãi mới nhất trên ứng dụng mua sắm yêu thích của mình, bạn có thể hỏi Gemini về vật liệu của mặt hàng hoặc liệu có bất kỳ chiết khấu nào không.

Cụ thể hơn, bản cập nhật này nâng cao mô tả hình ảnh lên một tầm cao chưa từng có bằng cách khai thác sức mạnh của Gemini. Người dùng không còn bị giới hạn trong các mô tả tĩnh; họ có thể tương tác với hình ảnh, đặt câu hỏi cụ thể và nhận được câu trả lời tỉ mỉ. Ví dụ: người dùng có thể tải lên ảnh về một địa danh lịch sử và hỏi về phong cách kiến trúc, năm xây dựng hoặc bất kỳ chi tiết liên quan nào khác. Khả năng xử lý thông minh của Gemini sẽ phân tích hình ảnh, trích xuất thông tin liên quan và cung cấp phản hồi toàn diện ở định dạng dễ hiểu.

Hơn nữa, tích hợp Gemini với TalkBack vượt ra ngoài nhận dạng hình ảnh đơn giản. Nó cũng mở rộng đến nội dung màn hình, cho phép người dùng hỏi câu hỏi về thông tin hiển thị trên thiết bị của họ. Nếu bạn gặp khó khăn khi điều hướng một trang web phức tạp hoặc sử dụng một ứng dụng không quen thuộc, bạn có thể chỉ cần kích hoạt TalkBack và yêu cầu Gemini làm rõ hoặc hướng dẫn. Gemini sẽ phân tích nội dung màn hình, xác định các yếu tố chính và cung cấp giải thích hoặc hướng dẫn một cách rõ ràng và ngắn gọn. Cách tiếp cận tương tác này trao quyền cho người dùng khiếm thị để điều hướng thế giới kỹ thuật số với sự tự tin và độc lập chưa từng có.

Hiểu Thêm Cảm Xúc Đằng Sau Phụ Đề

Với Expressive Captions, điện thoại của bạn có thể cung cấp phụ đề theo thời gian thực cho bất kỳ thứ gì có âm thanh trên hầu hết các ứng dụng trên điện thoại của bạn — sử dụng AI không chỉ để ghi lại những gì ai đó đang nói mà còn cả cách họ nói. Chúng tôi biết một cách mọi người thể hiện bản thân là bằng cách kéo dài âm thanh của từ ngữ của họ, đó là lý do tại sao chúng tôi đã phát triển một tính năng thời lượng mới trên Expressive Captions, vì vậy bạn có thể biết khi nào một người phát thanh thể thao đang hét lên "amaaazing shot", hoặc một tin nhắn video không phải là "no" mà là "nooooo". Bạn cũng sẽ nhận được nhiều nhãn âm thanh hơn, vì vậy bạn có thể biết khi nào ai đó đang huýt sáo hoặc hắng giọng. Phiên bản mới này đang được triển khai bằng tiếng Anh ở Hoa Kỳ, Vương quốc Anh, Canada và Úc, đồng thời khả dụng trên các thiết bị chạy Android 15 trở lên.

Expressive Captions cách mạng hóa trải nghiệm phụ đề bằng cách ghi lại những thay đổi tinh tế về giọng điệu, tốc độ nói và các tín hiệu âm thanh. Hãy nghĩ về nó: một từ "tốt" đơn giản có thể được sử dụng để thể hiện sự đồng ý, phấn khích hoặc mỉa mai. Trong khi phụ đề truyền thống chỉ ghi lại các từ, Expressive Captions giải mã những cảm xúc tiềm ẩn và truyền đạt chúng cho người xem thông qua các tín hiệu văn bản. Ví dụ, một tiếng thở dài có thể biểu thị sự thất vọng hoặc mệt mỏi, trong khi một tiếng cười khúc khích có thể cho thấy sự giải trí hoặc vui vẻ. Bằng cách bao gồm những tín hiệu phi ngôn ngữ này, Expressive Captions có thể thêm chiều sâu và ngữ cảnh vào trải nghiệm xem của những người khiếm thính hoặc những người thích dựa vào các trợ giúp trực quan.

Ngoài ra, tính năng thời lượng trong Expressive Captions bổ sung thêm một lớp chân thực và hấp dẫn khác. Bằng cách phản ánh chính xác sự kéo dài và mở rộng của từ ngữ, phụ đề truyền đạt cường độ cảm xúc và tầm quan trọng của diễn giả. Một từ "không" kéo dài! truyền đạt sự kháng cự lớn hơn một từ "không" ngắn gọn, trong khi một từ "tuyệt vời" kéo dài gợi lên sự phấn khích và kinh ngạc. Sự chú ý đến chi tiết này làm cho phụ đề trở nên hấp dẫn hơn, giàu thông tin hơn và cộng hưởng hơn, thúc đẩy kết nối sâu sắc hơn giữa người xem và nội dung họ đang tiêu thụ.

Ngoài những cải tiến về cảm xúc, Expressive Captions còn bao gồm các nhãn âm thanh để xác định và phiên âm các tín hiệu âm thanh khác nhau, chẳng hạn như huýt sáo, cười và vỗ tay. Những nhãn này thêm ngữ cảnh vào phụ đề và cho phép người xem nắm bắt đầy đủ môi trường âm thanh, ngay cả khi thính giác của họ bị suy giảm. Bằng cách xác định các thành phần âm thanh quan trọng, Expressive Captions trao quyền cho người xem tham gia và hiểu nội dung họ đang tiêu thụ, thu hẹp khoảng cách giữa thông tin thính giác và thị giác.

Cải Thiện Nhận Dạng Giọng Nói Trên Toàn Thế Giới

Năm 2019, chúng tôi đã khởi động Dự án Euphonia để tìm cách làm cho nhận dạng giọng nói dễ tiếp cận hơn đối với những người có giọng nói không chuẩn. Giờ đây, chúng tôi đang hỗ trợ các nhà phát triển và tổ chức trên khắp thế giới khi họ đưa công việc này đến nhiều ngôn ngữ và bối cảnh văn hóa hơn.

Tài Nguyên Dành Cho Nhà Phát Triển Mới

Để cải thiện hệ sinh thái các công cụ trên toàn cầu, chúng tôi đang cung cấp kho lưu trữ mã nguồn mở của mình cho các nhà phát triển thông qua trang GitHub của Dự án Euphonia. Giờ đây, họ có thể phát triển các công cụ âm thanh được cá nhân hóa để nghiên cứu hoặc đào tạo mô hình của họ để thích ứng với các mẫu giọng nói khác nhau.

Bằng cách cung cấp kho lưu trữ mã nguồn mở, Google cho phép các nhà phát triển, nhà nghiên cứu và tổ chức tận dụng kết quả của Dự án Euphonia và đóng góp vào chúng. Cách tiếp cận hợp tác này đẩy nhanh sự tiến bộ của công nghệ nhận dạng giọng nói cho giọng nói không chuẩn, đảm bảo rằng khả năng sử dụng của nó có thể mở rộng sang nhiều ngôn ngữ và bối cảnh văn hóa khác nhau. Bằng cách chia sẻ mã, bộ dữ liệu và mô hình, Google nuôi dưỡng một cộng đồng đổi mới và thử nghiệm, tạo ra các giải pháp đột phá cho công nghệ hỗ trợ.

Hơn nữa, tính khả dụng của các tài nguyên dành cho nhà phát triển cho phép các cá nhân hoặc tổ chức tùy chỉnh các công cụ nhận dạng giọng nói để đáp ứng nhu cầu cụ thể của họ. Các nhà nghiên cứu có thể sử dụng các tài nguyên này để điều tra các mẫu giọng nói khác nhau và phát triển các thuật toán có thể phiên âm chính xác nhiều loại cách nói. Các công ty khởi nghiệp hoặc doanh nghiệp nhỏ có thể tích hợp chúng vào các ứng dụng hoặc dịch vụ của họ để tăng cường tính toàn diện và khả năng truy cập của chúng. Bằng cách giảm rào cản gia nhập công nghệ nhận dạng giọng nói, Google cho phép đổi mới, cho phép các nhà phát triển tạo ra các giải pháp có ý nghĩa trao quyền cho những người có khó khăn về ngôn ngữ để giao tiếp và tương tác với thế giới.

Hỗ Trợ Các Dự Án Mới Ở Châu Phi

Đầu năm nay, chúng tôi đã hợp tác với Google.org để tài trợ cho việc thành lập Trung tâm Bao gồm Ngôn ngữ Kỹ thuật số (CDLI) tại Đại học College London. CDLI cam kết cải thiện công nghệ nhận dạng giọng nói cho những người nói các ngôn ngữ không phải tiếng Anh ở Châu Phi bằng cách tạo ra các bộ dữ liệu mã nguồn mở cho 10 ngôn ngữ Châu Phi, xây dựng các mô hình nhận dạng giọng nói mới và tiếp tục hỗ trợ các tổ chức và hệ sinh thái các nhà phát triển trong lĩnh vực này.

Sự hỗ trợ của Google.org cho Trung tâm Bao gồm Ngôn ngữ Kỹ thuật số (CDLI) chứng tỏ cam kết của công ty trong việc thu hẹp khoảng cách công nghệ ngôn ngữ ở Châu Phi. Bằng cách cung cấp tài chính và tài nguyên cho CDLI, Google đang giúp phát triển các mô hình nhận dạng giọng nói chính xác và toàn diện hơn trên lục địa Châu Phi. Việc tập trung của CDLI vào việc tạo ra các bộ dữ liệu mở quy mô lớn cho các ngôn ngữ Châu Phi là một bước quan trọng trong việc đào tạo các hệ thống nhận dạng giọng nói mạnh mẽ. Bằng cách thu thập và chú thích các mẫu giọng nói trong các ngôn ngữ Châu Phi, Trung tâm Bao gồm Ngôn ngữ Kỹ thuật số (CDLI) đang đặt nền tảng cho tương lai của công nghệ nhận dạng giọng nói có thể phiên âm chính xác giọng nói của người dân Châu Phi, bất kể ngôn ngữ hoặc giọng của họ.

Ngoài việc tạo bộ dữ liệu, Trung tâm Bao gồm Ngôn ngữ Kỹ thuật số (CDLI) còn tận tâm xây dựng các mô hình nhận dạng giọng nói mới được thiết kế đặc biệt để đáp ứng các đặc điểm ngôn ngữ độc đáo của các ngôn ngữ Châu Phi. Các mô hình này xem xét các biến thể âm điệu, mẫu ngữ âm và từ vựng của các ngôn ngữ Châu Phi, thường khác với tiếng Anh và các ngôn ngữ được nghiên cứu rộng rãi khác. Bằng cách tùy chỉnh các mô hình nhận dạng giọng nói để phù hợp với sự phức tạp của các ngôn ngữ Châu Phi, CDLI đang cải thiện độ chính xác và độ tin cậy của công nghệ nhận dạng giọng nói, nhờ đó người dân Châu Phi có thể truy cập và sử dụng công nghệ này.

Quan trọng nhất, Trung tâm Bao gồm Ngôn ngữ Kỹ thuật số (CDLI) đang tập trung vào việc hỗ trợ hệ sinh thái các tổ chức và nhà phát triển trên lục địa Châu Phi. CDLI cung cấp các chương trình đào tạo, cơ hội cố vấn và nguồn tài chính để giúp xây dựng một cộng đồng các chuyên gia lành nghề. Bằng cách thúc đẩy sự tiến bộ của công nghệ ngôn ngữ Châu Phi, CDLI đang tạo ra các cơ hội kinh tế cho người dân Châu Phi và xây dựng một tương lai kỹ thuật số mạnh mẽ, toàn diện.

Mở Rộng Các Tùy Chọn Trợ năng Cho Học Sinh

Các công cụ trợ năng đặc biệt hữu ích cho học sinh khuyết tật, từ việc sử dụng cử chỉ khuôn mặt để điều hướng Chromebook bằng Face gestures đến việc tùy chỉnh trải nghiệm đọc của họ bằng Reading Mode.

Giờ đây, khi bạn sử dụng ứng dụng kiểm tra Bluebook của College Board trên Chromebook (nơi học sinh có thể làm bài SAT và hầu hết các bài kiểm tra AP), bạn sẽ có thể sử dụng tất cả các tính năng trợ năng tích hợp của Google. Điều này bao gồm trình đọc màn hình ChromeVox và chức năng đọc chính tả, cũng như các công cụ kiểm tra kỹ thuật số của chính College Board.

Đây là cách các công cụ trợ năng có thể cách mạng hóa trải nghiệm học tập của học sinh khuyết tật khác nhau:

Học sinh khiếm thị có thể tận dụng trình đọc màn hình ChromeVox, đọc lớn văn bản trên màn hình, cấp quyền truy cập vào nội dung bằng văn bản ngay cả khi họ không thể nhìn thấy. ChromeVox cũng có thể cung cấp mô tả về hình ảnh, nút và liên kết, cho phép học sinh điều hướng web và ứng dụng một cách suôn sẻ.
Học sinh bị rối loạn vận động có thể thấy tính năng điều khiển khuôn mặt của Face gestures rất hữu ích, tính năng này cho phép họ sử dụng các biểu cảm trên khuôn mặt, chẳng hạn như mỉm cười hoặc nhướn mày, để điều hướng Chromebook. Phương pháp điều khiển rảnh tay này có thể thay đổi cuộc chơi đối với những học sinh không thể sử dụng bàn phím hoặc chuột theo cách truyền thống.
Học sinh mắc chứng khó đọc có thể sử dụng Reading Mode để tùy chỉnh trải nghiệm đọc của họ. Reading Mode cho phép học sinh điều chỉnh kích thước phông chữ, màu sắc và khoảng cách, giúp họ dễ đọc văn bản hơn. Nó cũng có thể loại bỏ các yếu tố gây xao nhãng, chẳng hạn như hình ảnh và quảng cáo, cho phép học sinh tập trung vào nội dung.

Nhìn chung, các công cụ trợ năng của Google mở ra một thế giới đầy khả năng cho học sinh khuyết tật. Bằng cách cung cấp quyền truy cập và hỗ trợ tùy chỉnh, những công cụ này trao quyền cho học sinh vượt qua các rào cản, phát huy hết tiềm năng của họ và thành công trong học tập.

Làm Cho Chrome Dễ Tiếp Cận Hơn

Có hơn 2 tỷ người sử dụng Chrome mỗi ngày và chúng tôi luôn tận tâm làm cho trình duyệt của mình dễ sử dụng hơn và làm cho các tính năng như Live Caption và mô tả hình ảnh cho người dùng trình đọc màn hình có sẵn cho mọi người.

Truy Cập PDF Dễ Dàng Hơn Trên Chrome

Trước đây, nếu bạn mở một tệp PDF được quét trong trình duyệt Chrome trên máy tính để bàn, bạn sẽ không thể tương tác với nó bằng trình đọc màn hình. Giờ đây, với nhận dạng ký tự quang học (OCR), Chrome tự động nhận dạng các loại PDF này, vì vậy bạn có thể đánh dấu, sao chép và tìm kiếm văn bản, đồng thời đọc chúng bằng trình đọc màn hình như bất kỳ trang nào khác.

Việc tích hợp công nghệ nhận dạng ký tự quang học (OCR) cách mạng hóa cách những người khiếm thị hoặc những người thích sử dụng trình đọc màn hình để truy cập nội dung sử dụng các tệp PDF. Trước đây, các tệp PDF được quét về cơ bản là hoàn toàn không thể truy cập được đối với trình đọc màn hình vì chúng được coi là hình ảnh thay vì văn bản có thể đọc được bằng máy. Điều này có nghĩa là những người khiếm thị δεν pudieron leer, buscar o interactuar con el contenido de los archivos PDF escaneados.

Với công nghệ OCR, Chrome giờ đây có thể tự động phân tích các tệp PDF được quét, xác định văn bản trong tệp và chuyển đổi nó thành định dạng có thể đọc được bằng máy. Quá trình này cho phép trình đọc màn hình đọc văn bản trong PDF, cho phép những người khiếm thị truy cập và utilizar estos archivos como cualquier otro documento digital.

Ưu điểm của việc tích hợp OCR là rất nhiều:

Khả năng tiếp cận nâng cao: OCR làm cho các tệp PDF được quét trước đây không thể truy cập được, hiện có thể truy cập được cho những người sử dụng trình đọc màn hình. Điều này mở ra một thế giới đầy khả năng cho những người không thể truy cập các tài liệu được quét một cách độc lập.
Cải thiện trải nghiệm người dùng: OCR cho phép người dùng tương tác với các tệp PDF được quét giống như cách họ làm với bất kỳ tài liệu kỹ thuật số nào khác. Họ có thể đánh dấu văn bản, sao chép các đoạn và tìm kiếm các từ hoặc cụm từ cụ thể, nâng cao trải nghiệm đọc và nghiên cứu của họ.
Hiệu quả cao hơn: OCR loại bỏ sự cần thiết phải chuyển văn bản trong các tệp PDF được quét theo cách thủ công. Điều này tiết kiệm thời gian và công sức, cho phép người dùng tập trung vào nhiệm vụ trong tay thay vì cố gắng truy cập thông tin.

Tóm lại, việc tích hợp công nghệ OCR vào Chrome là một tiến bộ đáng kể giúp người khiếm thị dễ dàng truy cập các tệp PDF hơn. Bằng cách làm cho các tài liệu trước đây không thể truy cập được trở nên có thể tìm kiếm, đọc được và tương tác được, Chrome đang giúp thu hẹp khoảng cách kỹ thuật số giữa những cá nhân gặp khó khăn trong việc đọc và học tập.

Dễ Dàng Đọc Với Thu Phóng Trang

Tính năng thu phóng trang hiện cho phép bạn tăng kích thước văn bản mà bạn nhìn thấy trong Chrome trên Android mà không ảnh hưởng đến bố cục trang web hoặc trải nghiệm duyệt web của bạn — giống như cách nó hoạt động trên Chrome dành cho máy tính để bàn. Bạn có thể tùy chỉnh mức độ bạn muốn phóng to và dễ dàng áp dụng tùy chọn của mình cho tất cả các trang bạn truy cập hoặc chỉ các trang cụ thể.

Tính năng thu phóng trang có thể thay đổi cuộc chơi đối với những người có thị lực kém hoặc những người thích văn bản lớn hơn để rõ ràng hơn để đọc dễ dàng hơn. Bằng cách cho phép người dùng điều chỉnh kích thước văn bản mà không ảnh hưởng đến bố cục trang web, Chrome đảm bảo rằng văn bản trực quan hơn, thoải mái hơn và dễ đọc hơn mà không có nguy cơ văn bản chồng chéo hoặc định dạng bị hỏng.

Tính năng thu phóng trang có nhiều lợi ích:

Khả năng đọc được cải thiện: Thu phóng trang cho phép người dùng điều chỉnh kích thước văn bản mà họ nhìn thấy, điều này làm cho việc đọc trở nên dễ dàng và thú vị hơn. Điều này đặc biệt hữu ích cho những người có thị lực kém, mắc chứng khó đọc hoặc các vấn đề về thị lực khác.
Sự thoải mái nâng cao: Thu phóng trang cho phép người dùng tùy chỉnh kích thước văn bản để đáp ứng sở thích cá nhân và yêu cầu về thị giác của họ. Điều này giúp giảm mỏi mắt và làm cho việc đọc nội dung dài hơn trở nên thoải mái hơn.
Giữ nguyên bố cục: Không giống như việc chỉ thu phóng toàn bộ trang web, thu phóng trang chỉ cho phép người dùng tăng hoặc giảm kích thước văn bản trong khi vẫn duy trì tính toàn vẹn của bố cục ban đầu. Điều này đảm bảo rằng trang web dễ điều hướng và tất cả các phần tử được đặt như dự kiến.
Tùy chỉnh linh hoạt: Thu phóng trang cung cấp một loạt các tùy chọn tùy chỉnh, cho phép người dùng tinh chỉnh kích thước văn bản để đáp ứng nhu cầu cụ thể của họ. Người dùng có thể chọn từ các mức thu phóng được xác định trước hoặc nhập giá trị tùy chỉnh và áp dụng tùy chọn của họ cho tất cả các trang web hoặc chỉ các trang web cụ thể.

Để bắt đầu sử dụng tính năng này, chỉ cần nhấn vào menu ba chấm ở góc trên cùng bên phải của Chrome, sau đó thiết lập tùy chọn thu phóng của bạn.

cập nhật lúc 2025-05-17

# Google # Gemini # AIGC