為了慶祝全球無障礙宣傳日 (GAAD),我們很高興推出 Android 和 Chrome 的新更新,以及為生態系統提供的新資源。人工智能的進步不斷使我們的世界變得越來越無障礙。今天,為了慶祝全球無障礙宣傳日,我們正在向 Android 和 Chrome 的產品推出新更新,並為開發人員構建語音識別工具添加新資源。
更多由人工智能驅動的 Android 創新
我們正在鞏固我們的工作,並將 Google AI 和 Gemini 的最佳特性集成到為視覺和聽覺定制的核心移動體驗中。
通過 Gemini 和 TalkBack 獲取所有詳細信息
去年,我們將 Gemini 的功能引入 Android 的螢幕閱讀器 TalkBack,為盲人或視力障礙者提供人工智能生成的圖像描述,即使沒有替代文字也是如此。今天,我們正在擴展這種 Gemini 集成,以便人們可以提問並獲得有關其圖像的回覆。
這意味著下次朋友給你發一張他們新吉他的照片時,你可以獲得一個描述,並詢問有關品牌和顏色的後續問題,甚至圖像中還有什麼。現在,人們還可以獲得描述並詢問有關其整個螢幕的問題。因此,如果你正在你最喜歡的購物應用程式上購買最新的促銷商品,你可以詢問 Gemini 關於商品的材質或是否有折扣。
更具體地說,此更新通過利用 Gemini 的強大功能,將圖像描述提升到了前所未有的水平。用戶不再局限於靜態描述;他們可以與圖像互動,提出特定問題並獲得細緻的答案。例如,用戶可以上傳一張歷史地標的照片,並詢問其建築風格、建造年份或任何其他相關細節。Gemini 的智能處理能力將解析圖像,提取相關信息,並以易於理解的格式提供全面響應。
此外,Gemini 與 TalkBack 的集成超出了簡單的圖像識別。它還擴展到了螢幕內容,允許用戶詢問有關其裝置上顯示的信息的問題。如果你在瀏覽複雜的網頁或使用不熟悉的應用程式時遇到困難,你可以簡單地激活 TalkBack 並詢問 Gemini 澄清或指導。Gemini 會分析螢幕內容,識別關鍵元素,並以清晰簡潔的方式提供解釋或說明。這種交互式方法使有視覺障礙的用戶能夠以前所未有的信心和獨立性瀏覽數碼世界。
Gemini 與 TalkBack 的結合,不僅提升了圖像和螢幕資訊的理解層次,更創造了一種互動式體驗。過去,螢幕閱讀器僅能提供有限的描述,使用者往往需要依靠想像力拼湊完整畫面。但現在,透過 Gemini 的強大 AI 引擎,使用者可以深入探究圖像的細節,並且針對感興趣的部分提出進一步的疑問。例如,當收到一張風景照時,使用者不僅能知道照片中包含了山脈、湖泊和樹木,還能詢問山脈的高度、湖泊的面積,以及樹木的種類等等。這種互動式的探索方式,讓視覺障礙者也能充分體驗圖像所傳達的資訊,不再受限於單一的描述。
同時,Gemini 也可分析螢幕上的內容,為使用者提供即時的協助。無論是在瀏覽複雜的網頁、操作不熟悉的應用程式,或是填寫繁瑣的表單時,使用者都可以隨時呼叫 Gemini,尋求指引與說明。Gemini 會分析螢幕上的元素,例如按鈕、連結、文字框等,並提供清楚的解釋,協助使用者順利完成操作。這種即時的輔助功能,讓視覺障礙者可以更輕鬆地使用各種數碼工具,提升工作效率和生活品質。
Gemini 與 TalkBack 的整合,代表著 AI 技術在輔助功能應用上的一大進展。它不僅提升了資訊的可及性,更創造了一種互動式的體驗,讓視覺障礙者能夠更自主地探索數碼世界。
了解字幕後方更多的情感
借助表達式字幕,你的手機可以為手機上大多數應用程式中的任何帶聲音的東西提供實時字幕 — 使用人工智能不僅可以捕捉某人所說的話,還可以捕捉他們說話的方式。我們知道人們表達自己的一種方式是通過拖長他們單詞的聲音,這就是為什麼我們開發了表達式字幕上的新持續時間功能,因此你可以知道體育廣播員何時在喊出「amaaazing shot」,或者視頻消息不是「no」而是「nooooo」。你還將收到更多聲音標籤,因此你可以知道某人何時在吹口哨或清嗓子。這個新版本正在美國、英國、加拿大和澳大利亞以英語推出,適用於運行 Android 15 及更高版本的裝置。
Expressive Captions 通過捕獲微妙的語調變化、語速和聲音線索,徹底改變了字幕體驗。想想看:用簡單的「好」來表達同意、興奮或諷刺都可以。傳統的字幕只能記錄單詞,而 Expressive Captions 會破譯隱藏的情感,並將其通過文本提示傳達給觀眾。例如,嘆氣可能表示沮喪或疲憊,而咯咯笑可能表示娛樂或快樂。通過包含這些非語言線索,Expressive Captions 可以在聽力受損或喜歡依靠視覺輔助的人的觀看體驗中添加深度和背景。
此外,Expressive Captions 的持續時間功能增加了另一層真實感和參與感。通過準確反映單詞的拉伸和延長,字幕傳達了說話者的情感強度和重要性。一個冗長的「不!」傳達了比簡潔的「不」更多的抵抗,而一個拖長的「精彩」激發了興奮和敬畏。這種注意力細節使字幕更具吸引力,信息量更大,更具共鳴,從而促進觀眾與他們所消費內容之間更深層次的聯繫。
除了情感增強之外,Expressive Captions 還包含聲音標籤,以識別和轉錄各種聲音線索,如口哨,歡笑和掌聲。這些標籤為字幕添加了上下文,並允許觀看者完全掌握音頻環境,即使他們的聽力受到限制。通過識別關鍵聲音元素,Expressive Captions 使觀看者能夠參與並理解他們所消費的內容,從而彌合了聽覺和視覺信息之間的差距。
Expressive Captions 的出現,不僅僅是字幕技術的進化,更是一種情感傳達的革命。傳統字幕僅能呈現文字內容,卻忽略了語氣、音調、情感等非語言信息,使得聽力受損者難以完整理解影片的意涵。Expressive Captions 透過 AI 技術,精準捕捉語音中的細微變化,例如語氣的輕重、語速的快慢、以及停頓的長短等,並將這些信息融入字幕之中,讓聽力受損者也能感受到說話者的情緒和態度。
舉例來說,當影片中的角色說出 “Hello” 時,傳統字幕只會顯示 “Hello” 這個詞,但 Expressive Captions 則會根據語氣的不同,呈現出不同的字幕。如果是開心的 “Hello”,字幕可能會顯示 “Hello!”,如果是疑惑的 “Hello”,字幕可能會顯示 “Hello?”,如果是悲傷的 “Hello”,字幕可能會顯示 “Hello…”。透過這些微小的變化,聽力受損者就能更準確地理解說話者的意圖,進而更深入地融入影片的情境之中。
除了語氣之外,Expressive Captions 也能捕捉到其他聲音元素,例如笑聲、嘆氣、尖叫聲等,並以文字的方式呈現出來。這些聲音訊息對於理解影片內容至關重要,因為它們可以幫助聽力受損者判斷角色的情緒、事件的發展,以及場景的氛圍等等。例如,當影片中出現笑聲時,Expressive Captions 會顯示 “(笑聲)”,讓聽力受損者知道現在的氣氛是輕鬆愉快的。當影片中出現嘆氣時,Expressive Captions 會顯示 “(嘆氣)”,讓聽力受損者知道現在的角色是感到沮喪或失望。
Expressive Captions 的出現,不僅提升了聽力受損者的觀影體驗,也促進了社會的共融與平等。透過更精準、更豐富的字幕,聽力受損者可以更輕鬆地參與各種社交活動,例如觀看電影、欣賞戲劇、參與討論等等。這有助於打破溝通的障礙,建立更友善、更包容的社會。
改进世界各地的语音识别
2019 年,我们启动了 Euphonia 项目,以寻找使语音识别对于非标准语音人来说更易于访问的方法。现在,我们正在支持世界各地的开发人员和组织,因为他们将这项工作带到更多的语言和文化背景中。
新的开发者资源
为了改善全球工具的生态系统,我们正在通过 Euphonia 项目的 GitHub 页面为开发人员提供我们的开源存储库。他们现在可以开发用于研究的个性化音频工具,或者训练他们的模型以适应不同的语音模式。
通过提供开源存储库,Google 允许开发人员、研究人员和组织利用 Euphonia 项目的结果并为之贡献。此协作方法加速了非标准语音语音识别技术的进步,确保了其可用性能够扩展到各种语言和文化背景。通过分享代码、数据集和模型,Google 培养了一个创新和实验社区,为辅助技术创造了突破性的解决方案。
此外,开发者资源的可用性使个人或组织能够定制语音识别工具以满足其特定需求。研究人员可以利用这些资源来调查不同的语音模式,并开发能够准确转录各种说话方式的算法。初创公司或小型企业可以将其集成到其应用程序或服务中,以增强其包容性和可访问性。通过降低语音识别技术的进入门槛,Google 实现了创新,让开发者能够创造有意义的解决方案,从而使有语音障碍的人能够与世界交流和互动。
Google Euphonia 計畫的開源,為語音辨識技術的發展帶來了新的動力。透過開放程式碼、資料集和模型,Google 建立了協作平台,讓全球的開發者、研究人員和組織都能參與其中,共同推動技術的進步。這種開放式的創新模式,不僅加速了技術的發展,也確保了語音辨識技術能夠更廣泛地應用於各種語言和文化背景。
舉例來說,開發者可以利用 Euphonia 計畫提供的資源,開發針對特定口音或語言的語音辨識模型。研究人員可以分析不同語音模式的特性,並開發能夠更準確地轉錄各種說話方式的演算法。新創公司和小型企業則可以將 Euphonia 計畫的技術整合到自己的應用程式或服務中,提升產品的包容性和可及性。
透過降低語音辨識技術的門檻,Google 鼓勵了更多的創新。開發者可以創造出各種有意義的解決方案,幫助有語言障礙的人與世界交流和互動。例如,針對患有構音障礙的兒童,開發者可以開發專用的語音辨識 App,幫助他們更輕鬆地表達自己的想法。針對老年人,開發者可以開發語音控制的家居系統,讓他們更方便地控制家電設備。
Google Euphonia 計畫的開源,不僅僅是技術的分享,更是一種社會責任的體現。透過開放技術、促進協作,Google 正在努力消除語言障礙,讓每個人都能平等地參與數碼世界。
支持非洲的新项目
今年早些时候,我们与 Google.org 合作,为伦敦大学学院创建数字语言包容中心 (CDLI) 提供支持。CDLI 致力于通过创建 10 种非洲语言的开源数据集、构建新的语音识别模型,并继续支持该领域的组织和开发人员生态系统来改进非洲非英语人士的语音识别技术。
Google.org 對於倫敦大學學院數位語言包容中心 (CDLI) 的支持,顯示了 Google 對於彌合非洲語言技術差距的承諾。非洲擁有豐富的語言多樣性,但許多非洲語言的數碼資源卻相對匱乏,這使得非洲人民在數碼世界中面臨許多挑戰。透過支持 CDLI,Google 正在幫助非洲開發更準確、更具包容性的語音辨識模型,讓非洲人民能夠更輕鬆地使用數碼工具,參與數碼經濟。
CDLI 的工作重點包括:建立非洲語言的大規模開放數據集、開發針對非洲語言特性的語音辨識模型,以及支持非洲大陸的組織和開發者生態系統。透過這些努力,CDLI 不僅提升了非洲語言的語音辨識技術水平,也促進了非洲數碼經濟的發展。
建立非洲語言的開放數據集,是提升語音辨識技術的關鍵一步。數據集越大、質量越高,語音辨識模型的準確性就越高。CDLI 正在積極收集和標註非洲語言的語音樣本,為語音辨識技術的發展奠定基礎。
開發針對非洲語言特性的語音辨識模型,也是非常重要的。非洲語言的語音結構、詞彙和語法,與英語和其他廣泛研究的語言有很大的差異。CDLI 正在積極研究非洲語言的特性,並開發能夠更準確地轉錄非洲語言的語音辨識模型。
支持非洲大陸的組織和開發者生態系統,也是 CDLI 的重要任務。CDLI 正在提供培訓課程、指導機會,以及財務資源,幫助非洲培養一批熟練的語音辨識技術專家。透過這些努力,CDLI 正在為非洲的數碼未來奠定基礎。
Google 对 CDLI 的支持,不仅仅是资金上的投入,更是一种对非洲人民的决心和信任。通过与 CDLI 合作,Google 正在帮助非洲打破语言障碍,促进经济发展,并为非洲人民创造更多机会。
扩展学生的辅助选项
輔助工具對於殘疾學生尤其有用,從使用面部手勢通過面部控制導航他們的 Chromebook 到使用閱讀模式自定義他們的閱讀體驗。
現在,當你在 Chromebook 上使用大學理事會的 Bluebook 測試應用程式(學生可以在其中參加 SAT 和大多數大學先修課程考試)時,你將可以使用所有 Google 的內置輔助功能。這包括 ChromeVox 螢幕閱讀器和聽寫,以及大學理事會自己的數字測試工具。
以下是輔助功能如何徹底改變不同殘疾學生的學習體驗:
- 有視覺障礙的學生可以利用 ChromeVox 螢幕閱讀器,它可以口頭朗讀螢幕上的文本,從而可以訪問書面內容,即使他們無法看到它也是如此。ChromeVox 还可以提供有关图像、按钮和链接的描述,从而使学生可以顺利浏览网络和应用程序。
- 運動障礙的學生可能會發現面部控制的面部控制功能非常有用,它允許他們使用面部表情(如微笑或抬起眉毛)導航 Chromebook。此免提控件方法对于无法传统方式使用键盘或鼠标的学生来说可以改变游戏规则。
- 有學習障礙的學生可以使用閱讀模式自定義他們的閱讀體驗。閱讀模式使學生可以調整字體大小、顏色和間距,使其閱讀文本更容易。它還可以消除干擾,例如圖像和廣告,使學生能夠專注於內容。
總的來說,Google 的輔助工具為殘疾學生打開了一個充滿可能性的世界。通過提供定制的訪問和支持,這些工具使學生可以克服障礙、充分發揮潛力並在學術上取得成功。
輔助功能在教育領域扮演著越來越重要的角色,它們不僅能夠幫助身心障礙學生克服學習上的障礙,更能讓他們充分發揮潛力,與其他學生一樣享受平等的學習機會。Google 提供的各種輔助工具,例如 ChromeVox 螢幕閱讀器、面部控制功能、閱讀模式等等,都為不同需求的學生提供了客製化的支援,讓他們能夠更輕鬆地學習、更有效地吸收知識。
以 ChromeVox 螢幕閱讀器為例,它可以將螢幕上的文字轉為語音,讓視障學生也能夠閱讀教材、瀏覽網頁、完成作業。此外,ChromeVox 還能夠提供圖像、按鈕和連結的描述,讓視障學生能夠順利地使用各種應用程式和網站。對於運動障礙的學生來說,面部控制功能則是一大福音。透過臉部表情,例如微笑或抬起眉毛,學生就能夠控制 Chromebook 的操作,無需使用鍵盤或滑鼠。這對於手部活動不便的學生來說,無疑是一項革命性的技術。
閱讀模式則能夠讓學習障礙的學生自訂閱讀體驗。學生可以調整字體大小、顏色和間距,使文字更易於閱讀。閱讀模式也能夠移除網頁上的干擾元素,例如圖像和廣告,讓學生能夠更專注於內容本身。
Google 提供的輔助工具,不僅僅是技術的應用,更是一種對教育平等的追求。透過這些工具,Google 正在努力消除學習上的障礙,讓每位學生都能夠充分發揮潛力,追求自己的夢想。
使 Chrome 更易於訪問
每天有超過 20 億人使用 Chrome,我們始終致力於使我們的瀏覽器更易於使用,並使每個人都可以使用諸如實時字幕和螢幕閱讀器用戶的圖像描述之類的功能。
在 Chrome 上更轻松地访问 PDF
以前,如果你在桌面 Chrome 浏览器中打开扫描的 PDF,你将无法使用屏幕阅读器与之交互。现在有了光学字符识别 (OCR),Chrome 会自动识别这些类型的 PDF,因此你可以像其他任何页面一样突出显示、复制和搜索文本,并使用屏幕阅读器读取它们。
光學字符識別 (OCR) 技术的集成彻底改变了视力障碍者或喜欢使用屏幕阅读器访问内容的个人使用 PDF 文件的方式。以前,扫描的 PDF 文件本质上对屏幕阅读器来说是无法访问的,因为它们被视为图像而不是机器可读的文本。这意味着有视觉障碍的人无法阅读、搜索或与扫描 PDF 文件中的内容交互。
通过 OCR 技术,Chrome 现在可以自动分析扫描的 PDF,识别文件中的文本,并将其转换为机器可读格式。此过程使屏幕阅读器可以读取 PDF 中的文本,从而使视力障碍者像任何其他数字文档一样访问和使用这些文件。
OCR 集成的优点是多方面的:
- **增强的可访问性:**OCR 使以前无法访问的扫描 PDF 文件可供使用屏幕阅读器的人访问。这为无法独立访问扫描文档的个人打开了一个充满可能性的世界。
- **改进的用户体验:**OCR 使用户可以与扫描的 PDF 文件以与任何其他数字文档相同的方式进行交互。他们可以突出显示文本、复制部分和搜索特定单词或短语,从而增强他们的阅读和研究体验。
- **更高的效率:**OCR 消除了手动转录扫描 PDF 文件中的文本的需要。这节省了时间和精力,使用户可以专注于手头的任务,而不是努力访问信息。
总而言之,在 Chrome 中集成 OCR 技术是一项重大进步,它可以让视力障碍者更轻松地访问 PDF 文件。通过使以前无法访问的文档可搜索、可读和互动,Chrome 正在帮助弥合阅读和学习方面面临挑战的个人之间的数字鸿沟。
Chrome 瀏覽器整合 OCR 技術,為視障者帶來了極大的便利。過去,掃描的 PDF 文件對於螢幕閱讀器來說是無法讀取的,因為它們被視為圖像而非文字。這使得視障者無法閱讀、搜尋或與 PDF 文件中的內容互動。
現在,透過 OCR 技術,Chrome 能夠自動分析掃描的 PDF 文件,辨識其中的文字,並將其轉換為機器可讀的格式。這使得螢幕閱讀器可以讀取 PDF 文件中的文字,讓視障者能夠像其他任何數碼文件一樣,輕鬆地使用這些文件。
OCR 技術的優點包括:
- 提升可及性: OCR 技術讓原本無法讀取的掃描 PDF 文件,現在可以透過螢幕閱讀器來存取。這為無法獨立存取掃描文件的視障者,開啟了全新的世界。
- 改善使用者體驗: OCR 技術讓使用者可以像操作其他數碼文件一樣,與掃描的 PDF 文件互動。他們可以標記文字、複製段落、搜尋特定單字或詞語,提升閱讀和研究的效率。
- 提高效率: OCR 技術消除了手動轉錄掃描 PDF 文件中文字的需求。這節省了時間和精力,讓使用者可以更專注於手頭的任務,而不是費力地存取資訊。
總而言之,Chrome 瀏覽器整合 OCR 技術是一項重大的進步,它讓視障者能夠更輕鬆地存取 PDF 文件。透過將原本無法讀取的文檔變得可搜尋、可讀取和可互動,Chrome 正在幫助彌合面臨閱讀和學習挑戰的視障者之間的數碼鴻溝。
使用页面缩放轻松阅读
頁面縮放現在可讓你在 Android 的 Chrome 中增加你看到的文字大小,而不會影響網頁佈局或你的瀏覽體驗 — 就像它在 Chrome 桌面上的工作方式一樣。你可以自定義你要放大多少,並輕鬆地將首選項應用於你訪問的所有頁面或僅特定頁面。
页面缩放功能可以改变视力较差或喜欢更大文本的清晰度,以便更容易地阅读的个人。通过允许用户在不影响网页布局的情况下调整文本大小,Chrome 确保文本在视觉上更加舒适、易于阅读,没有文本重叠或损坏格式的风险。
页面缩放功能具有以下优势:
- **改进的可读性:**页面缩放使用户可以调整他们所见文本的大小,这使得阅读更容易、更愉快。这对于视力较差、有阅读障碍或其他视力障碍的人特别有用。
- **增强的舒适度:**页面缩放使用户可以自定义文本大小,以满足他们的个人偏好和视觉要求。这有助于减少眼睛疲劳,并使更长时间内容的阅读更加舒适。
- **保留布局:**与简单地缩放整个网页不同,页面缩放仅允许用户增大或减小文本大小,同时保持原始布局的完整性。这确保了网页易于导航,并且所有元素都按预期放置。
- **灵活的自定义:**页面缩放提供了广泛的自定义选项,允许用户微调文本大小,以满足他们的特定需求。用户可以选择预定义的缩放级别或输入自定义值,并将其首选项应用于所有网页或仅特定网站。
要开始使用此功能,只需点击 Chrome 右上角的三个点菜单,然后设置你的缩放首选项。