Google 近期為其 Android 作業系統和 Chrome 瀏覽器推出了一系列創新的 AI 驅動和以輔助功能為焦點的功能。一個特別值得注意的增強功能是將 Gemini 的智慧整合到 TalkBack 中,TalkBack 是 Android 內建的螢幕閱讀器。此更新讓使用者能夠利用 AI 來理解圖像內容並更有效地導航螢幕。
TalkBack 的 AI 驅動圖像理解
去年,Google 採取了重要的一步,將 Gemini 的功能納入 TalkBack 中,讓有視覺障礙的人可以訪問 AI 生成的圖像描述,即使在沒有 Alt 文字的情況下也是如此。在此基礎之上,使用者現在可以更深入地與圖像互動,提出問題並接收關於圖像內容的深刻見解的回應。
想想看,如果朋友傳給你一張他們新吉他的照片。透過強化的 TalkBack,你不僅可以收到樂器的描述,還可以詢問它的品牌和顏色,從而全面了解圖像。
此外,此功能還擴展到整個手機螢幕。想像一下,你正在瀏覽一個線上購物應用程式。你現在可以向 Gemini 詢問特定商品的材質,或目前是否有任何折扣,從而簡化你的購物體驗並在你指尖提供有價值的資訊。
具表現力的字幕:捕捉細微差別和情感
Google 還宣布更新 Expressive Captions,Android 的即時字幕功能。透過利用 AI 的力量,Expressive Captions 不僅可以轉錄所說的內容,還可以捕捉透過語音傳達的細微差別和情感。
Google 認識到人們經常透過延長他們單字的聲音來表達自己,因此在 Expressive Captions 中引入了一種新穎的持續時間功能。此功能讓使用者可以辨別口語單字背後的強調和情感。例如,你將能夠區分體育播報員驚呼「amaaazing shot」與某人簡單地說「nooooo」來表達強烈失望之間的區別。
除了持續時間之外,此更新還引入了聲音的新標籤,例如吹口哨或清喉嚨,從而提供更完整和資訊豐富的字幕體驗。
更新後的 Expressive Captions 功能目前在美國、英國、加拿大和澳大利亞以英語提供給運行 Android 15 及更高版本的設備。
Chrome 上增強的 PDF 輔助功能
Google 還致力於改善 Chrome 瀏覽器中 PDF 的輔助功能。以前,使用者無法在桌面的 Chrome 瀏覽器上使用螢幕閱讀器與掃描的 PDF 互動。但透過此更新,Chrome 現在會自動識別這些類型的 PDF,讓使用者可以像在任何其他網頁上一樣,突出顯示、複製和搜尋文字。此功能由光學字元辨識 (OCR) 技術的整合提供支援。
此增強功能顯著提高了掃描文件的輔助功能,使其對於有視覺障礙的人來說更易於使用。
Android 版 Chrome 上可自定義的頁面縮放
Android 版 Chrome 的另一個值得注意的補充是增強的頁面縮放功能。此功能讓使用者可以在不中斷整體版面的情況下增加網頁上文字的大小。
使用者可以根據自己的喜好自定義縮放級別,並將其應用於他們訪問的所有網頁或選擇特定的頁面。可以透過 Chrome 右上角的三點選單訪問此功能。
深入了解新功能
這些功能的推出標誌著 Google 在持續致力於輔助功能和 AI 驅動的創新方面向前邁出了重要一步。透過將 AI 無縫整合到現有工具中並引入新功能,Google 正在讓使用者能夠以更直觀和可訪問的方式與技術互動。
輔助功能中 AI 的潛力
將 Gemini 整合到 TalkBack 中突顯了 AI 在增強視覺障礙人士輔助功能方面的巨大潛力。透過提供 AI 生成的圖像描述並讓使用者可以詢問有關其內容的問題,Google 正在釋放一種新的獨立性和資訊訪問權限。
這項技術在 Alt 文字不可用或不足的情況下尤其有價值,讓使用者可以更深入地了解視覺內容。
具表現力的字幕:超越簡單轉錄
更新後的 Expressive Captions 功能超越了簡單的轉錄,捕捉了透過語音傳達的細微差別和情感。此功能對於聽障人士或聽力困難的人來說尤其有益,因為它提供了在傳統字幕中可能遺漏的其他上下文和資訊。
包含持續時間和聲音標籤進一步提高了字幕的準確性和資訊性,使其成為更有價值的溝通工具。
簡化 PDF 輔助功能
Chrome 中增強的 PDF 輔助功能解決了視覺障礙人士長期面臨的挑戰。透過自動識別掃描的 PDF 並讓螢幕閱讀器與它們互動,Google 正在使這些文件更易於訪問和使用。
此更新在當今的數位時代尤為重要,因為許多文件都以 PDF 格式分發。
頁面縮放:可自定義的檢視體驗
Android 版 Chrome 上可自定義的頁面縮放功能讓使用者可以更好地控制他們的檢視體驗。透過讓使用者調整文字大小而不影響網頁版面,Google 正在滿足廣泛的視覺偏好和需求。
此功能對於低視力人士或那些喜歡以較大尺寸閱讀文字的人來說尤其有益。
Google 對創新的持續承諾
這些新功能展示了 Google 對創新和輔助功能堅定不移的承諾。透過不斷突破技術的界限,Google 正在為每個人創造一個更具包容性和可訪問性的世界。
將 AI 整合到現有工具中以及引入新功能正在為一個未來鋪平道路,在該未來中,技術讓個人有能力克服挑戰並充分發揮他們的潛力。
輔助功能的未來
Google 宣布的進展讓我們得以一窺輔助功能的未來。隨著 AI 技術的不斷發展,我們可以期望看到更多的創新解決方案來滿足殘疾人士的需求。
從可以導航物理世界的 AI 驅動助手到可以滿足個人需求的個性化學習體驗,可能性是無限的。
Google 在塑造未來中的作用
Google 在塑造輔助功能的未來中發揮著關鍵作用。透過投資於研究和開發、與輔助功能專家合作以及將輔助功能納入其產品和服務中,Google 正在為行業樹立標準。
Google 對輔助功能的承諾激勵了其他公司和組織優先考慮包容性並為每個人創造一個更易於訪問的世界。
實際應用和優點
上面詳細描述的功能轉化為使用者在各種場景中的有形優勢。
增強社交互動
想像一下收到朋友發來的一張照片。借助 AI 驅動的 TalkBack,視覺障礙使用者可以與圖像互動,提出澄清問題以充分參與共享體驗。這促進了更深入的社交聯繫。
改善線上購物體驗
對於某些人來說,導航電子商務平台可能具有挑戰性。直接從螢幕上查詢 Gemini 關於產品詳細資訊的能力消除了歧義,從而做出更明智的購買決策。
實現資訊訪問
增強的 PDF 輔助功能使人們更容易使用掃描文件中包含的重要訊息,使視覺障礙人士能夠充分參與公民和專業生活。
個性化網路
適應性強的頁面縮放為特定的視覺需求提供了客製化的解決方案。它滿足了不同的使用者偏好,使所有人的網路瀏覽更加容易。
技術基礎
了解這些升級系統中的技術可以更深入地了解上面列出的功能。
AI 驅動的圖像分析
將 Gemini AI 模型整合到 TalkBack 中涉及開發用於準確圖像描述和問題解決的演算法。複雜的深度學習過程在後台實施,以提供相關的解決方案。
富表現力的字幕細微差別
富表現力的字幕功能需要自然語音處理能力。透過結合先進的語音轉文字翻譯方法,以及持續時間和音調識別,可以更準確地捕捉人類語音中涉及的細微差別。
最佳化的 PDF 處理
Chrome 針對 PDF 文件的新處理能力使用光學字元辨識 (OCR) 用於掃描的文件。因此,即使是無法搜尋的 PDF 圖像也可以直接分析。為了尋找、複製和閱讀文字,瀏覽器會從 OCR 結果建立索引和文字圖層。
前端彈性
頁面縮放功能突顯了 Google 對客製化的承諾。現代網路設計理念被應用於靈活的縮放,因此,在各種設備使用 Android 的消費者可以自定義他們的體驗以獲得更好的可見性。這些創新為更以使用者為中心的網路瀏覽體驗奠定了基礎。
更廣泛的影響
這些功能代表的不僅僅是小更新。它們標誌著技術與人(尤其是身心障礙人士)互動方式的革命性轉變。
透過技術賦權
透過最大限度地減少身心障礙人士遇到的障礙,Google 使他們能夠更積極地參與生活的多個方面,包括教育、商業和社交。
促進數位包容性
Google 透過採取行動實現技術可用性方面的公平性,從而縮小了數位差距。該公司的努力證明了其對數位公平性的承諾。
促進創新
Google 對輔助功能的奉獻精神促進了各個領域的新發展。AI 技術和輔助功能的開發鼓勵了整個市場更多的創造力。
培養一個更好的社群
使技術易於訪問可以培養一種優先考慮使用者體驗、社群中的包容性和多元性的文化。這建立了一個合作的數位環境。
最終,Google 的努力證明了一種將技術轉變為社會力量的努力,確保所有人都能從進步中受益,而不僅僅是某些群體。這種態度為一個更受歡迎和技術上更複雜的未來奠定了框架。
注意事項和未來方向
雖然這些增強功能代表了重大進步,但仍有改進和擴展的途徑。
提高 AI 準確性
可以透過在更大和更多樣化的資料集上訓練 Gemini 模型來進一步提高 AI 生成的圖像描述和回應的準確性。持續改進對於確保提供的資訊準確且相關至關重要。
擴展語言支援
以更多語言提供富表現力的字幕將顯著擴大其覆蓋範圍和影響力,使其可供更廣泛的全球受眾使用。
解決邊緣案例
需要進一步研究以解決邊緣案例並確保這些功能在各種情況下都能可靠地運行。這包括使用不同類型的圖像、口音和 PDF 文件進行測試。
與其他平台整合
將這些輔助功能與其他平台和服務整合將創造更無縫和一致的使用者體驗。例如,將 TalkBack 與社交媒體應用程式整合將使使用者能夠更有效地與視覺內容互動。
透過不斷努力改進和擴展,Google 可以鞏固其作為輔助功能領導者的地位,並為每個人創造一個更具包容性的數位世界。