グローバルアクセシビリティアウェアネスデー(GAAD)を記念して、AndroidとChrome向けの最新アップデートと、エコシステム向けの新しいリソースをご紹介できることを嬉しく思います。人工知能の進歩は、私たちの世界をますますアクセシブルにしています。本日、グローバルアクセシビリティアウェアネスデーを記念して、AndroidとChromeの製品に新しいアップデートを導入し、開発者向けの音声認識ツール構築のための新しいリソースを追加します。
人工知能によるAndroidの更なる革新
Google AIとGeminiの最高の機能を、視覚および聴覚に合わせてカスタマイズされたコアモバイルエクスペリエンスに統合することで、私たちの取り組みを強化しています。
GeminiとTalkBackによる詳細情報の取得
昨年、Geminiの機能をAndroidのスクリーンリーダーTalkBackに導入し、目の不自由な方や視覚障碍者の方に、代替テキストがない場合でも、AIが生成した画像の説明を提供しました。本日、このGeminiの統合を拡張し、ユーザーが質問をしたり、画像に関する回答を得たりできるようにしています。
これは、友人が新しいギターの写真を送ってきたときに、その説明を受け取り、ブランドや色、さらには画像に何が写っているかなどについて質問できることを意味します。また、画面全体の説明を取得したり、質問をしたりすることもできます。お気に入りのショッピングアプリで最新のセール品を購入しているときに、商品の素材や割引の有無についてGeminiに質問できます。
より具体的には、このアップデートはGeminiの強力な機能を活用することで、画像の説明を前例のないレベルに引き上げます。ユーザーは静的な説明に限定されず、画像とやり取りし、特定の質問をして、詳細な回答を得ることができます。たとえば、ユーザーは歴史的建造物の写真をアップロードして、建築様式、建設年、その他の関連する詳細について質問できます。Geminiのインテリジェントな処理能力は、画像を解析し、関連情報を抽出し、理解しやすい形式で包括的な応答を提供します。
さらに、GeminiとTalkBackの統合は、単純な画像認識を超えています。デバイスに表示される情報に関する質問をユーザーができるように、画面コンテンツにまで拡張されています。複雑なWebページを閲覧したり、使い慣れないアプリケーションを使用したりするときに問題が発生した場合は、TalkBackを有効にして、Geminiに明確化またはガイダンスを求めることができます。Geminiは画面コンテンツを分析し、重要な要素を特定し、明確かつ簡潔な方法で説明または指示を提供します。このインタラクティブなアプローチにより、視覚障碍のあるユーザーは、これまでになく高い自信と自律性を持ってデジタル世界をナビゲートできます。
字幕の向こう側にある感情の理解
表現力豊かな字幕を使用すると、携帯電話はほとんどのアプリで音声を含むものすべてにリアルタイムの字幕を提供できます。これは、AIを使用して誰かが言ったことをキャプチャするだけでなく、その話し方までもキャプチャします。人々が自分自身を表現する方法の1つは、単語の音を伸ばすことだとわかっています。そのため、表現力豊かな字幕に新しい持続時間機能を追加しました。これにより、スポーツアナウンサーが「amaaazing shot」と叫んでいるときや、ビデオメッセージが「no」ではなく「nooooo」であるときを知ることができます。また、より多くのサウンドラベルも受信されるため、誰かが口笛を吹いたり、咳払いをしたりしていることを知ることができます。この新しいバージョンは、Android 15以降を実行しているデバイスで、米国、英国、カナダ、オーストラリアで英語で利用できるようになりました。
Expressive Captionsは、微妙な声のトーンの変化、話す速度、および音のヒントをキャプチャすることにより、字幕体験に革命をもたらします。「良い」という言葉を使って、同意、興奮、または皮肉を表現することができます。従来の字幕は単語のみを記録できますが、Expressive Captionsは隠された感情を解読し、テキストのヒントを通じて視聴者に伝えます。たとえば、ため息は欲求不満や疲労を意味し、くすくす笑いは娯楽や幸福を意味する可能性があります。これらの非言語的なヒントを含めることで、Expressive Captionsは、聴覚に障碍のある人、または視覚補助に頼ることを好む人の視聴体験に深みと背景を追加できます。
さらに、Expressive Captionsの継続時間機能は、現実感とエンゲージメントの別のレイヤーを追加します。単語のストレッチと延長を正確に反映することにより、字幕は話者の感情的な強さと重要性を伝えます。長々とした「いや!」は、簡潔な「いいえ」よりも多くの抵抗を伝え、伸びのある「素晴らしい」は興奮と畏敬の念を呼び起こします。細部へのこだわりにより、字幕がより魅力的になり、情報が多くなり、共鳴的になり、視聴者と消費するコンテンツとの間のより深いつながりを促進します。
感情的な強化に加えて、Expressive Captionsには、口笛、笑い声、拍手などのさまざまなサウンドキューを識別して転写するためのサウンドラベルも含まれています。これらのラベルは字幕にコンテキストを追加し、視聴者は聴覚が制限されていても、オーディオ環境を完全に把握できます。主要なサウンド要素を識別することで、Expressive Captionsを使用すると、視聴者は消費するコンテンツに参加して理解できるようになり、聴覚情報と視覚情報の間のギャップを埋めます。
世界中の音声認識の改善
2019年、私たちはユーフォニアプロジェクトを開始し、標準的ではない音声を持つ人々にとって音声認識をより利用しやすくする方法を見つけました。現在、私たちは世界中の開発者や組織を支援し、この取り組みをより多くの言語的および文化的背景に取り入れています。
新しい開発者向けリソース
グローバルツールのエコシステムを改善するために、ユーフォニアプロジェクトのGitHubページを通じて、開発者向けにオープンソースのリポジトリを提供しています。研究用のパーソナライズされたオーディオツールを開発したり、さまざまな音声パターンに合わせてモデルをトレーニングしたりできるようになりました。
Googleはオープンソースリポジトリを提供することにより、開発者、研究者、および組織がユーフォニアプロジェクトの結果を活用し、貢献できるようにします。この共同アプローチにより、標準的ではない音声の音声認識テクノロジーの進歩が加速し、その可用性がさまざまな言語的および文化的背景に拡張されることが保証されます。コード、データセット、およびモデルを共有することにより、Googleは革新と実験のコミュニティを育成し、支援技術の画期的なソリューションを作成します。
さらに、開発者向けリソースの利用可能性により、個人または組織は、特定のニーズに合わせて音声認識ツールをカスタマイズできます。研究者はこれらのリソースを利用して、さまざまな音声パターンを調査し、さまざまな話し方を正確に転写できるアルゴリズムを開発できます。スタートアップ企業または中小企業は、それをアプリケーションまたはサービスと統合して、包括性とアクセシビリティを向上させることができます。Googleは、音声認識テクノロジーへの参入障壁を下げることにより、革新を実現し、音声障碍のある人々が世界とコミュニケーションをとったり、やり取りしたりできるようにする、有意義なソリューションを開発できるようにします。
アフリカの新しいプロジェクトのサポート
今年初め、私たちはGoogle.orgと提携して、ユニバーシティ・カレッジ・ロンドンにデジタル言語包含センター(CDLI)を設立するための支援を提供しました。CDLIは、10のアフリカ言語のオープンソースデータセットを作成し、新しい音声認識モデルを構築し、この分野の組織と開発者のエコシステムをサポートし続けることにより、アフリカの非英語話者の音声認識テクノロジーを改善することに取り組んでいます。
デジタル言語包含センター(CDLI)に対するGoogle.orgのサポートは、アフリカの言語テクノロジーギャップを埋めるという同社の取り組みを証明しています。Googleは、CDLIに資金とリソースを提供することにより、アフリカ大陸でより正確で包括的な音声認識モデルの開発を支援しています。CDLIは、アフリカ言語の大規模なオープンデータセットの作成に焦点を当てています。これは、強力な音声認識システムをトレーニングするための重要なステップです。デジタル言語包含センター(CDLI)は、アフリカ言語の音声サンプルを収集して注釈を付けることにより、言語やアクセントに関係なく、アフリカの人々の音声を正確に転写できる音声認識テクノロジーの未来に向けた基盤を築きつつあります。
データセットの作成に加えて、デジタル言語包含センター(CDLI)は、アフリカ言語の独自の言語的特徴に合わせて特別に設計された新しい音声認識モデルの構築にも取り組んでいます。これらのモデルは、英語やその他の広く研究されている言語とは異なる、アフリカ言語の音調変化、音声パターン、および語彙を考慮に入れています。CDLIは、音声認識モデルをアフリカ言語の複雑さに合わせてカスタマイズすることにより、アフリカの人々がアクセスして使用できる音声認識テクノロジーの精度と信頼性を向上させています。
最も重要なこととして、デジタル言語包含センター(CDLI)は、アフリカ大陸の組織と開発者のエコシステムのサポートに重点を置いています。CDLIは、トレーニングプログラム、メンターシップの機会、および財源を提供して、熟練した専門家のコミュニティを構築するのに役立ちます。CDLIは、アフリカの言語テクノロジーの進歩を促進することにより、アフリカの人々のための経済的機会を創出し、強力で包括的なデジタル未来を構築しています。
学生向けのアクセシビリティオプションの拡張
アクセシビリティツールは、特に障碍のある学生に役立ちます。たとえば、顔のジェスチャーを使用してChromebookをナビゲートしたり、リーディングモードを使用して読書体験をカスタマイズしたりできます。
現在、Chromebookで大学評議会のBluebookテストアプリ(学生がSATやほとんどのAP試験を受けることができるアプリ)を使用すると、Googleの組み込みアクセシビリティ機能がすべて利用できます。これには、ChromeVoxスクリーンリーダーや音声入力、および大学評議会独自のデジタルテストツールが含まれます。
以下に、アクセシビリティ機能がさまざまな障碍のある学生の学習体験をどのように変えることができるかを示します。
視覚障碍のある学生は、ChromeVoxスクリーンリーダーを利用して、画面上のテキストを口頭で読み上げることができます。これにより、テキストを見ることができなくても、書かれたコンテンツにアクセスできます。ChromeVoxは、画像、ボタン、リンクに関する説明を提供することもできるため、学生はWebサイトやアプリケーションをスムーズにナビゲートできます。
運動障碍のある学生は、顔の表情(笑顔や眉を上げるなど)を使用してChromebookをナビゲートできる顔のコントロール機能が非常に役立つ場合があります。このハンズフリーコントロール方法は、従来のキーボードやマウスを使用できない学生にとって、ゲームチェンジャーとなる可能性があります。
学習障碍のある学生は、リーディングモードを使用して読書体験をカスタマイズできます。リーディングモードを使用すると、学生はフォントサイズ、色、間隔を調整して、テキストを読みやすくすることができます。画像や広告などの気を散らすものを排除することもできるため、学生はコンテンツに集中できます。
全体として、Googleのアクセシビリティツールは、障碍のある学生に可能性に満ちた世界を開きます。カスタマイズされたアクセスとサポートを提供することにより、これらのツールを使用すると、学生は障碍を克服し、可能性を最大限に発揮し、学業で成功することができます。
Chromeをよりアクセスしやすくする
毎日20億人以上がChromeを使用しており、私たちは常にブラウザをより使いやすく、誰でもライブキャプションやスクリーンリーダーユーザー向けの画像の説明などの機能を利用できるようにすることに取り組んでいます。
ChromeでのPDFへのより簡単なアクセス
以前は、デスクトップ版ChromeブラウザでスキャンしたPDFを開いた場合、スクリーンリーダーを使用して操作することはできませんでした。光学式文字認識(OCR)により、Chromeはこれらの種類のPDFを自動的に認識するようになり、他のページと同様にテキストを強調表示、コピー、検索したり、スクリーンリーダーで読み取ったりできます。
光学式文字認識(OCR)テクノロジーの統合は、視覚障碍のある人やスクリーンリーダーを使用してコンテンツにアクセスすることを好む個人がPDFファイルを使用する方法に革命をもたらしました。以前は、スキャンされたPDFファイルは、機械可読テキストではなく画像として扱われるため、スクリーンリーダーにとっては基本的にアクセスできませんでした。これは、視覚障碍のある人がスキャンされたPDFファイル内のコンテンツを読んだり、検索したり、操作したりできないことを意味していました。
OCRテクノロジーを使用すると、ChromeはスキャンされたPDFを自動的に分析し、ファイル内のテキストを識別し、機械可読形式に変換できるようになりました。このプロセスにより、スクリーンリーダーはPDF内のテキストを読み取ることができ、視覚障碍のある人は他のデジタルドキュメントと同じようにこれらのファイルにアクセスして使用できます。
OCR統合の利点は多岐にわたります。
- **アクセシビリティの向上:**OCRにより、以前はアクセスできなかったスキャンされたPDFファイルをスクリーンリーダーを使用する人がアクセスできるようになります。これにより、スキャンされたドキュメントに個別にアクセスできなかった個人の可能性に満ちた世界が開かれます。
- **ユーザーエクスペリエンスの向上:**OCRを使用すると、ユーザーはスキャンされたPDFファイルを他のデジタルドキュメントと同じように操作できます。テキストの強調表示、セクションのコピー、特定の単語やフレーズの検索を行うことができるため、読書と調査の体験が向上します。
- **効率の向上:**OCRにより、スキャンされたPDFファイル内のテキストを手動で転記する必要がなくなります。これにより、時間と労力が節約され、ユーザーは情報にアクセスするために苦労するのではなく、目の前のタスクに集中できます。
要するに、ChromeへのOCRテクノロジーの統合は、視覚障碍のある人がPDFファイルにアクセスしやすくするための大きな進歩です。Chromeは、以前はアクセスできなかったドキュメントを検索可能、読み取り可能、対話的にすることで、読書や学習に課題を抱える個人間のデジタルデバイドを埋めるのに役立っています。
ページズームを使用した簡単な読み取り
ページズームを使用すると、Android版Chromeで表示されるテキストのサイズを、Webページのレイアウトやブラウジングエクスペリエンスに影響を与えることなく拡大できるようになりました。これは、Chromeデスクトップでの動作と同様です。拡大する量