글로벌 접근성 인식의 날(GAAD)을 기념하여 Android 및 Chrome의 새로운 업데이트와 생태계를 위한 새로운 리소스를 소개하게 되어 기쁩니다. 인공지능의 발전은 우리 세계를 점점 더 접근하기 쉽게 만들고 있습니다. 오늘, 글로벌 접근성 인식의 날을 기념하기 위해 우리는 Android 및 Chrome 제품에 대한 새로운 업데이트를 출시하고 개발자가 음성 인식 도구를 구축할 수 있도록 새로운 리소스를 추가하고 있습니다.
AI 기반 Android 혁신
우리는 Google AI와 Gemini의 최고의 기능을 시각 및 청각 맞춤형 핵심 모바일 환경에 통합하는 작업을 강화하고 있습니다.
Gemini와 TalkBack을 통한 모든 세부 정보 획득
작년에 우리는 Gemini의 기능을 Android의 화면 판독기 TalkBack에 도입하여 맹인 또는 시각 장애인에게 대체 텍스트가 없더라도 AI 생성 이미지 설명을 제공했습니다. 오늘날 우리는 이러한 Gemini 통합을 확장하여 사람들이 이미지에 대한 질문을 하고 답변을 얻을 수 있도록 하고 있습니다.
이는 친구가 새 기타 사진을 보낼 때 브랜드와 색상, 이미지에 포함된 다른 내용에 대한 후속 질문을 포함한 설명을 받을 수 있음을 의미합니다. 이제 사람들은 설명과 전체 화면에 대한 질문을 할 수도 있습니다. 따라서 좋아하는 쇼핑 앱에서 최신 프로모션 항목을 쇼핑하는 경우 항목의 재료 또는 할인이 있는지 Gemini에 문의할 수 있습니다.
보다 구체적으로 말하면, 이 업데이트는 Gemini의 강력한 기능을 활용하여 이미지 설명을 전례 없는 수준으로 끌어올립니다. 사용자는 더 이상 정적 설명에 국한되지 않습니다. 특정 질문을 하고 세부적인 답변을 얻으면서 이미지와 상호 작용할 수 있습니다. 예를 들어 사용자는 역사적인 랜드마크 사진을 업로드하고 건축 스타일, 건설 연도 또는 기타 관련 세부 정보에 대해 문의할 수 있습니다. Gemini의 지능형 처리 기능은 이미지를 구문 분석하고 관련 정보를 추출하여 이해하기 쉬운 형식으로 포괄적인 응답을 제공합니다.
또한 Gemini와 TalkBack의 통합은 단순한 이미지 인식을 넘어 확장됩니다. 또한 화면 콘텐츠로 확장되어 사용자가 장치에 표시된 정보에 대한 질문을 할 수 있습니다. 복잡한 웹 페이지를 탐색하거나 익숙하지 않은 앱을 사용하는 데 어려움이 있는 경우 TalkBack을 활성화하고 Gemini에 설명을 요청하기만 하면 됩니다. Gemini는 화면 콘텐츠를 분석하고 주요 요소를 식별하며 명확하고 간결한 방식으로 설명이나 지침을 제공합니다. 이 대화형 접근 방식은 시각 장애가 있는 사용자가 전례 없는 자신감과 독립성으로 디지털 세계를 탐색할 수 있도록 지원합니다.
자막 뒤에 숨겨진 더 많은 감정 이해
표현 자막을 사용하면 휴대폰이 휴대폰의 대부분 앱에서 소리가 나는 모든 내용에 대한 실시간 자막을 제공할 수 있습니다. AI를 사용하여 누군가가 말하는 내용뿐만 아니라 말하는 방식까지 캡처할 수 있습니다. 사람들은 단어를 발음하는 방식으로 자신을 표현한다는 것을 알고 있습니다. 따라서 스포츠 방송인이 “amaaazing shot”이라고 외치는 시점이나 비디오 메시지가 “no”가 아닌 “nooooo”인지 알 수 있도록 표현 자막에 새로운 기간 기능을 개발했습니다. 또한 누군가가 휘파람을 불거나 목을 가다듬는 시점을 알 수 있도록 더 많은 사운드 라벨을 받게 됩니다. 이 새로운 버전은 Android 15 이상을 실행하는 장치에서 미국, 영국, 캐나다 및 호주에서 영어로 출시되고 있습니다.
Expressive Captions는 미묘한 어조 변화, 말하는 속도 및 음성 단서를 캡처하여 캡션 경험을 혁신합니다. 간단한 "좋아요"를 사용하여 동의, 흥분 또는 아이러니를 표현할 수 있다고 생각해 보세요. 기존 캡션은 단어만 기록하지만 Expressive Captions는 숨겨진 감정을 해독하고 텍스트 큐를 통해 청중에게 전달합니다. 예를 들어, 한숨은 좌절감이나 피로감을 나타낼 수 있고, 낄낄거림은 즐거움이나 행복을 나타낼 수 있습니다. 이러한 비언어적 단서를 포함함으로써 Expressive Captions는 청력 손실이 있거나 시각 보조에 의존하기를 좋아하는 사람들의 시청 경험에 깊이와 맥락을 더할 수 있습니다.
또한 Expressive Captions의 기간 기능은 사실감과 참여도를 한층 더 높입니다. 단어의 스트레칭과 확장을 정확하게 반영함으로써 캡션은 말하는 사람의 감정적 강도와 중요성을 전달합니다. 긴 "아니요!"는 간결한 "아니오"보다 더 많은 저항을 전달하고, 늘어진 "훌륭함"은 흥분과 경외심을 불러일으킵니다. 이러한 세부 사항에 대한 관심은 캡션을 더욱 매력적이고, 정보적이고, 공감적으로 만들어 청중이 소비하는 콘텐츠와 더 깊은 관계를 조성합니다.
감정 향상 외에도 Expressive Captions에는 휘파람, 웃음 및 박수와 같은 다양한 사운드 단서를 식별하고 전사하는 사운드 라벨이 포함되어 있습니다. 이러한 라벨은 캡션에 맥락을 추가하고 시청자가 청력이 제한되어 있더라도 오디오 환경을 완전히 파악할 수 있도록 합니다. 주요 사운드 요소를 식별함으로써 Expressive Captions는 시청자가 소비하는 내용에 참여하고 이해할 수 있도록 지원하여 청각 및 시각적 정보 간의 격차를 해소합니다.
전 세계 음성 인식 개선
2019년, 우리는 비표준 음성을 가진 사람이 음성 인식에 더 쉽게 접근할 수 있도록 만드는 방법을 찾기 위해 Euphonia 프로젝트를 시작했습니다. 이제 우리는 전 세계 개발자와 조직이 이 작업을 더 많은 언어와 문화적 배경으로 가져올 수 있도록 지원하고 있습니다.
새로운 개발자 리소스
전 세계 도구의 생태계를 개선하기 위해 Euphonia 프로젝트의 GitHub 페이지를 통해 개발자에게 오픈 소스 저장소를 제공하고 있습니다. 이제 연구를 위한 개인화된 오디오 도구를 개발하거나 다른 음성 패턴에 맞게 모델을 훈련할 수 있습니다.
오픈 소스 저장소를 제공함으로써 Google은 개발자, 연구원 및 조직이 Euphonia 프로젝트의 결과를 활용하고 기여할 수 있도록 지원합니다. 이 협업적 접근 방식은 비표준 음성을 위한 음성 인식 기술의 발전을 가속화하여 가용성이 다양한 언어 및 문화적 배경으로 확장될 수 있도록 보장합니다. 코드, 데이터 세트 및 모델을 공유함으로써 Google은 혁신 및 실험 커뮤니티를 육성하여 지원 기술에 대한 획기적인 솔루션을 만듭니다.
또한 개발자 리소스를 사용할 수 있게 되면 개인이나 조직이 특정 요구 사항에 맞게 음성 인식 도구를 사용자 지정할 수 있습니다. 연구원은 이러한 리소스를 활용하여 다양한 음성 패턴을 조사하고 다양한 말하기 방식을 정확하게 전사할 수 있는 알고리즘을 개발할 수 있습니다. 스타트업 또는 중소기업은 이를 애플리케이션이나 서비스에 통합하여 포괄성과 접근성을 향상시킬 수 있습니다. Google은 음성 인식 기술의 진입 장벽을 낮춤으로써 혁신을 실현하고 개발자가 연설 장애가 있는 사람이 세상과 소통하고 상호 작용할 수 있도록 지원하는 의미 있는 솔루션을 만들 수 있도록 지원합니다.
아프리카의 새로운 프로젝트 지원
올해 초 Google.org와 협력하여 런던 대학교 칼리지에 디지털 언어 포용 센터(CDLI)를 설립하는 데 도움을 주었습니다. CDLI는 10개의 아프리카 언어에 대한 오픈 소스 데이터 세트를 만들고, 새로운 음성 인식 모델을 구축하고, 해당 분야의 조직 및 개발자 생태계를 계속 지원함으로써 아프리카에서 영어를 사용하지 않는 사람들의 음성 인식 기술을 개선하는 데 전념하고 있습니다.
디지털 언어 포용 센터(CDLI)에 대한 Google.org의 지원은 아프리카 언어 기술 격차를 해소하려는 회사의 의지를 입증합니다. CDLI에 자금과 리소스를 제공함으로써 Google은 아프리카 대륙에서 더 정확하고 포괄적인 음성 인식 모델을 개발하는 데 도움을 주고 있습니다. CDLI는 아프리카 언어에 대한 대규모 오픈 데이터 세트를 만드는 데 주력하고 있는데, 이는 강력한 음성 인식 시스템을 훈련하는 데 중요한 단계입니다. 디지털 언어 포용 센터(CDLI)는 아프리카 언어의 음성 샘플을 수집하고 주석을 달아 언어 또는 억양에 관계없이 아프리카 사람들의 음성을 정확하게 전사할 수 있는 음성 인식 기술의 미래를 위한 기반을 마련하고 있습니다.
데이터 세트 생성 외에도 디지털 언어 포용 센터(CDLI)는 아프리카 언어의 고유한 언어적 특징에 맞게 특별히 설계된 새로운 음성 인식 모델을 구축하는 데 전념하고 있습니다. 이러한 모델은 종종 영어 및 기타 광범위하게 연구된 언어와 다른 아프리카 언어의 어조 변화, 음성 패턴 및 어휘를 고려합니다. Google은 음성 인식 모델을 아프리카 언어의 복잡성에 맞게 사용자 지정함으로써 음성 인식 기술의 정확성과 신뢰성을 향상시켜 아프리카 사람들이 액세스하고 사용할 수 있도록 지원합니다.
가장 중요한 것은 디지털 언어 포용 센터(CDLI)가 아프리카 대륙의 조직 및 개발자 생태계를 지원하는 데 중점을 두고 있다는 것입니다. CDLI는 숙련된 전문가 커뮤니티를 구축하는 데 도움이 되는 교육 프로그램, 멘토링 기회 및 재정적 리소스를 제공합니다. 아프리카 언어 기술의 발전을 촉진함으로써 CDLI는 아프리카 사람들을 위한 경제적 기회를 창출하고 강력하고 포괄적인 디지털 미래를 구축하고 있습니다.
학생을 위한 접근성 옵션 확장
접근성 도구는 장애 학생에게 특히 유용합니다. 얼굴 제어를 사용하여 얼굴 제스처로 Chromebook을 탐색하거나 읽기 모드를 사용하여 읽기 경험을 사용자 지정할 수 있습니다.
이제 대학 위원회의 Bluebook 테스트 앱(학생들이 SAT 및 대부분의 advanced placement 수업 시험을 치를 수 있는 곳)에서 Chromebook을 사용하는 경우 Google의 모든 내장 접근성 기능을 사용할 수 있습니다. 여기에는 ChromeVox 화면 판독기 및 받아쓰기, 대학 위원회 자체의 디지털 테스트 도구가 포함됩니다.
다음은 접근성 기능이 다양한 장애 학생의 학습 경험을 어떻게 바꿀 수 있는지 보여줍니다.
- 시각 장애가 있는 학생은 ChromeVox 화면 판독기를 활용하여 화면의 텍스트를 구두로 읽어 볼 수 있으므로 볼 수 없는 경우에도 쓰기 콘텐츠에 액세스할 수 있습니다. ChromeVox는 이미지, 버튼 및 링크에 대한 설명을 제공하여 학생들이 웹과 애플리케이션을 원활하게 탐색할 수 있도록 지원합니다.
- 운동 장애가 있는 학생은 미소 짓거나 눈썹을 올리는 것과 같은 얼굴 표정을 사용하여 Chromebook을 탐색할 수 있는 얼굴 제어의 얼굴 제어 기능이 매우 유용할 수 있습니다. 이 핸즈프리 제어 방법은 기존 방식으로 키보드나 마우스를 사용할 수 없는 학생에게 게임 체인저가 될 수 있습니다.
- 학습 장애가 있는 학생은 read 모드를 사용하여 읽기 경험을 사용자 지정할 수 있습니다. 읽기 모드를 사용하면 학생들이 글꼴 크기, 색상 및 간격을 조정하여 텍스트를 더 쉽게 읽을 수 있습니다. 또한 이미지 및 광고와 같은 산만함을 제거하여 학생들이 콘텐츠에 집중할 수 있도록 지원합니다.
전반적으로 Google의 접근성 도구는 장애 학생에게 가능성이 가득한 세상을 열어줍니다. Google은 개인화된 액세스 및 지원을 제공함으로써 학생들이 학문적 성공을 방해하는 장벽을 극복하고 잠재력을 최대한 발휘할 수 있도록 지원합니다.
Chrome에 대한 접근성 개선
매일 20억 명이 넘는 사람들이 Chrome을 사용하고 있으며, 우리는 항상 브라우저를 더 쉽게 사용할 수 있도록 노력하고 있으며 모든 사람이 실시간 캡션, 화면 판독기 사용자를 위한 이미지 묘사와 같은 기능을 사용할 수 있도록 노력하고 있습니다.
Chrome에서 PDF에 더 쉽게 액세스 가능
이전에는 데스크톱 Chrome 브라우저에서 스캔한 PDF를 열면 화면 판독기를 사용하여 상호 작용할 수 없었습니다. 이제 광학 문자 인식(OCR) 덕분에 Chrome은 이러한 유형의 PDF를 자동으로 인식하므로 다른 페이지와 마찬가지로 텍스트를 강조 표시하고 복사하고 검색하고 화면 판독기를 사용하여 읽을 수 있습니다.
광학 문자 인식(OCR) 기술의 통합은 시각 장애가 있거나 화면 판독기를 사용하여 콘텐츠에 액세스하기를 좋아하는 개인이 PDF 파일을 사용하는 방식을 혁신했습니다. 이전에는 스캔한 PDF 파일이 기계로 읽을 수 있는 텍스트가 아닌 이미지로 취급되었기 때문에 화면 판독기에서 본질적으로 액세스할 수 없었습니다. 즉, 시각 장애가 있는 사람은 스캔한 PDF 파일의 콘텐츠를 읽거나 검색하거나 상호 작용할 수 없었습니다.
이제 OCR 기술을 통해 Chrome은 스캔한 PDF를 자동으로 분석하고 파일의 텍스트를 식별한 다음 기계로 읽을 수 있는 형식으로 변환할 수 있습니다. 이 프로세스를 통해 화면 판독기는 PDF의 텍스트를 읽을 수 있으므로 시각障害가 있는 사람도 다른 디지털 문서와 마찬가지로 이러한 파일에 액세스하고 사용할 수 있습니다.
OCR 통합의 장점은 여러 가지입니다.
- 향상된 액세스 가능성: OCR을 통해 이전에는 액세스할 수 없었던 스캔한 PDF 파일을 화면 판독기를 사용하는 사람이 액세스할 수 있습니다. 이를 통해 스캔한 문서에 독립적으로 액세스할 수 없는 개인에게 가능성이 열리는 세상이 열립니다.
- 향상된 사용자 경험: OCR을 사용하면 사용자가 다른 디지털 문서와 동일한 방식으로 스캔한 PDF 파일과 상호 작용할 수 있습니다. 텍스트를 강조 표시하고, 섹션을 복사하고, 특정 단어나 구문을 검색할 수 있으므로 읽기 및 연구 경험이 향상됩니다.
- 효율성 향상: OCR은 스캔한 PDF 파일에서 텍스트를 수동으로 전사할 필요성을 제거합니다. 이렇게 하면 시간과 노력을 절약할 수 있으므로 사용자는 정보에 액세스하기 위해 노력하는 대신 당면한 작업에 집중할 수 있습니다.
요약하면 Chrome에서 OCR 기술을 통합하는 것은 시각 장애가 있는 사람이 PDFファイル에 더 쉽게 액세스할 수 있도록 지원하는 중요한 발전입니다. 이전에 액세스할 수 없었던 문서를 검색 가능하고 읽을 수 있으며 상호 작용할 수 있도록 지원함으로써 Chrome은 독서 및 학습에 어려움을 겪고 있는 개인 간의 디지털 격차를 해소하는 데 도움을 주고 있습니다.
페이지 줌으로 쉽게 읽기
페이지 줌을 사용하면 Android의 Chrome에서 웹 페이지 레이아웃이나 브라우징 경험에 영향을 주지 않고 표시되는 텍스트 크기를 늘릴 수 있습니다. 텍스트 크기는 Chrome 데스크톱에서 작동하는 방식과 같습니다. 확대율을 사용자 지정하고 기본 설정을 방문하는 모든 페이지 또는 특정 페이지에만 쉽게 적용할 수 있습니다.
페이지 줌 기능은 시력이 좋지 않거나 더 쉽게 읽을 수 있도록 선명도를 위해 더 큰 텍스트를 선호하는 개인에게 변화를 가져올 수 있습니다. Google은 사용자가 웹 페이지 레이아웃에 영향을 주지 않고 텍스트 크기를 조정할 수 있도록 지원함으로써 Chrome이 시각적으로 더 편안하고 읽기 쉬워지도록 보장하고 텍스트 겹침 또는 손상된 서식의 위험이 없도록 합니다.
페이지 줌 기능은 다음과 같은 이점을 제공합니다.
- 가독성 향상: 페이지 줌을 통해 사용자는 표시되는 글꼴 크기를 조정할 수 있으므로 읽기가 더 쉽고 즐거워집니다. 이는 시력이 좋지 않거나 읽기 장애 또는 기타 시력障害가 있는 사람에게 특히 유용합니다.
- 향상된 편안함: 페이지 줌을 통해 사용자는 개인 기본 설정 및 시각적 요구 사항에 맞게 글꼴 크기를 사용자 지정할 수 있습니다. 이를 통해 눈의 피로를 줄이고 더 오래 콘텐츠를 더 편안하게 읽을 수 있습니다.
- 레이아웃 유지: 전체 웹 페이지를 간단히 확대하는 것과 달리 페이지 줌을 사용하면 사용자가 원래 레이아웃의 무결성을 유지하면서 텍스트 크기를 늘리거나 줄일 수 있습니다. 이렇게 하면 웹 페이지를 쉽게 탐색할 수 있고 모든 요소가 예상대로 배치됩니다.
- 유연한 사용자 지정: 페이지 줌은 사용자가 특정 요구 사항에 맞게 텍스트 크기를 미세 조정할 수 있도록 지원하는 광범위한 사용자 지정 옵션을 제공합니다. 사용자는 미리 정의된 확대/축소 수준을 선택하거나 사용자 지정 값을 입력하고 기본 설정을 모든 페이지または特定웹 사이트에 적용할 수 있습니다.
이 기능을 사용하려면 Chrome 오른쪽 상단의 세 개의 점 메뉴를 클릭하고 확대/축소 기본 설정을 설정하십시오.