Google DeepMind Gemma 3n: 온디바이스 AI 혁명

온디바이스 AI의 혁명: Google DeepMind Gemma 3n

개인 기기에서 더 빠르고, 더 스마트하며, 더 개인 정보 보호가 강화된 인공 지능에 대한 끊임없는 추구는 AI 모델이 설계되고 배포되는 방식에 심오한 변화를 가져오고 있습니다. 우리는 AI가 단순한 원격 서비스가 아닌, 휴대폰, 태블릿, 노트북에 직접 내장된 로컬 인텔리전스가 되는 시대에 접어들고 있습니다. 이러한 변화는 거의 즉각적인 응답성, 현저히 감소된 메모리 요구 사항, 사용자 개인 정보 보호에 대한 새로운 강조를 약속합니다. 모바일 하드웨어가 계속 빠르게 진화함에 따라, 일상적인 디지털 상호 작용을 재정의할 수 있는 작고, 번개처럼 빠른 모델을 만드는 데 초점이 맞춰지고 있습니다.

온디바이스 멀티모달 AI의 과제

이러한 노력에서 가장 중요한 장애물 중 하나는 모바일 장치의 리소스 제약적인 환경 내에서 고품질의 멀티모달 AI를 제공하는 것입니다. 막대한 컴퓨팅 성능의 이점을 누리는 클라우드 기반 시스템과 달리, 온디바이스 모델은 RAM 및 처리 능력에 대한 엄격한 제한 사항을 가지고 작동해야 합니다. 텍스트, 이미지, 오디오 및 비디오를 해석하는 기능을 포함하는 멀티모달 AI는 일반적으로 대부분의 모바일 장치를 압도할 수 있는 대형 모델이 필요합니다. 또한 클라우드에 대한 의존성은 지연 시간과 개인 정보 보호 문제를 야기하며, 성능을 저하시키지 않고 로컬에서 실행할 수 있는 모델의 필요성을 강조합니다.

Gemma 3n: 모바일 AI의 도약

이러한 과제를 해결하기 위해 Google과 Google DeepMind는 모바일 우선 배포를 위해 특별히 설계된 획기적인 AI 모델인 Gemma 3n을 소개했습니다. Gemma 3n은 Android 및 Chrome 플랫폼 전반에서 성능에 최적화되어 있으며 Gemini Nano의 다음 반복의 기반 역할을 합니다. 이 혁신은 실시간 응답 시간을 유지하면서 훨씬 더 작은 메모리 공간으로 멀티모달 AI 기능을 제공하는 상당한 발전을 나타냅니다. 또한 이 공유 인프라를 기반으로 구축된 최초의 오픈 모델로서, 개발자가 즉시 실험을 위해 액세스할 수 있도록 합니다.

Per-Layer Embeddings (PLE): 핵심 혁신

Gemma 3n의 핵심에는 RAM 사용량을 획기적으로 줄이는 기술인 Per-Layer Embeddings (PLE)의 적용이 있습니다. 원시 모델 크기는 각각 50억 및 80억 개의 파라미터이지만, 20억 및 40억 개의 파라미터 모델과 동일한 메모리 공간으로 작동합니다. 동적 메모리 소비는 5B 모델의 경우 2GB, 8B 버전의 경우 3GB에 불과합니다. 이는 MatFormer라는 방법을 사용하여 훈련된 2B 서브모델을 포함하는 4B 활성 메모리 공간 모델이 있는 중첩 모델 구성을 통해 달성됩니다. 이를 통해 개발자는 별도의 모델을 로드할 필요 없이 성능 모드를 동적으로 전환할 수 있습니다. KVC 공유 및 활성화 양자화와 같은 추가 개선 사항은 지연 시간을 더욱 줄이고 응답 속도를 가속화합니다. 예를 들어 모바일에서의 응답 시간은 Gemma 3 4B에 비해 1.5배 향상되었으며, 동시에 우수한 출력 품질을 유지합니다.

성능 벤치마크

Gemma 3n이 달성한 성능 지표는 모바일 배포에 적합함을 강조합니다. 자동 음성 인식 및 번역과 같은 작업에서 뛰어나 음성을 번역된 텍스트로 원활하게 변환할 수 있습니다. WMT24++ (ChrF)와 같은 다국어 벤치마크에서 50.1%의 점수를 달성하여 일본어, 독일어, 한국어, 스페인어 및 프랑스어와 같은 언어에 대한 강점을 입증했습니다. “mix’n’match” 기능은 다양한 품질 및 지연 시간 조합에 최적화된 서브모델을 생성하여 개발자에게 더욱 뛰어난 사용자 정의 기능을 제공합니다.

멀티모달 기능 및 응용 프로그램

Gemma 3n의 아키텍처는 텍스트, 오디오, 이미지 및 비디오를 포함한 다양한 모달리티의 인터리브 입력을 지원하여 보다 자연스럽고 컨텍스트가 풍부한 상호 작용을 가능하게 합니다. 또한 오프라인으로 작동할 수 있어 네트워크 연결 없이도 개인 정보 보호 및 안정성을 보장합니다. 잠재적인 사용 사례는 다음과 같이 광범위합니다.

  • 실시간 시각 및 청각 피드백: 시각 및 청각 채널을 통해 사용자 입력에 대한 실시간 응답을 제공합니다.
  • 컨텍스트 인식 콘텐츠 생성: 다양한 센서 입력에 의해 결정되는 사용자의 현재 컨텍스트를 기반으로 맞춤형 콘텐츠를 생성합니다.
  • 고급 음성 기반 응용 프로그램: 보다 정교한 음성 상호 작용 및 제어를 가능하게 합니다.

Gemma 3n의 주요 기능

Gemma 3n은 다음과 같은 다양한 기능을 통합합니다.

  • 모바일 우선 설계: 최적의 모바일 성능을 위해 Google, DeepMind, Qualcomm, MediaTek 및 Samsung System LSI 간의 협력을 통해 개발되었습니다.
  • 감소된 메모리 공간: Per-Layer Embeddings (PLE)를 사용하여 5B 및 8B 파라미터 모델에 대해 각각 2GB 및 3GB의 작동 공간을 달성합니다.
  • 향상된 응답 시간: Gemma 3 4B에 비해 모바일에서 1.5배 더 빠른 응답을 제공합니다.
  • 다국어 능숙도: WMT24++ (ChrF)에서 50.1%의 다국어 벤치마크 점수를 달성합니다.
  • 멀티모달 입력: 오디오, 텍스트, 이미지 및 비디오를 수락하고 이해하여 복잡한 멀티모달 처리 및 인터리브 입력을 가능하게 합니다.
  • 동적 서브모델: 중첩 서브모델 및 mix’n’match 기능을 갖춘 MatFormer 훈련을 사용하여 동적 절충안을 지원합니다.
  • 오프라인 작동: 인터넷 연결 없이 작동하여 개인 정보 보호 및 안정성을 보장합니다.
  • 쉬운 액세스 Google AI Studio 및 Google AI Edge를 통해 사용할 수 있으며 텍스트 및 이미지 처리 기능이 제공됩니다.

의미 및 미래 방향

Gemma 3n은 고성능 AI를 휴대 가능하고 개인적으로 만들 수 있는 명확한 경로를 제공합니다. 혁신적인 아키텍처를 통해 RAM 제한을 해결하고 다국어 및 멀티모달 기능을 향상시킴으로써 연구자들은 고급 AI를 일상적인 장치에 직접 제공할 수 있는 실행 가능한 솔루션을 개발했습니다. 유연한 서브모델 전환, 오프라인 준비 상태 및 빠른 응답 시간은 모바일 우선 AI에 대한 포괄적인 접근 방식을 나타냅니다. 향후 연구는 모델의 기능을 향상시키고, 더 넓은 범위의 장치와의 호환성을 확장하고, 증강 현실, 로봇 공학 및 IoT와 같은 분야에서 새로운 응용 프로그램을 탐색하는 데 집중할 것입니다.