Gemma 3n: AI의 새로운 시대 개척

Google의 Gemma 3n은 생성형 AI의 새로운 시대를 여는 획기적인 모델입니다. 작고 빠른 이 모델은 휴대폰에서 오프라인으로 실행될 수 있어 일상적인 장치에서 고급 AI 기술을 사용할 수 있게 해줍니다. Gemma 3n은 오디오, 이미지, 텍스트를 이해할 수 있을 뿐만 아니라 정확도도 뛰어나 Chatbot Arena에서 GPT-4.1 Nano를 능가하는 성능을 보여줍니다.

Gemma 3n의 혁신적인 아키텍처

Google DeepMind는 장치 내 AI의 미래를 위해 Qualcomm Technologies, MediaTek, Samsung System LSI와 같은 모바일 하드웨어 분야의 선두 기업과 긴밀히 협력하여 새로운 아키텍처를 개발했습니다.

이 아키텍처는 휴대폰, 태블릿, 노트북과 같이 리소스가 제한된 장치에서 생성형 AI의 성능을 최적화하도록 설계되었습니다. 이를 위해 이 아키텍처는 PLE (Per-Layer Embedding) 캐싱, MatFormer 아키텍처, 조건부 매개변수 로딩이라는 세 가지 주요 혁신 기술을 사용합니다.

PLE 캐싱: 메모리 제한 극복

PLE 캐싱은 모델이 레이어별 임베딩 매개변수를 빠른 외부 메모리로 오프로드하여 성능 저하 없이 메모리 사용량을 크게 줄일 수 있는 독창적인 메커니즘입니다. 이러한 매개변수는 모델의 작업 메모리 외부에 생성되며 필요에 따라 실행 중에 검색되므로 리소스가 제한된 장치에서도 효율적인 실행이 가능합니다.

복잡한 AI 모델을 실행하고 있지만 장치 메모리가 제한되어 있다고 상상해 보세요. PLE 캐싱은 자주 사용하지 않는 책(매개변수)을 근처 창고(외부 메모리)에 보관하는 스마트 도서관 사서와 같습니다. 모델에 이러한 매개변수가 필요할 때 사서는 신속하게 검색하여 모델이 귀중한 메모리 공간을 차지하지 않고 원활하게 실행되도록 합니다.

구체적으로 PLE 캐싱은 다음과 같은 방식으로 메모리 사용량과 성능을 최적화합니다.

  • 메모리 공간 절약: PLE 캐싱은 사용 빈도가 낮은 매개변수를 외부 메모리에 저장하여 모델 실행에 필요한 메모리 양을 줄입니다. 이를 통해 리소스가 제한된 장치에서 대형 AI 모델을 실행할 수 있습니다.

  • 성능 향상: 외부 메모리에서 매개변수를 검색하는 데 시간이 걸리지만 PLE 캐싱은 어떤 매개변수가 다음에 사용될지 예측하고 미리 캐시에 로드하여 대기 시간을 최소화합니다. 이를 통해 모델은 거의 실시간으로 실행될 수 있습니다.

  • 더 큰 모델 지원: 메모리 요구 사항을 줄임으로써 PLE 캐싱을 통해 더 크고 복잡한 AI 모델을 구축할 수 있습니다. 이러한 모델은 더욱 강력한 표현력을 가지며 더 복잡한 작업을 수행할 수 있습니다.

MatFormer 아키텍처: 러시아 인형과 같은 정교한 디자인

Matryoshka Transformer (MatFormer) 아키텍처는 더 작은 하위 모델이 더 큰 모델에 내장된 중첩된 변환기 디자인을 도입합니다(러시아 인형과 유사). 이 구조를 사용하면 하위 모델을 선택적으로 활성화하여 모델이 작업에 따라 크기와 계산 요구 사항을 동적으로 조정할 수 있습니다. 이러한 유연성 덕분에 계산 비용, 응답 시간, 에너지 소비가 줄어들어 에지 및 클라우드 배포에 매우 적합합니다.

MatFormer 아키텍처의 핵심 아이디어는 모든 작업에 전체 AI 모델이 필요한 것은 아니라는 것입니다. 간단한 작업의 경우 더 작은 하위 모델만 활성화하면 계산 리소스를 절약할 수 있습니다. 복잡한 작업의 경우 더 큰 하위 모델을 활성화하여 정확도를 높일 수 있습니다.

MatFormer 아키텍처의 장점을 설명하기 위해 예를 들어 보겠습니다. AI 모델을 사용하여 이미지에서 객체를 식별한다고 가정해 보겠습니다. 객체 하나만 포함된 이미지와 같은 간단한 이미지의 경우 해당 특정 유형의 객체를 식별하는 데 특화된 더 작은 하위 모델을 활성화할 수 있습니다. 여러 객체가 포함된 이미지와 같은 복잡한 이미지의 경우 다양한 객체를 식별할 수 있는 더 큰 하위 모델을 활성화할 수 있습니다.

MatFormer 아키텍처의 장점은 다음과 같습니다.

  • 계산 비용 절감: 필요한 하위 모델만 활성화하여 MatFormer 아키텍처는 계산 비용을 크게 줄일 수 있습니다. 이는 리소스가 제한된 장치에서 AI 모델을 실행하는 데 매우 중요합니다.

  • 응답 시간 단축: MatFormer 아키텍처는 작업에 따라 모델 크기를 동적으로 조정할 수 있으므로 응답 시간을 단축할 수 있습니다. 이를 통해 AI 모델은 사용자 요청에 더 빠르게 응답할 수 있습니다.

  • 에너지 소비 감소: MatFormer 아키텍처는 계산 비용을 줄임으로써 에너지 소비도 줄일 수 있습니다. 이는 배터리 수명을 연장하는 데 매우 중요합니다.

조건부 매개변수 로딩: 필요에 따른 로딩, 리소스 최적화

조건부 매개변수 로딩을 사용하면 개발자가 오디오 또는 시각 처리와 같이 사용하지 않는 매개변수를 메모리에 로드하지 않아도 됩니다. 필요한 경우 이러한 매개변수를 런타임에 동적으로 로드하여 메모리 사용량을 더욱 최적화하고 모델이 다양한 장치와 작업에 적응할 수 있도록 합니다.

텍스트를 처리하기 위해 AI 모델을 사용하고 있다고 상상해 보세요. 작업에 오디오 또는 시각 처리가 필요하지 않은 경우 오디오 또는 시각 처리에 사용되는 매개변수를 로드하는 것은 리소스 낭비입니다. 조건부 매개변수 로딩을 사용하면 모델이 필요한 매개변수만 로드하여 메모리 사용량을 최대화하고 성능을 향상시킬 수 있습니다.

조건부 매개변수 로딩은 다음과 같이 작동합니다.

  1. 모델은 현재 작업을 분석하고 필요한 매개변수를 확인합니다.
  2. 모델은 필요한 매개변수만 메모리에 로드합니다.
  3. 작업이 완료되면 모델은 더 이상 필요하지 않은 매개변수를 해제합니다.

조건부 매개변수 로딩의 장점은 다음과 같습니다.

  • 메모리 사용량 최적화: 필요한 매개변수만 로드하여 조건부 매개변수 로딩은 메모리 사용량을 크게 최적화할 수 있습니다. 이는 리소스가 제한된 장치에서 AI 모델을 실행하는 데 매우 중요합니다.

  • 성능 향상: 로드되는 매개변수 수를 줄임으로써 조건부 매개변수 로딩은 성능을 향상시킬 수 있습니다. 이를 통해 AI 모델은 사용자 요청에 더 빠르게 응답할 수 있습니다.

  • 더 광범위한 장치 지원: 메모리 사용량을 최적화하여 조건부 매개변수 로딩을 통해 AI 모델은 메모리가 제한된 장치를 포함하여 더 광범위한 장치에서 실행할 수 있습니다.

Gemma 3n의 탁월한 기능

Gemma 3n은 장치 내 AI의 가능성을 재정의하는 여러 혁신적인 기술과 기능을 도입했습니다.

주요 기능을 자세히 살펴보겠습니다.

  1. 최적화된 장치 내 성능 및 효율성: Gemma 3n은 이전 버전(Gemma 3 4B)보다 약 1.5배 빠르면서도 훨씬 더 높은 품질의 출력을 유지합니다. 즉, 클라우드 연결에 의존하지 않고도 장치에서 더 빠르고 정확한 결과를 얻을 수 있습니다.

  2. PLE 캐싱: PLE 캐싱 시스템을 통해 Gemma 3n은 매개변수를 빠른 로컬 메모리에 저장하여 메모리 공간을 줄이고 성능을 향상시킬 수 있습니다.

  3. MatFormer 아키텍처: Gemma 3n은 특정 요청에 따라 모델 매개변수를 선택적으로 활성화하는 MatFormer 아키텍처를 사용합니다. 이를 통해 모델은 크기와 계산 요구 사항을 동적으로 조정하여 리소스 활용도를 최적화할 수 있습니다.

  4. 조건부 매개변수 로딩: 메모리 리소스를 절약하기 위해 Gemma 3n은 시각 또는 오디오가 필요하지 않은 경우 해당 매개변수를 로드하지 않고 건너뛸 수 있습니다. 이렇게 하면 효율성이 더욱 향상되고 전력 소비가 줄어듭니다.

  5. 개인 정보 보호 우선 및 오프라인 준비: 인터넷 연결 없이 로컬에서 AI 기능을 실행하여 사용자 개인 정보를 보호합니다. 즉, 데이터가 장치를 떠나지 않으며 네트워크 연결 없이 AI 기능을 사용할 수 있습니다.

  6. 다중 모드 이해: Gemma 3n은 오디오, 텍스트, 이미지 및 비디오 입력에 대한 고급 지원을 제공하여 복잡한 실시간 다중 모드 상호 작용을 가능하게 합니다. 이를 통해 AI 모델은 다양한 입력을 이해하고 응답하여 더욱 자연스럽고 직관적인 사용자 경험을 제공할 수 있습니다.

  7. 오디오 기능: 고품질 전사 및 다국어 지원을 통해 자동 음성 인식 (ASR) 및 음성-텍스트 번역을 제공합니다. 즉, Gemma 3n을 사용하여 음성 언어를 텍스트로 변환하고 한 언어의 음성을 다른 언어로 번역할 수 있습니다.

  8. 향상된 다국어 기능: 일본어, 독일어, 한국어, 스페인어 및 프랑스어와 같은 언어의 성능이 크게 향상되었습니다. 이를 통해 Gemma 3n은 다양한 언어의 텍스트를 더 정확하게 이해하고 생성할 수 있습니다.

  9. 32K 토큰 컨텍스트: 단일 요청에서 많은 양의 데이터를 처리할 수 있어 더 긴 대화와 더 복잡한 작업이 가능합니다. 즉, 컨텍스트 창을 벗어날 염려 없이 Gemma 3n에 더 긴 텍스트 입력을 제공할 수 있습니다.

Gemma 3n 시작하기

Gemma 3n을 시작하는 것은 매우 간단하며 개발자는 이 강력한 모델을 탐색하고 통합하는 두 가지 주요 방법을 사용할 수 있습니다.

1. Google AI Studio: 빠른 프로토타입 제작

Google AI Studio에 로그인하고 스튜디오로 이동하여 Gemma 3n E4B 모델을 선택하기만 하면 Gemma 3n의 기능 탐색을 시작할 수 있습니다. 이 스튜디오는 전체 구현 전에 아이디어를 빠르게 프로토타입하고 테스트하려는 개발자에게 적합합니다.

API 키를 가져와 모델을 로컬 AI 챗봇, 특히 Msty 애플리케이션을 통해 통합할 수 있습니다.

또한 Google GenAI Python SDK를 사용하여 몇 줄의 코드로 모델을 애플리케이션에 통합할 수 있습니다. 이렇게 하면 Gemma 3n을 프로젝트에 통합하는 것이 매우 쉬워집니다.

2. Google AI Edge를 사용하여 장치 내 개발 수행: 로컬 애플리케이션 구축

Gemma 3n을 애플리케이션에 직접 통합하려는 개발자의 경우 Google AI Edge는 Android 및 Chrome 장치에서 장치 내 개발에 필요한 도구와 라이브러리를 제공합니다. 이 방법은 Gemma 3n 기능을 로컬로 활용하는 애플리케이션을 구축하는 데 적합합니다.

Google AI Edge는 개발자가 Gemma 3n을 애플리케이션에 쉽게 통합할 수 있도록 하는 다양한 도구와 라이브러리를 제공합니다. 이러한 도구에는 다음이 포함됩니다.

  • TensorFlow Lite: 모바일 장치에서 AI 모델을 실행하는 데 사용되는 경량 프레임워크입니다.
  • ML Kit: 모바일 애플리케이션에 머신 러닝 기능을 추가하는 데 사용되는 API 컬렉션입니다.
  • Android Neural Networks API (NNAPI): 장치에서 하드웨어 가속기를 활용하여 AI 모델을 실행하는 데 사용되는 API입니다.

Google AI Edge를 사용하면 다음과 같은 다양한 혁신적인 애플리케이션을 구축할 수 있습니다.

  • 오프라인 음성 인식: 사용자가 인터넷 연결 없이 음성 명령을 사용하여 장치를 제어할 수 있도록 합니다.
  • 실시간 이미지 인식: 사용자가 이미지를 클라우드에 업로드하지 않고도 이미지에서 객체를 식별할 수 있도록 합니다.
  • 지능형 텍스트 생성: 사용자가 이메일, 기사, 코드와 같은 다양한 유형의 텍스트를 생성할 수 있도록 합니다.