Gemma 3n: 온디바이스 추론 혁명

Gemma 3n: 내재된 능력 공개

Gemma 3n은 혁신적인 LiteRT Hugging Face 커뮤니티에서 미리보기로 액세스할 수 있는 획기적인 멀티모달 소형 언어 모델이며, 이전에 출시된 다양한 모델과 함께 제공됩니다. Gemma 3n은 텍스트, 이미지, 비디오 및 오디오를 포함한 다양한 입력을 처리하도록 설계되었습니다. 또한 새로운 AI Edge SDK로 구동되는 검색 증강 생성(RAG)과 함수 호출을 통해 미세 조정, 사용자 정의를 용이하게 합니다.

Gemma 3n은 Gemma 3n 2B 및 Gemma 3n 4B의 두 가지 뚜렷한 매개변수 변형으로 제공됩니다. 두 반복 모두 텍스트 및 이미지 입력을 처리할 수 있으며 Google의 예측에 따르면 오디오 지원은 가까운 시일 내에 통합될 예정입니다. 이는 올해 초에 데뷔하여 모바일 GPU에서 초당 2,585개의 인상적인 토큰을 관리하는 데 529MB에 불과했던 비멀티모달 Gemma 3 1B에 비해 규모가 상당히 커졌음을 의미합니다.

Google의 기술 사양에 따르면 Gemma 3n은 효율적인 매개변수 관리를 위해 설계된 혁신적인 기술인 선택적 매개변수 활성화를 활용합니다. 이는 두 모델이 추론 중에 활성적으로 사용되는 2B 또는 4B보다 더 많은 수의 매개변수를 포함한다는 것을 의미합니다. 이 전략적 접근 방식은 리소스 활용률을 최적화하고 성능을 향상시킵니다.

미세 조정 및 양자화: 사용자 정의 해방

Google은 개발자가 기본 모델을 미세 조정하고 Google AI Edge를 통해 액세스할 수 있는 최첨단 양자화 도구를 사용하여 모델을 변환하고 양자화할 수 있는 기능을 강조합니다. 이를통해 개발자는 특정 애플리케이션에 맞게 모델을 조정하고 성능 특성을 최적화할 수 있습니다.

RAG 통합: 컨텍스트 데이터로 언어 모델 풍부화

미세 조정의 대안으로 Gemma 3n 모델은 애플리케이션별 데이터로 언어 모델을 풍부하게 하는 방법론인 온디바이스 검색 증강 생성(RAG)에 배포할 수 있습니다. 이 증강은 현재 Android 전용이지만 다른 플랫폼으로 확장할 계획이 있는 AI Edge RAG 라이브러리로 지원됩니다.

RAG 라이브러리는 다음과 같은 여러 주요 단계로 구성된 간소화된 파이프라인을 통해 작동합니다.

  • 데이터 가져오기: 관련 데이터를 시스템에 수집합니다.
  • 청크 분할 및 인덱싱: 효율적인 검색을 위해 데이터를 분할하고 구성합니다.
  • 임베딩 생성: 의미론적 이해를 위해 데이터의 벡터 표현을 만듭니다.
  • 정보 검색: 사용자 쿼리를 기반으로 관련 정보를 식별하고 추출합니다.
  • 응답 생성: LLM을 사용하여 일관되고 컨텍스트에 적합한 응답을 구성합니다.

이 강력한 프레임워크를 통해 사용자 정의 데이터베이스, 청크 분할 전략 및 검색 기능을 포함하여 RAG 파이프라인의 포괄적인 사용자 정의가 가능합니다.

AI Edge 온디바이스 함수 호출 SDK: 모델과 실제 행위의 간극 해소

Gemma 3n 공개와 동시에 Google은 처음에는 Android에서만 사용할 수 있는 AI Edge 온디바이스 함수 호출 SDK를 도입했습니다. 이 SDK를 통해 모델은 특정 함수를 호출하여 실제 행위를 실행할 수 있습니다.

LLM을 외부 함수와 원활하게 통합하려면 함수 이름, LLM이 함수를 활용해야 하는 시기를 명확히 설명하는 설명적 설명 및 필수 매개변수를 지정하여 함수를 꼼꼼하게 설명해야 합니다. 이 메타데이터는 Tool 객체 내에 캡슐화되어 있고 GenerativeModel 생성자를 통해 대규모 언어 모델에 전달됩니다. 함수 호출 SDK는 제공된 설명을 기반으로 LLM에서 함수 호출을 수신하고 실행 결과를 LLM으로 다시 전송하는 지원을 통합합니다.

잠재력 탐색: Google AI Edge 갤러리

이러한 획기적인 도구를 더 자세히 알고 싶어하는 사람들에게 Google AI Edge Gallery는 매우 귀중한 자료입니다. 이 실험적인 애플리케이션은 다양한 모델을 보여주고 텍스트, 이미지 및 오디오 처리를 용이하게 합니다.

심층 분석: Gemma 3n 및 그 생태계의 미묘한 차이

Gemma 3n의 출현은 효율성, 적응성 및 기능의 강력한 조합을 제공하여 온디바이스 머신 러닝의 진화에 있어 중요한 진전을 나타냅니다. RAG 및 함수 호출에 대한 지원과 함께 멀티모달 기능은 지능적이고 상황을 인식하는 애플리케이션을 만들려는 개발자를 위해 무수한 가능성을 열어줍니다.

선택적 매개변수 활성화: 심층 분석

Gemma 3n에서 사용하는 선택적 매개변수 활성화 기술은 더 자세히 살펴볼 가치가 있습니다. 이 혁신적인 접근 방식을 통해 모델은 주어진 작업에 필요한 매개변수만 동적으로 활성화하여 계산 오버헤드를 최소화하고 효율성을 극대화할 수 있습니다. 이는 리소스가 종종 제한되는 온디바이스 배포에 특히 중요합니다.

선택적 매개변수 활성화의 기본 원리는 신경망의 모든 매개변수가 모든 작업에 똑같이 중요한 것은 아니라는 관찰에 있습니다. 가장 관련성이 높은 매개변수만 선택적으로 활성화함으로써 모델은 계산 비용을 상당히 줄이면서도 비슷한 성능을 달성할 수 있습니다.

선택적 매개변수 활성화의 구현에는 주어진 입력에 대해 활성화할 매개변수를 결정하는 메커니즘이 일반적으로 포함됩니다. 이는 다음과 같은 다양한 기술을 통해 달성할 수 있습니다.

  • 주의 메커니즘: 입력의 가장 관련성이 높은 부분에 주의를 기울이고 해당 매개변수를 활성화합니다.
  • 게이팅 메커니즘: 게이팅 함수를 사용하여 네트워크의 여러 부분을 통해 정보의 흐름을 제어합니다.
  • 스파스 훈련: 추론 중에 매개변수의 하위 집합만 활성화되도록 스파스 연결을 학습하도록 네트워크를 훈련합니다.

기술 선택은 모델의 특정 아키텍처와 작업의 특성에 따라 다릅니다. 그러나 전반적인 목표는 주어진 입력에 가장 관련성이 높은 매개변수만 식별하고 활성화하여 계산 비용을 줄이고 효율성을 높이는 것입니다.

RAG: 지식과 컨텍스트 강화

검색 증강 생성(RAG)은 언어 모델이 사용되는 방식의 패러다임 전환을 나타냅니다. 외부 지식 소스를 통합함으로써 RAG는 언어 모델이 더 정보에 입각하고 정확하며 컨텍스트에 적합한 응답을 생성할 수 있도록 합니다.

RAG 파이프라인은 다음과 같은 여러 주요 단계로 구성됩니다.

  1. 데이터 인덱싱: 이 단계에서는 관련 정보를 효율적으로 검색할 수 있도록 외부 지식 소스가 인덱싱됩니다. 여기에는 일반적으로 지식 소스의 각 문서에 대한 벡터 표현을 만드는 작업이 포함되며, 이는 주어진 쿼리와 유사한 문서를 신속하게 식별하는 데 사용할 수 있습니다.
  2. 정보 검색: 쿼리가 수신되면 RAG 시스템은 인덱싱된 지식 소스에서 가장 관련성이 높은 문서를 검색합니다. 이는 일반적으로 쿼리의 벡터 표현을 지식 소스의 문서의 벡터 표현과 비교하는 유사성 검색 알고리즘을 사용하여 수행됩니다.
  3. 컨텍스트화: 검색된 문서는 쿼리의 컨텍스트를 증강하는 데 사용됩니다. 이는 검색된 문서를 쿼리에 간단히 연결하거나 검색된 문서의 정보를 쿼리 표현에 통합하는 보다 정교한 기술을 사용하여 수행할 수 있습니다.
  4. 응답 생성: 마지막으로, 증강된 쿼리는 쿼리 및 검색된 문서의 결합된 정보를 기반으로 응답을 생성하는 언어 모델에 입력됩니다.

RAG는 기존 언어 모델에 비해 다음과 같은 여러 가지 이점을 제공합니다.

  • 정확도 증가: 외부 지식을 통합함으로써 RAG 모델은 더 정확하고 사실적인 응답을 생성할 수 있습니다.
  • 향상된 컨텍斯特 이해: RAG 모델은 검색된 문서의 정보를 활용하여 쿼리의 컨텍스트를 더 잘 이해할 수 있습니다.
  • 환각 감소: RAG 모델은 외부 지식에 근거하므로 환각이 발생하거나 무분별한 응답을 생성할 가능성이 적습니다.
  • 새로운 정보에 대한 적응성: RAG 모델은 인덱싱된 지식 소스를 간단히 업데이트하여 새로운 정보에 쉽게 적응할 수 있습니다.

함수 호출: 실제 세계와 상호 작용

AI Edge 온디바이스 함수 호출 SDK는 언어 모델이 실제 세계와 상호 작용할 수 있도록 하는 중요한 단계를 나타냅니다. 모델이 외부 함수를 호출할 수 있도록 함으로써 SDK는 지능적이고 상황을 인식하는 애플리케이션을 만드는 데 매우 다양한 가능성을 열어줍니다.

함수 호출 프로세스는 일반적으로 다음과 같은 단계를 포함합니다.

  1. 함수 정의: 개발자는 언어 모델이 호출할 수 있는 함수를 정의합니다. 여기에는 함수 이름, 함수가 수행하는 작업에 대한 설명 및 함수가 허용하는 매개변수를 지정하는 작업이 포함됩니다.
  2. 도구 객체 생성: 개발자는 함수 정의를 캡슐화하는 Tool 객체를 만듭니다. 그런 다음 이 객체를 언어 모델에 전달합니다.
  3. 함수 호출 생성: 언어 모델이 실제 행위를 수행해야 하는 경우 함수 호출을 생성합니다. 이 호출에는 호출할 함수 이름과 함수에 전달할 매개변수 값이 포함됩니다.
  4. 함수 실행: 그런 다음 함수 콜이 시스템에 의해 실행됩니다. 여기에는 일반적으로 해당 API 또는 서비스를 호출하는 작업이 포함됩니다.
  5. 결과 전송: 함수 실행 결과는 언어 모델로 다시 전송됩니다.
  6. 응답 생성: 마지막으로, 언어 모델은 함수 실행 결과를 사용하여 응답을 생성합니다.

함수 호출 SDK를 통해 언어 모델은 다음과 같은 다양한 작업을 수행할 수 있습니다.

  • 외부 소스의정보 액세스: 모델은 함수를 호출하여 데이터베이스, API 및 기타 외부 소스에서 정보를 검색할 수 있습니다.
  • 장치 및 어플라이언스 제어: 모델은 함수를 호출하여 조명, 온도 조절기 및 어플라이언스와 같은 스마트 홈 장치를 제어할 수 있습니다.
  • 거래 수행: 모델은 함수를 호출하여 결제 및 자금 이체와 같은 금융 거래를 수행할 수 있습니다.
  • 작업 자동화: 모델은 함수를 호출하여 약속 예약 및 이메일 전송과 같은 복잡한 작업을 자동화할 수 있습니다.

Google AI Edge 갤러리: 혁신의 쇼케이스

Google AI Edge Gallery는 Gemma 3n 및 관련 도구의 기능을 보여주는 중요한 플랫폼 역할을 합니다. 개발자가 이러한 기술을 실험할 수 있는 대화형 환경을 제공함으로써 갤러리는 혁신을 촉진하고 새로운 애플리케이션 개발을 가속화합니다.

갤러리에는 다음과 같은 다양한 작업에 대한 Gemma 3n의 잠재력을 보여주는 다양한 모델과 데모가 있습니다.

  • 이미지 인식: 이미지에서 객체 및 장면을 식별합니다.
  • 자연어 처리: 인간의 언어를 이해하고 생성합니다.
  • 음성 인식: 음성 언어를 텍스트로 변환합니다.
  • 오디오 처리: 오디오 신호를 분석하고 조작합니다.

갤러리는 AI Edge SDK에 대한 액세스도 제공하여 개발자가 이러한 기술을 자신의 애플리케이션에 통합할 수 있도록 합니다.

온디바이스 머신 러닝의 미래

Gemma 3n과 그 동반 생태계의 출현은 온디바이스 머신 러닝의 새로운 시대를 예고합니다. 효율성, 적응성 및 기능을 결합함으로써 Gemma 3n을 통해 개발자는 지속적인 인터넷 연결 없이도 장치에서 직접 실행할 수 있는 지능적이고 상황을 인식하는 애플리케이션을 만들 수 있습니다.

이는 다음과 같은 다양한 산업 분야에 심오한 영향을 미칩니다.

  • 모바일: 더욱 지능적이고 응답성이 뛰어난 모바일 애플리케이션을 활성화합니다.
  • IoT: 독립적이고 자율적으로 작동할 수 있는 스마트 장치를 강화합니다.
  • 자동차: 자율 주행 차량의 안전성과 편의성을 향상시킵니다.
  • 의료: 의료 진단 및 치료의 정확성과 효율성을 향상시킵니다.

온디바이스 머신 러닝 기술이 계속 발전함에 따라 앞으로 몇 년 동안 더욱 혁신적이고 영향력 있는 애플리케이션이 등장할 것으로 예상할 수 있습니다. Gemma 3n은 이러한 여정에서 중요한 단계를 나타내며 지능이 우리의 일상 생활에 원활하게 통합되는 미래를 위한 길을 열어줍니다.