IBM Granite 4.0 Tiny 공개

IBM은 최근 Granite 4.0 언어 모델 시리즈 중 가장 작은 버전인 Granite 4.0 Tiny의 프리뷰 버전을 발표했습니다. Apache 2.0 라이선스로 배포되는 이 모델은 리소스 효율성, 개방형 접근성, 강력한 성능 간의 균형을 맞추면서 장문맥 처리 및 명령어 기반 애플리케이션을 위해 세심하게 설계되었습니다. 이번 출시는 개방적이고 투명할 뿐만 아니라 엔터프라이즈급 애플리케이션을 위해 특별히 맞춤화된 기초 모델의 개발 및 배포에 대한 IBM의 지속적인 노력을 강조합니다.

Granite 4.0 Tiny 프리뷰는 혁신적인 디코더 전용 아키텍처를 선보이는 Base-Preview 버전과 대화형 및 다국어 상호 작용을 위해 개선된 Tiny-Preview (Instruct) 버전의 두 가지로 구성됩니다. 매개변수 수가 최소화되었음에도 불구하고 Granite 4.0 Tiny는 다양한 추론 및 생성 벤치마크에서 경쟁력 있는 결과를 달성하여 하이브리드 설계의 효과를 입증합니다.

아키텍처 심층 분석: Mamba-2에서 영감을 얻은 동역학을 갖춘 하이브리드 Mixture-of-Experts 프레임워크

Granite 4.0 Tiny의 핵심에는 총 70억 개의 매개변수로 구성된 정교한 하이브리드 Mixture-of-Experts (MoE) 아키텍처가 있으며, 각 순방향 패스 동안 10억 개의 매개변수만 활성 상태로 작동합니다. 이러한 내재된 희소성을 통해 모델은 컴퓨팅 요구 사항을 크게 줄이면서 확장 가능한 성능을 제공하므로 리소스가 제한된 환경과 에지 기반 추론 시나리오에 특히 적합합니다.

Base-Preview 버전은 기존의 어텐션 메커니즘에 대한 선형 회귀 대안을 제공하는 Mamba-2 스타일 레이어로 향상된 디코더 전용 아키텍처를 활용합니다. 이러한 아키텍처 혁신을 통해 모델은 입력 길이가 증가함에 따라 보다 효과적으로 확장할 수 있으므로 심층 문서 분석, 포괄적인 대화 요약, 지식 집약적 질문 응답과 같은 장문맥 작업에서 효율성을 높일 수 있습니다.

또 다른 주목할 만한 아키텍처 결정은 **NoPE (No Positional Encodings)**의 구현입니다. 고정되거나 학습된 위치 임베딩에 의존하는 대신 모델은 위치 정보를 레이어 동역학에 직접 통합합니다. 이러한 접근 방식은 다양한 입력 길이에 걸쳐 개선된 일반화를 촉진하고 긴 시퀀스 생성 전반에 걸쳐 일관성을 유지하는 데 도움이 됩니다.

벤치마크 성능: 기능을 희생하지 않는 효율성

프리뷰 릴리스임에도 불구하고 Granite 4.0 Tiny는 이미 IBM Granite 시리즈 내의 이전 모델에 비해 상당한 성능 향상을 보여주고 있습니다. 벤치마크 평가에서 Base-Preview는 다음을 나타냅니다.

  • 답변을 도출하기 위해 여러 텍스트 세그먼트에서 추론하는 모델의 능력을 평가하는 광범위하게 인정받는 다중 홉 질문 응답 벤치마크인 DROP (Discrete Reasoning Over Paragraphs)에서 5.6포인트 증가.
  • 광범위한 언어적 및 인지적 작업을 다루는 일반적인 언어 이해 및 추론 기능을 평가하도록 설계된 포괄적인 벤치마크인 AGIEval에서 3.8포인트 향상.

이러한 성능 향상은 모델의 고급 아키텍처와 다양한 도메인 및 언어 구조에서 가져온 2조 5천억 개의 토큰을 처리하는 광범위한 사전 훈련 방식 모두에 기인할 수 있습니다. 이 광범위한 사전 훈련을 통해 모델은 데이터 내의 광범위한 패턴과 관계를 캡처하여 다양한 작업에서 개선된 일반화 및 성능을 제공할 수 있습니다.

명령어 조정 변형: 대화, 명확성 및 광범위한 다국어 지원에 맞춤화

Granite-4.0-Tiny-Preview (Instruct) 변형은 개방형 및 합성적으로 생성된 대화를 모두 포함하는 Tülu 스타일 데이터 세트를 활용하여 **지도 학습 (SFT)**과 **강화 학습 (RL)**의 조합을 통해 기본 모델을 기반으로 구축됩니다. 이 맞춤형 접근 방식은 명령어 수행 및 대화형 애플리케이션에 맞게 모델을 최적화합니다.

8,192 토큰 입력 창8,192 토큰 생성 길이를 지원하는 이 모델은 확장된 상호 작용에서 일관성과 충실도를 유지합니다. 종종 성능 향상을 위해 해석 가능성을 희생하는 인코더-디코더 하이브리드와 달리 여기에서 디코더 전용 설정은 더 명확하고 추적 가능한 출력을 생성하므로 투명성과 예측 가능성이 가장 중요한 엔터프라이즈 및 안전에 중요한 애플리케이션에 특히 유용합니다.

상세 평가 지표:

  • IFEval에서 86.1, 이는 모델이 복잡한 명령어를 정확하고 효과적으로 실행하는 능력을 반영하는 명령어 수행 벤치마크에서 강력한 성능을 나타냅니다.
  • GSM8K에서 70.05, 이는 모델의 양적 추론 및 산술 연산에 대한 적성을 보여주는 초등학교 수학 문제 해결에 초점을 맞춘 벤치마크입니다.
  • HumanEval에서 82.41, 이는 구문적으로 정확하고 의미론적으로 의미 있는 코드 스니펫을 생성하는 모델의 능력을 보여주는 Python 코드 생성 정확도를 측정합니다.

또한 명령어 모델은 12개 언어에 걸쳐 다국어 상호 작용을 지원하여 고객 서비스, 엔터프라이즈 자동화 및 교육 도구에서 글로벌 배포를 용이하게 합니다. 이러한 다국어 기능은 모델의 도달 범위와 적용 가능성을 확장하여 다양한 언어적 컨텍스트에서 다양한 사용자 및 사용 사례를 충족할 수 있도록 합니다. 지원되는 언어에는 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 러시아어, 중국어, 일본어, 한국어 및 아랍어가 포함되어 있으며, 이는 세계 인구의 상당 부분을 차지합니다.

오픈 소스 가용성의 중요성

IBM이 Granite 4.0 Tiny 모델을 Apache 2.0 라이선스로 출시하기로 한 결정은 AI 커뮤니티 내에서 투명성과 협업을 촉진하기 위한 중요한 단계입니다. IBM은 모델 가중치, 구성 파일 및 샘플 사용 스크립트에 대한 공개 액세스를 제공함으로써 연구원, 개발자 및 조직이 모델을 자유롭게 실험, 미세 조정 및 자체 NLP 워크플로에 통합할 수 있도록 지원합니다. 이러한 오픈 소스 접근 방식은 혁신을 가속화할 뿐만 아니라 모델의 기능과 한계에 대한 더 깊은 이해를 촉진합니다.

Apache 2.0 라이선스는 사용자가 수정 사항이나 파생 저작물을 공개하지 않고도 소프트웨어를 상업적 및 비상업적으로 사용할 수 있으므로 특히 유리합니다. 이 허용 라이선스는 광범위한 채택과 실험을 장려하여 Granite 4.0 Tiny 모델을 중심으로 활기찬 생태계를 조성합니다. 또한 사전 훈련된 모델을 공유하고 검색하기 위한 인기 있는 플랫폼인 Hugging Face에서 모델을 사용할 수 있도록 하면 광범위한 대상이 쉽게 액세스할 수 있습니다.

Granite 4.0 Tiny의 오픈 소스 가용성은 책임 있는 AI 개발에 대한 IBM의 광범위한 약속과도 일치합니다. IBM은 모델을 투명하고 감사 가능하게 만들어 사용자가 모델의 동작을 면밀히 조사하고 잠재적 편향을 식별하며 안전하고 윤리적인 방식으로 사용되도록 할 수 있도록 합니다. 투명성에 대한 이러한 약속은 AI 시스템에 대한 신뢰를 구축하고 다양한 영역에서 책임 있는 배포를 촉진하는 데 중요합니다.

Granite 4.0의 기반 마련: 미래에 대한 엿보기

Granite 4.0 Tiny 프리뷰는 차세대 언어 모델 제품군에 대한 IBM의 포괄적인 전략을 조기에 보여줍니다. 효율적인 MoE 아키텍처, 강력한 장문맥 지원명령어 중심 튜닝을 통합함으로써 Granite 4.0 모델 제품군은 관리 가능하고 리소스 최적화된 패키지로 최첨단 기능을 제공하고자 합니다. 이러한 접근 방식은 강력할 뿐만 아니라 실용적이고 접근 가능한 AI 솔루션 개발에 대한 IBM의 약속을 강조합니다.

효율적인 아키텍처, 장문맥 지원 및 명령어 중심 튜닝이라는 세 가지 핵심 요소의 조합은 Granite 4.0을 광범위한 애플리케이션에 적합한 다재다능하고 적응 가능한 언어 모델로 자리매김합니다. 효율적인 MoE 아키텍처를 통해 모델은 데이터와 복잡성이 증가함에 따라 효과적으로 확장할 수 있으며, 장문맥 지원을 통해 긴 문서와 대화를 처리하고 이해할 수 있습니다. 반면에 명령어 중심 튜닝은 모델이 복잡한 명령어를 정확하고 효과적으로 실행할 수 있도록 보장하므로 질문 응답, 텍스트 요약 및 코드 생성과 같은 작업에 이상적입니다.

Granite 4.0의 더 많은 변형이 공개됨에 따라 IBM이 책임 있고 개방적인 AI에 대한 투자를 더욱 강화하여 기업 및 연구 애플리케이션 모두를 위한 투명하고 고성능 언어 모델의 궤적을 형성하는 데 중추적인 역할을 할 것으로 예상할 수 있습니다. 이러한 지속적인 투자는 AI가 윤리적이고 사회에 유익한 방식으로 개발되고 배포되어야 한다는 IBM의 믿음을 반영합니다. 투명성, 책임성 및 공정성을 우선시함으로써 IBM은 강력할 뿐만 아니라 신뢰할 수 있고 인간의 가치에 부합하는 AI 시스템을 구축하는 것을 목표로 합니다.

Granite 4.0 시리즈는 성능, 효율성 및 투명성의 매력적인 조합을 제공하는 언어 모델의 진화에 있어 중요한 진전을 나타냅니다. IBM이 이 분야에서 계속 혁신함에 따라 AI와 상호 작용하고 활용하는 방식을 더욱 변화시킬 더 획기적인 개발을 기대할 수 있습니다. Granite 4.0 Tiny 프리뷰는 시작에 불과하며 언어 모델의 미래는 그 어느 때보다 밝아 보입니다. 특히 장문맥 기능에 대한 강조는 과학 연구, 법률 분석 및 역사적 문서 분석과 같은 영역에서 AI 애플리케이션에 대한 새로운 가능성을 열어줍니다. 여기서 길고 복잡한 텍스트를 처리하고 이해하는 능력이 중요합니다.

또한 Granite 4.0 모델의 다국어 기능은 고객 서비스에서 교육에 이르기까지 다양한 산업 분야에서 글로벌 배포에 적합합니다. IBM은 광범위한 언어를 지원함으로써 모국어에 관계없이 다양한 대상이 AI 솔루션에 액세스할 수 있도록 보장합니다. 포용성에 대한 이러한 약속은 AI의 광범위한 채택을 촉진하고 그 이점이 모든 사람이 공유하도록 보장하는 데 필수적입니다.

기술적 기능 외에도 Granite 4.0 시리즈는 책임 있는 AI 개발에 대한 IBM의 약속을 반영합니다. 투명성, 책임성 및 공정성을 우선시함으로써 IBM은 강력할 뿐만 아니라 신뢰할 수 있고 인간의 가치에 부합하는 AI 시스템을 구축하고 있습니다. 책임 있는 AI에 대한 이러한 약속은 AI에 대한 대중의 신뢰를 구축하고 사회의 이익을 위해 사용되도록 하는 데 중요합니다.