Reka AI, Reka Flash 3 오픈소스 공개: 21B 범용 추론 모델

오늘날 AI 환경의 실질적인 과제

인공 지능의 급속한 발전은 수많은 기회를 가져왔지만, 개발자와 조직에게는 상당한 난관도 제시했습니다. 가장 시급한 문제 중 하나는 많은 최신 AI 모델과 관련된 높은 컴퓨팅 요구 사항입니다. 이러한 모델을 훈련하고 배포하려면 상당한 처리 능력이 필요한 경우가 많으므로 소규모 기업이나 리소스가 제한된 기업은 AI의 이점을 완전히 활용하기 어렵습니다.

또한 대기 시간 문제는 특히 실시간 애플리케이션에서 사용자 경험에 큰 영향을 미칠 수 있습니다. 응답 시간 지연은 AI 시스템이 인상적인 기능을 가지고 있더라도 비실용적으로 만들 수 있습니다. 이는 챗봇이나 대화형 도구와 같이 즉각적인 피드백이 필요한 애플리케이션의 경우 특히 그렇습니다.

또 다른 과제는 진정으로 적응 가능한 오픈 소스 모델의 제한된 가용성에 있습니다. 많은 오픈 소스 옵션이 존재하지만 특정 사용 사례를 해결하거나 진화하는 요구 사항에 적응하는 데 필요한 유연성을 항상 제공하지는 못할 수 있습니다. 이는 혁신을 제한하고 개발자가 자체적인 제한 사항과 비용이 따를 수 있는 독점 솔루션에 의존하도록 강요할 수 있습니다.

현재 많은 AI 솔루션은 값비싼 클라우드 인프라에 크게 의존하고 있습니다. 클라우드 컴퓨팅은 확장성과 편의성을 제공하지만, 특히 소규모 조직이나 개인 개발자에게는 상당한 재정적 부담이 될 수도 있습니다. 강력한 컴퓨팅 리소스에 액세스하는 비용은 진입 장벽이 되어 많은 사람들이 AI 솔루션을 탐색하고 구현하는 것을 방해할 수 있습니다.

더욱이, 온디바이스 애플리케이션에 충분히 효율적이고 유연한 모델에 대한 시장 격차가 뚜렷합니다. 기존의 많은 모델은 스마트폰이나 임베디드 시스템과 같이 처리 능력과 메모리가 제한된 장치에 배포하기에는 너무 크고 리소스 집약적입니다. 이는 AI가 더 광범위한 일상 장치 및 애플리케이션에 통합될 수 있는 잠재력을 제한합니다.

이러한 과제를 해결하는 것은 AI를 더욱 접근 가능하고 사용자 정의 가능하게 만드는 데 중요합니다. 과도한 리소스 없이 다양한 애플리케이션에 맞게 조정할 수 있는 솔루션에 대한 요구가 커지고 있습니다. 이를 통해 더 많은 개발자와 조직이 AI의 힘을 활용하고 특정 요구 사항을 충족하는 혁신적인 솔루션을 만들 수 있습니다.

Reka Flash 3 소개: AI 모델링에 대한 새로운 접근 방식

Reka AI의 Reka Flash 3는 위에서 설명한 과제를 해결하는 데 있어 중요한 진전을 나타냅니다. 이 210억 개의 파라미터 추론 모델은 실용성과 다용도성에 중점을 두고 처음부터 세심하게 제작되었습니다. 다음과 같은 광범위한 애플리케이션을 위한 기본 도구로 설계되었습니다.

  • 일반 대화: 자연스럽고 일관된 대화에 참여합니다.
  • 코딩 지원: 코드 생성 및 디버깅을 통해 개발자를 지원합니다.
  • 지시 따르기: 사용자 지시를 정확하게 해석하고 실행합니다.
  • 함수 호출: 외부 도구 및 API와 원활하게 통합됩니다.

Reka Flash 3의 개발에는 신중하게 선별된 훈련 프로세스가 포함되었습니다. 이 프로세스는 다음의 조합을 활용했습니다.

  • 공개적으로 액세스 가능한 데이터 세트: 광범위한 지식 기반을 제공하기 위해 쉽게 사용할 수 있는 데이터를 활용합니다.
  • 합성 데이터 세트: 특정 기능을 향상하고 데이터 격차를 해결하기 위해 인공 데이터를 생성합니다.

이러한 혼합 접근 방식은 모델이 균형 잡히고 다양한 작업을 처리할 수 있도록 보장합니다. 추가 개선은 다음을 통해 이루어졌습니다.

  • 신중한 지시 튜닝: 지시를 이해하고 응답하는 모델의 능력을 최적화합니다.
  • REINFORCE Leave One-Out (RLOO) 방법을 사용한 강화 학습: 반복적인 피드백과 개선을 통해 모델의 성능을 향상시킵니다.

이러한 신중하고 다면적인 훈련 요법은 기능과 효율성 간의 최적의 균형을 맞추는 것을 목표로 합니다. 목표는 Reka Flash 3를 사용 가능한 AI 모델 환경에서 실용적이고 합리적인 선택으로 포지셔닝하는 것입니다.

Reka Flash 3의 기술적 특징 및 효율성

기술적인 관점에서 Reka Flash 3는 다용도성과 리소스 효율성에 기여하는 몇 가지 기능을 자랑합니다. 이러한 기능은 광범위한 배포 시나리오에서 모델을 강력하고 실용적으로 만들도록 설계되었습니다.

뛰어난 기능 중 하나는 최대 32,000개의 토큰 컨텍스트 길이를 처리할 수 있다는 것입니다. 이는 모델이 압도되지 않고 긴 문서와 복잡한 작업을 처리하고 이해할 수 있도록 해주기 때문에 상당한 이점입니다. 이 기능은 다음과 같은 애플리케이션에 특히 유용합니다.

  • 대규모 텍스트 코퍼스 분석: 광범위한 데이터 세트에서 통찰력을 추출합니다.
  • 포괄적인 요약 생성: 긴 정보를 간결한 요약으로 압축합니다.
  • 확장된 대화 참여: 긴 대화에서 컨텍스트와 일관성을 유지합니다.

또 다른 혁신적인 기능은 ‘budget forcing’ 메커니즘의 통합입니다. 이 메커니즘은 지정된 <reasoning> 태그를 통해 구현되며, 이를 통해 사용자는 모델의 추론 프로세스를 명시적으로 제어할 수 있습니다. 특히 사용자는 다음을 수행할 수 있습니다.

  • 추론 단계 수 제한: 모델의 계산 노력을 제한합니다.
  • 일관된 성능 보장: 과도한 리소스 소비를 방지합니다.
  • 응답 시간 최적화: 추론 깊이를 제한하여 더 빠른 결과를 얻습니다.

이 기능은 모델의 동작에 대한 귀중한 수준의 제어를 제공하므로 리소스 제약 조건이나 실시간 성능이 중요한 애플리케이션에 특히 적합합니다.

또한 Reka Flash 3는 온디바이스 배포를 염두에 두고 설계되었습니다. 이는 클라우드 기반 환경을 넘어 모델의 잠재적 애플리케이션을 확장하므로 중요한 고려 사항입니다. 모델의 크기와 효율성 덕분에 처리 능력과 메모리가 제한된 장치에서 실행할 수 있습니다.

  • 전체 정밀도 크기 (fp16): 39GB
  • 4비트 양자화 크기: 11GB

이러한 컴팩트한 크기, 특히 양자화를 사용하면 더 크고 리소스 집약적인 모델에 비해 더 부드럽고 반응성이 뛰어난 로컬 배포가 가능합니다. 이를 통해 AI를 다음에 통합할 수 있습니다.

  • 모바일 애플리케이션: 스마트폰 및 태블릿에서 사용자 경험을 향상시킵니다.
  • 임베디드 시스템: 리소스가 제한된 장치에서 지능형 기능을 활성화합니다.
  • 오프라인 애플리케이션: 인터넷 연결 없이도 AI 기능을 제공합니다.

평가 및 성능: 실용적인 관점

Reka Flash 3의 실용성은 평가 지표 및 성능 데이터에 의해 더욱 강조됩니다. 이 모델은 모든 벤치마크에서 기록적인 점수를 얻기 위해 노력하지는 않지만 다양한 작업에서 견고한 수준의 역량을 보여줍니다.

예를 들어, 이 모델은 MMLU-Pro 점수 65.0을 달성했습니다. 이것이 이 분야에서 가장 높은 점수는 아닐 수 있지만 컨텍스트를 고려하는 것이 중요합니다. Reka Flash 3는 범용으로 설계되었으며 이 점수는 광범위한 주제에 대한 상당한 수준의 이해를 나타냅니다. 또한 웹 검색과 같은 보충 지식 소스와 페어링하면 모델의 성능이 크게 향상될 수 있습니다. 이는 정확성과 추론 능력을 향상시키기 위해 외부 정보를 활용하는 능력을 강조합니다.

모델의 다국어 기능도 주목할 만합니다. 기계 번역에 널리 사용되는 벤치마크인 WMT’23에서 COMET 점수 83.2를 달성했습니다. 이는 모델이 주로 영어에 중점을 두고 있음에도 불구하고 비영어 입력을 처리하는 데 합리적인 수준의 숙련도를 나타냅니다. 이 기능은 모델의 잠재적 적용 가능성을 전 세계 청중과 다양한 언어 컨텍스트로 확장합니다.

Reka Flash 3를 Qwen-32B와 같은 동종 모델과 비교할 때 효율적인 파라미터 수가 분명해집니다. 훨씬 작은 모델 크기로 경쟁력 있는 성능을 달성합니다. 이러한 효율성은 다음으로 이어집니다.

  • 계산 요구 사항 감소: 개발자와 조직의 진입 장벽을 낮춥니다.
  • 더 빠른 추론 속도: 실시간 애플리케이션에서 더 빠른 응답 시간을 가능하게 합니다.
  • 낮은 에너지 소비: 보다 환경 친화적인 옵션입니다.

이러한 요소는 과장된 주장이나 지속 불가능한 리소스 요구 없이 광범위한 실제 애플리케이션에 대한 모델의 잠재력을 강조합니다.

Reka Flash 3: 균형 잡히고 접근 가능한 AI 솔루션

Reka Flash 3는 AI 모델 개발에 대한 사려 깊고 실용적인 접근 방식을 나타냅니다. 성능과 효율성 간의 균형을 우선시하여 견고하면서도 적응 가능한 모델을 만듭니다. 일반 채팅, 코딩 및 지시 작업에서의 기능은 컴팩트한 디자인 및 혁신적인 기능과 결합되어 다양한 배포 시나리오에 실용적인 옵션입니다.

32,000개의 토큰 컨텍스트 창은 모델이 복잡하고 긴 입력을 처리할 수 있도록 지원하는 반면, budget forcing 메커니즘은 사용자에게 추론 프로세스에 대한 세분화된 제어를 제공합니다. 이러한 기능은 온디바이스 배포 및 짧은 대기 시간 애플리케이션에 대한 적합성과 함께 Reka Flash 3를 유능하고 관리 가능한 AI 솔루션을 찾는 연구원과 개발자에게 귀중한 도구로 포지셔닝합니다. 불필요한 복잡성이나 과도한 리소스 요구 없이 실질적인 요구 사항에 부합하는 유망한 기반을 제공합니다.