Arm과 알리바바, 엣지에 향상된 멀티모달 AI 제공

Arm Kleidi: Arm CPU에서 AI 추론 최적화

AI의 급속한 발전은 멀티모달 모델의 새로운 시대를 열고 있습니다. 이러한 정교한 시스템은 텍스트, 이미지, 오디오, 비디오, 심지어 센서 데이터를 포함한 다양한 소스의 정보를 처리하고 해석하는 능력을 갖추고 있습니다. 그러나 이러한 강력한 모델을 엣지 디바이스에 배포하는 것은 상당한 어려움이 따릅니다. 엣지 하드웨어의 전력 및 메모리 용량의 본질적인 한계와 다양한 데이터 유형을 동시에 처리하는 복잡한 작업이 결합되어 복잡한 문제를 야기합니다.

Arm Kleidi는 이러한 문제를 해결하기 위해 특별히 설계되었으며, Arm CPU에서 실행되는 모든 AI 추론 워크로드에 대해 원활한 성능 최적화를 제공합니다. Kleidi의 핵심에는 AI 가속화를 위해 구축된 고효율 오픈 소스 Arm 루틴의 간소화된 제품군인 KleidiAI가 있습니다.

KleidiAI는 이미 엣지 디바이스용으로 널리 사용되는 AI 프레임워크의 최신 버전에 통합되어 있습니다. 여기에는 ExecuTorch, Llama.cpp, XNNPACK을 통한 LiteRT, MediaPipe가 포함됩니다. 이러한 광범위한 통합은 수백만 명의 개발자에게 상당한 이점을 제공하며, 이제 추가 노력 없이 AI 성능 최적화의 이점을 자동으로 누릴 수 있습니다.

알리바바와의 파트너십: Qwen2-VL-2B-Instruct 모델

MNN과의 긴밀한 협력을 통해 엣지 디바이스에서 멀티모달 AI를 발전시키는 새로운 이정표가 달성되었습니다. MNN은 알리바바에서 개발 및 유지 관리하는 경량 오픈 소스 딥 러닝 프레임워크입니다. 이 파트너십을 통해 KleidiAI가 성공적으로 통합되어 Arm CPU를 사용하는 모바일 장치에서 멀티모달 AI 워크로드를 효율적으로 실행할 수 있게 되었습니다. 이 성과의 핵심은 알리바바의 instruction-tuned 2B 파라미터 Qwen2-VL-2B-Instruct 모델입니다. 이 모델은 이미지 이해, 텍스트-이미지 추론, 여러 언어에 걸친 멀티모달 생성에 특화되어 있으며, 모두 엣지 디바이스의 제약 조건에 맞춰 조정되었습니다.

측정 가능한 성능 향상

KleidiAI와 MNN의 통합은 Qwen2-VL-2B-Instruct 모델에 대해 상당하고 측정 가능한 성능 향상을 가져왔습니다. 엣지에서 중요한 AI 멀티모달 사용 사례 전반에 걸쳐 더 빠른 응답 시간이 관찰되었습니다. 이러한 개선 사항은 다양한 고객 중심 알리바바 애플리케이션에서 향상된 사용자 경험을 제공합니다. 예를 들면 다음과 같습니다.

  • 고객 서비스를 위한 챗봇: 고객 문의에 더 빠르고 효율적인 응답을 제공합니다.
  • 전자 상거래 애플리케이션: 사진-상품 검색을 가능하게 하여 고객이 이미지를 업로드하는 것만으로 원하는 항목을 빠르게 찾을 수 있도록 합니다.

이러한 애플리케이션의 속도 향상은 상당한 성능 향상의 직접적인 결과입니다.

  • 사전 채우기(Pre-fill) 개선: 사전 채우기에서 57%의 놀라운 성능 향상이 달성되었습니다. 이는 AI 모델이 응답을 생성하기 전에 다중 소스 프롬프트 입력을 처리하는 중요한 단계를 나타냅니다.
  • 디코드(Decode) 개선: 디코드에서 28%의 상당한 성능 향상이 관찰되었습니다. 이는 AI 모델이 프롬프트를 처리한 후 텍스트를 생성하는 프로세스입니다.

속도 외에도 KleidiAI 통합은 엣지에서 AI 워크로드를 보다 효율적으로 처리하는 데 기여합니다. 이는 멀티모달 워크로드와 관련된 전체 계산 비용을 낮춤으로써 달성됩니다. 이러한 성능 및 효율성 향상은 수백만 명의 개발자가 쉽게 이용할 수 있습니다. MNN 프레임워크뿐만 아니라 KleidiAI가 통합된 엣지 디바이스용 다른 인기 있는 AI 프레임워크에서 애플리케이션 및 워크로드를 실행하는 모든 개발자는 즉시 혜택을 받을 수 있습니다.

실제 데모: MWC 쇼케이스

MNN과의 새로운 KleidiAI 통합으로 구동되는 Qwen2-VL-2B-Instruct 모델의 실제 기능은 Mobile World Congress (MWC)에서 선보였습니다. Arm 부스에서의 데모는 다양한 시각 및 텍스트 입력 조합을 이해하는 모델의 능력을 강조했습니다. 그런 다음 모델은 이미지 내용에 대한 간결한 요약으로 응답했습니다. 이 전체 프로세스는 스마트폰의 Arm CPU에서 실행되어 솔루션의 성능과 효율성을 보여주었습니다. 이러한 스마트폰은 vivo X200 시리즈를 포함하여 MediaTek의 Arm 기반 Dimensity 9400 모바일 SoC (System-on-Chip)를 기반으로 제작되었습니다.

사용자 경험의 획기적인 발전

Arm의 KleidiAI와 알리바바의 Qwen2-VL-2B-Instruct 모델을 위한 MNN 프레임워크의 통합은 멀티모달 AI 워크로드에 대한 사용자 경험의 획기적인 발전을 나타냅니다. 이러한 발전은 Arm CPU로 구동되는 엣지에서 직접 이러한 향상된 경험을 제공합니다. 이러한 기능은 모바일 장치에서 즉시 사용할 수 있으며, 주요 고객 대면 애플리케이션은 이미 KleidiAI의 이점을 활용하고 있습니다.

엣지 디바이스에서 멀티모달 AI의 미래

앞으로 KleidiAI의 AI 워크로드에 대한 원활한 최적화는 수백만 명의 개발자에게 계속 힘을 실어줄 것입니다. 그들은 엣지 디바이스에서 점점 더 정교한 멀티모달 경험을 만들 수 있을 것입니다. 이러한 지속적인 혁신은 AI의 지속적인 발전에서 중요한 진전을 이루며 차세대 지능형 컴퓨팅을 위한 길을 열 것입니다.

알리바바 리더십의 인용문

‘알리바바 클라우드의 대규모 언어 모델 Qwen, Arm KleidiAI, MNN 간의 협력을 보게 되어 기쁩니다. MNN의 온디바이스 추론 프레임워크와 Arm KleidiAI를 통합하면 Qwen의 대기 시간과 에너지 효율성이 크게 향상되었습니다. 이 파트너십은 모바일 장치에서 LLM의 잠재력을 입증하고 AI 사용자 경험을 향상시킵니다. 온디바이스 AI 컴퓨팅을 발전시키기 위한 지속적인 노력을 기대합니다.’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.

‘MNN 추론 프레임워크와 Arm KleidiAI 간의 기술 통합은 온디바이스 가속화의 주요 돌파구를 나타냅니다. 아키텍처의 공동 최적화를 통해 Tongyi LLM의 온디바이스 추론 효율성을 크게 향상시켜 제한된 모바일 컴퓨팅 성능과 고급 AI 기능 간의 격차를 해소했습니다. 이 성과는 우리의 기술 전문성과 산업 간 협력을 강조합니다. 온디바이스 컴퓨팅 생태계를 개선하고 모바일에서 더 부드럽고 효율적인 AI 경험을 제공하기 위해 이 파트너십을 계속 이어 나가기를 기대합니다.’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.

기술적 측면 심층 분석

이 협업의 중요성을 완전히 이해하려면 몇 가지 기본 기술 세부 사항을 살펴보는 것이 도움이 됩니다.

MNN의 역할

MNN의 설계 철학은 효율성과 이식성에 중점을 둡니다. 이는 다음과 같은 몇 가지 주요 기능을 통해 이를 달성합니다.

  • 경량 아키텍처: MNN은 풋프린트가 작도록 설계되어 엣지 디바이스의 스토리지 및 메모리 요구 사항을 최소화합니다.
  • 최적화된 작업: 이 프레임워크는 Arm CPU에 특화된 고도로 최적화된 수학적 연산을 통합하여 성능을 극대화합니다.
  • 플랫폼 간 호환성: MNN은 광범위한 운영 체제 및 하드웨어 플랫폼을 지원하므로 개발자에게 다양한 선택권을 제공합니다.

KleidiAI의 기여

KleidiAI는 AI 추론을 더욱 가속화하는 특수 루틴 세트를 제공하여 MNN의 강점을 보완합니다. 이러한 루틴은 Arm의 CPU 아키텍처에 대한 광범위한 경험을 활용하여 다른 방법으로는 달성하기 어려운 성능 향상을 제공합니다. KleidiAI 기여의 주요 측면은 다음과 같습니다.

  • 고도로 최적화된 커널: KleidiAI는 행렬 곱셈 및 컨볼루션과 같은 일반적인 AI 작업에 대해 고도로 최적화된 커널을 제공합니다. 이러한 커널은 Arm CPU의 특정 기능을 활용하도록 세심하게 조정되었습니다.
  • 자동 통합: KleidiAI가 인기 있는 AI 프레임워크에 원활하게 통합된다는 것은 개발자가 이러한 최적화를 수동으로 통합할 필요가 없음을 의미합니다. 성능 이점은 자동으로 적용되어 개발 프로세스를 단순화합니다.
  • 지속적인 개선: Arm은 KleidiAI를 지속적으로 업데이트하고 개선하여 AI 가속 기술의 최전선에 있도록 최선을 다하고 있습니다.

Qwen2-VL-2B-Instruct: 강력한 멀티모달 모델

Qwen2-VL-2B-Instruct 모델은 대규모 언어 모델 및 멀티모달 AI에 대한 알리바바의 전문성을 입증합니다. 주요 기능은 다음과 같습니다.

  • Instruction Tuning: 이 모델은 지침을 따르도록 특별히 조정되어 광범위한 작업에 매우 적합합니다.
  • 멀티모달 기능: 시각 및 텍스트 정보를 모두 이해하고 처리하는 데 탁월하여 이미지 캡션 및 시각적 질문 답변과 같은 애플리케이션을 가능하게 합니다.
  • 다국어 지원: 이 모델은 여러 언어로 작동하도록 설계되어 다양한 지역 및 사용자 기반에서 적용 가능성을 넓혔습니다.
  • 엣지 디바이스에 최적화: 강력한 기능에도 불구하고 이 모델은 엣지 디바이스의 리소스 제약 조건 내에서 작동하도록 신중하게 설계되었습니다.

멀티모달 AI의 범위 확장

여기서 논의된 발전은 스마트폰에만 국한되지 않습니다. 동일한 원칙과 기술을 다음과 같은 광범위한 엣지 디바이스에 적용할 수 있습니다.

  • 스마트 홈 디바이스: 음성 비서, 보안 카메라를 위한 이미지 인식 및 기타 지능형 기능을 활성화합니다.
  • 웨어러블 디바이스: 건강 모니터링, 피트니스 추적 및 증강 현실 애플리케이션을 지원합니다.
  • 산업용 IoT: 제조 환경에서 예측 유지 보수, 품질 관리 및 자동화를 용이하게 합니다.
  • 자동차: 운전자 지원 시스템, 차량 내 엔터테인먼트 및 자율 주행 기능을 향상시킵니다.

엣지에서 멀티모달 AI의 잠재적 응용 분야는 광범위하며 계속 확장되고 있습니다. 모델이 더욱 정교해지고 하드웨어가 더욱 강력해짐에 따라 더욱 혁신적이고 영향력 있는 사용 사례가 등장할 것으로 기대할 수 있습니다. Arm과 알리바바 간의 이번 협력은 멀티모달 AI의 힘을 더 많은 사람들에게 제공하고 차세대 지능형 장치를 가능하게 하는 중요한 단계입니다. 효율성, 성능 및 개발자 접근성에 중점을 두어 이러한 발전이 기술의 미래에 광범위하고 지속적인 영향을 미칠 수 있도록 합니다.