Ant의 혁신적인 AI 모델 훈련 접근 방식
잭 마(Jack Ma)가 지원하는 핀테크 거대 기업인 Ant Group은 중국산 반도체를 활용하여 인공 지능 분야에서 획기적인 발전을 이루었습니다. 이러한 혁신적인 접근 방식을 통해 회사는 AI 모델 훈련 기술을 개발하여 비용을 20%나 절감할 수 있었습니다. 이 문제에 정통한 소식통에 따르면 Ant는 계열사인 Alibaba Group Holding Ltd.와 Huawei Technologies Co.의 칩을 포함한 국내 칩을 활용하여 MoE(Mixture of Experts) 머신 러닝 접근 방식을 사용하는 모델을 훈련했습니다.
Ant가 달성한 결과는 미국에서 중국으로의 수출이 제한된 강력한 프로세서인 H800과 같은 Nvidia Corp.의 칩을 사용하여 얻은 결과와 비슷했습니다. Ant는 AI 개발에 Nvidia를 계속 사용하고 있지만 최신 모델에는 Advanced Micro Devices Inc.(AMD) 및 중국 칩을 포함한 대안에 점점 더 의존하고 있습니다.
AI 경쟁에 뛰어들다: 중국 vs. 미국
Ant의 AI 모델 개발 진출은 중국과 미국 기업 간의 치열한 경쟁의 한가운데에 놓이게 합니다. 이 경쟁은 DeepSeek가 OpenAI 및 Alphabet Inc.의 Google과 같은 업계 거대 기업이 투자한 수십억 달러의 일부 비용으로 매우 유능한 모델을 훈련할 수 있는 잠재력을 보여준 이후 더욱 심화되었습니다. Ant의 성과는 가장 진보된 Nvidia 반도체에 대한 현지 조달 대안을 활용하려는 중국 기업의 결의를 강조합니다.
비용 효율적인 AI 추론의 가능성
이번 달 Ant가 발표한 연구 논문은 Meta Platforms Inc.에 비해 특정 벤치마크에서 우수한 성능을 주장하며 모델의 잠재력을 강조하지만 이러한 주장은 Bloomberg News에서 독립적으로 검증되지 않았습니다. 그럼에도 불구하고 Ant의 플랫폼이 광고된 대로 작동한다면 중국 인공 지능 개발에 상당한 진전을 나타낼 수 있습니다. 이는 주로 AI 서비스 지원 프로세스인 추론 비용을 대폭 줄일 수 있기 때문입니다.
Mixture of Experts: AI의 게임 체인저
기업들이 AI에 상당한 자원을 쏟아붓는 가운데, MoE 모델은 인기 있고 효율적인 접근 방식으로 부상했습니다. Google 및 항저우 기반 스타트업 DeepSeek와 같은 회사에서 사용하는 이 기술은 작업을 더 작은 데이터 세트로 나누는 것을 포함합니다. 이는 마치 전문가 팀이 각자 작업의 특정 부분에 집중하여 전체 프로세스를 최적화하는 것과 유사합니다.
GPU 병목 현상 극복
전통적으로 MoE 모델 훈련은 Nvidia에서 제조한 그래픽 처리 장치(GPU)와 같은 고성능 칩에 크게 의존해 왔습니다. 이러한 칩의 엄청난 비용은 많은 소규모 기업에게 큰 장애물이었으며 MoE 모델의 광범위한 채택을 제한했습니다. 그러나 Ant는 대규모 언어 모델(LLM)을 보다 효율적으로 훈련하는 방법을 부지런히 연구하여 이러한 제약을 효과적으로 제거했습니다. ‘프리미엄 GPU 없이’ 모델을 확장하는 목표를 설정한 연구 논문의 제목은 이러한 목표를 명확하게 반영합니다.
Nvidia의 지배력에 도전
Ant의 접근 방식은 Nvidia의 CEO인 Jensen Huang이 옹호하는 지배적인 전략에 직접적으로 도전합니다. Huang은 DeepSeek의 R1과 같이 더 효율적인 모델이 등장하더라도 컴퓨팅 수요가 계속 증가할 것이라고 일관되게 주장해 왔습니다. 그는 기업이 비용을 줄이기 위해 더 저렴한 칩이 아니라 더 높은 수익을 창출하기 위해 더 나은 칩이 필요할 것이라고 믿습니다. 결과적으로 Nvidia는 향상된 처리 코어, 트랜지스터 및 증가된 메모리 용량을 갖춘 대형 GPU를 구축하는 데 계속 집중해 왔습니다.
비용 절감 효과 정량화
Ant는 최적화된 접근 방식의 비용 효율성을 입증하기 위해 구체적인 수치를 제공했습니다. 회사는 고성능 하드웨어를 사용하여 1조 개의 토큰을 훈련하는 데 약 635만 위안(88만 달러)의 비용이 소요될 것이라고 밝혔습니다. 그러나 더 낮은 사양의 하드웨어와 최적화된 기술을 활용하여 Ant는 이 비용을 510만 위안으로 줄일 수 있습니다. 토큰은 모델이 세상을 배우고 사용자 쿼리에 대한 관련 응답을 제공하기 위해 처리하는 정보 단위를 나타냅니다.
산업 솔루션을 위한 AI 혁신 활용
Ant는 의료 및 금융과 같은 부문을 위한 산업용 AI 솔루션을 개발하기 위해 Ling-Plus 및 Ling-Lite라는 대규모 언어 모델의 최근 발전을 활용할 계획입니다. 이러한 모델은 특정 산업 요구 사항을 해결하고 맞춤형 솔루션을 제공하도록 설계되었습니다.
의료 분야에서 AI 애플리케이션 확장
Ant의 의료에 대한 헌신은 중국 온라인 플랫폼 Haodf.com을 인공 지능 서비스에 통합한 것에서 분명하게 드러납니다. AI Doctor Assistant를 개발함으로써 Ant는 의료 기록 관리와 같은 작업을 지원하여 290,000명의 의사로 구성된 Haodf의 광범위한 네트워크를 지원하는 것을 목표로 합니다. AI의 이러한 적용은 의료 제공의 효율성과 정확성을 크게 향상시킬 수 있는 잠재력을 가지고 있습니다.
일상 생활을 위한 AI 기반 지원
의료 외에도 Ant는 Zhixiaobao라는 AI ‘생활 도우미’ 앱과 Maxiaocai라는 금융 자문 AI 서비스를 개발했습니다. 이러한 애플리케이션은 AI를 일상 생활의 다양한 측면에 통합하여 사용자에게 개인화되고 지능적인 지원을 제공하려는 Ant의 야망을 보여줍니다.
성능 벤치마킹: Ling 모델 vs. 경쟁사
연구 논문에서 Ant는 Ling-Lite 모델이 영어 이해를 위한 핵심 벤치마크에서 Meta의 Llama 모델 중 하나보다 성능이 우수하다고 주장합니다. 또한 Ling-Lite 및 Ling-Plus 모델은 모두 중국어 벤치마크에서 DeepSeek의 동급 모델에 비해 우수한 성능을 보였습니다. 이는 AI 환경에서 Ant의 경쟁적 위치를 강조합니다.
베이징 기반 AI 솔루션 제공업체 Shengshang Tech Co.의 최고 기술 책임자인 Robin Yu가 적절하게 말했듯이, “세계 최고의 쿵푸 마스터를 이길 수 있는 한 가지 공격 지점을 찾으면 여전히 그들을 이겼다고 말할 수 있습니다. 이것이 실제 응용 프로그램이 중요한 이유입니다.”
협업과 혁신을 위한 오픈 소싱
Ant는 Ling 모델을 오픈 소스로 만들어 AI 커뮤니티 내에서 협업과 혁신을 촉진했습니다. Ling-Lite는 모델의 성능을 제어하는 조정 가능한 설정인 168억 개의 매개변수로 구성됩니다. 반면 Ling-Plus는 훨씬 더 큰 2,900억 개의 매개변수를 자랑하며 더 큰 언어 모델 중 하나입니다. 참고로 전문가들은 ChatGPT의 GPT-4.5가 약 1조 8천억 개의 매개변수를 가지고 있고 DeepSeek-R1은 6,710억 개의 매개변수를 가지고 있다고 추정합니다.
모델 훈련의 과제 해결
이러한 모델을 개발하는 Ant의 여정에는 어려움이 없었던 것은 아닙니다. 회사는 훈련의 특정 영역, 특히 안정성과 관련하여 어려움을 겪었습니다. 하드웨어나 모델 구조의 사소한 변경조차도 모델의 오류율 변동을 포함한 문제로 이어질 수 있습니다. 이는 고급 AI 모델 훈련과 관련된 복잡성과 민감성을 강조합니다.
의료 분야의 실제 배포
Ant의 실제 응용 프로그램에 대한 헌신은 의료 중심 대규모 모델 머신을 배포함으로써 더욱 입증됩니다. 이러한 머신은 현재 베이징과 상하이와 같은 주요 도시의 7개 병원과 의료 제공업체에서 활용되고 있습니다. 대규모 모델은 DeepSeek R1, Alibaba의 Qwen 및 Ant 자체 LLM을 활용하여 의료 컨설팅 서비스를 제공합니다.
향상된 의료 서비스를 위한 AI 에이전트
대규모 모델 머신 외에도 Ant는 Angel과 Yibaoer라는 두 가지 의료 AI 에이전트를 도입했습니다. Angel은 이미 1,000개 이상의 의료 시설에 서비스를 제공했으며 Yibaoer는 의료 보험 서비스 지원을 제공합니다. 또한 작년 9월 Ant는 Alipay 결제 앱 내에 AI Healthcare Manager 서비스를 출시하여 의료 부문에서 도달 범위를 더욱 확장했습니다. 이러한 이니셔티브는 AI를 활용하여 의료 제공을 혁신하고 개선하려는 Ant의 헌신을 보여줍니다.