바이두, ERNIE X1 및 4.5 공개: AI 경쟁의 새 도전자

ERNIE X1 및 ERNIE 4.5: AI 경쟁에 뛰어든 Baidu의 새로운 모델

중국 기술 환경에서 지배적인 세력인 Baidu는 ERNIE (Enhanced Representation through Knowledge Integration) 파운데이션 모델에 대한 두 가지 중요한 업데이트를 출시했습니다. ERNIE X1ERNIE 4.5라는 이 새로운 버전은 특히 중국과 미국 기업의 발전으로 인해 경쟁이 심화되는 글로벌 AI 환경에 대한 Baidu의 전략적 대응을 나타냅니다. 이러한 모델은 단순한 점진적인 업그레이드가 아닙니다. Baidu에 따르면 경쟁사의 기능을 능가하거나 필적하는 기능을 자랑하며 사용 가능한 가장 진보된 AI 시스템과 정면으로 경쟁하도록 설계되었습니다. 두 모델 모두 ERNIE Bot 챗봇을 통해 사용자가 액세스할 수 있으며 Baidu는 주력 제품인 Baidu Search를 포함하여 더 넓은 제품 범위에 단계적으로 통합할 계획입니다.

이 릴리스의 시기는 매우 중요합니다. 생성 AI 부문은 특히 중국과 미국 간의 역학 관계에 초점을 맞춰 급속한 혁신과 치열한 경쟁을 겪고 있습니다. 중국 AI 스타트업인 DeepSeek는 2025년 초에 R1이라는 오픈 소스 추론 모델로 업계의 주목을 받았습니다. 이 모델은 훨씬 저렴한 비용으로 선도적인 AI 모델을 능가하는 성능을 보였습니다. 이러한 움직임으로 DeepSeek는 Baidu를 포함한 중국과 미국의 경쟁사보다 앞서 나갔습니다. 그러나 Baidu는 ChatGPT 경쟁자인 ERNIE Bot을 도입한 최초의 중국 회사 중 하나였습니다.

ERNIE X1 및 ERNIE 4.5: Baidu의 새로운 모델 자세히 살펴보기

ERNIE X1과 ERNIE 4.5는 모두 Baidu에서 개발했지만 서로 다른 애플리케이션에 맞게 조정된 별개의 파운데이션 모델입니다.

  • ERNIE X1: 이 모델은 DeepSeek R1 및 OpenAI의 o3 mini와 같은 모델에 직접 도전하는 고효율 추론 엔진으로 자리매김했습니다. 복잡한 논리 처리 및 다단계 문제 해결이 필요한 작업을 위해 설계되었습니다.

  • ERNIE 4.5: 이 모델은 텍스트, 이미지, 오디오 및 비디오와 같은 다양한 형태의 미디어를 처리하고 이해할 수 있는 대규모 멀티모달 AI입니다. GPT-4o 및 Google의 Gemini와 같은 모델과 경쟁합니다.

DeepSeek의 R1 등장은 Google, OpenAI, Anthropic 및 xAI와 같은 주요 AI 플레이어의 우선 순위 변화를 촉발했습니다. 이러한 회사는 원시 모델 규모와 함께 효율성과 경제성에 중점을 두기 시작했습니다. 특히 Baidu의 ERNIE X1 도입은 R1 및 기타 모델과 비슷한 성능을 잠재적으로 훨씬 더 경쟁력 있는 가격으로 제공하면서 이러한 글로벌 AI 경쟁에 진입했음을 의미합니다.

Baidu는 2025년이 대규모 언어 모델 및 관련 기술의 발전에 있어 중추적인 해라고 강조합니다. 회사의 보도 자료는 인공 지능, 데이터 센터 및 클라우드 인프라에 대한 지속적인 투자에 대한 지속적인 노력을 강조하며 AI 기능을 더욱 향상시키고 더욱 강력한 차세대 모델을 개발하는 것을 목표로 합니다.

ERNIE X1: 심층적 사고 추론 심층 분석

ERNIE X1은 ‘심층적 사고 추론’을 위해 특별히 설계된 언어 모델입니다. 이는 빠르고 패턴 기반 응답을 생성하는 데 탁월한 기존 언어 모델과 구별됩니다. 반대로 추론 모델은 복잡한 문제를 일련의 논리적 단계로 분해하도록 설계되었습니다. 다양한 잠재적 솔루션을 평가하고 최종 출력을 제시하기 전에 답변을 개선합니다. 이를 통해 다단계 계획, 논리적 추론 및 복잡한 문제 해결과 관련된 작업에 특히 적합합니다.

Baidu는 ERNIE X1의 추론 능력을 다음과 같은 몇 가지 고급 기술 덕분이라고 설명합니다.

  • Progressive Reinforcement Learning (점진적 강화 학습): 이는 피드백을 통해 모델이 지속적으로 성능을 향상시키는 반복적인 학습 프로세스를 제안합니다.
  • End-to-End Training (엔드 투 엔드 훈련): 이는 전체 모델이 별도의 단계가 아닌 동시에 최적화되는 전체적인 훈련 접근 방식을 의미합니다.
  • Chains of Thought and Action (사고 및 행동 사슬): 이 기술은 모델이 인간의 사고 과정을 모방하여 일련의 논리적 단계를 따를 수 있도록 합니다.
  • Unified Multi-faceted Reward System (통합 다면적 보상 시스템): 이는 추론의 다양한 측면에서 모델의 성능을 평가하고 보상하는 정교한 시스템을 제안합니다.

Baidu는 자세한 기술 세부 정보를 공개하지 않았지만 이러한 방법은 반복 학습, 상황 이해 및 구조화된 추론에 중점을 두고 있음을 나타냅니다. 이는 다른 성공적인 추론 모델의 특징이기도 합니다.

실제 응용 분야에서 Baidu는 ERNIE X1이 ‘이해, 계획, 성찰 및 진화에 대한 향상된 기능’을 보여준다고 주장합니다. 회사는 다음과 같은 분야에서 능숙함을 강조합니다.

  • Literary Creation (문학 창작): 창의적인 텍스트 형식 생성.
  • Manuscript Writing (원고 작성): 더 긴 문서 초안 작성 지원.
  • Dialogue (대화): 자연스럽고 일관된 대화 참여.
  • Logical Reasoning (논리적 추론): 논리적 추론이 필요한 문제 해결.
  • Complex Calculations (복잡한 계산): 복잡한 수학 연산 수행.
  • ‘Chinese Knowledge’ (중국 지식): 이 지정되지 않은 기능은 아마도 중국어, 문화 및 맥락에 대한 깊은 이해를 나타냅니다.

결과적으로 ERNIE X1은 다음과 같은 다양한 애플리케이션을 지원할 것으로 예상됩니다.

  • Search Engines (검색 엔진): 더 미묘한 이해로 검색 결과 향상.
  • Document Summarization and Q&A (문서 요약 및 Q&A): 간결한 요약 및 질문에 대한 정확한 답변 제공.
  • Image Understanding and Generation (이미지 이해 및 생성): 시각적 콘텐츠 해석 및 생성.
  • Code Interpretation (코드 해석): 프로그래밍 코드 분석 및 이해.
  • Webpage Analysis (웹페이지 분석): 웹 페이지에서 주요 정보 추출.
  • Mind Mapping (마인드 매핑): 아이디어와 개념의 시각적 표현 생성.
  • Academic Research (학술 연구): 다양한 분야의 연구 작업 지원.
  • Business and Franchise Information Search (비즈니스 및 프랜차이즈 정보 검색): 비즈니스 문의에 대한 관련 정보 제공.

ERNIE X1: 경쟁사와의 벤치마킹

Baidu는 ERNIE X1에 대한 구체적인 벤치마크 점수나 자세한 평가를 공개하지 않았지만 모델의 성능이 DeepSeek R1과 ‘동등’하며 ‘절반 가격’으로 제공된다고 주장합니다. 현재 Baidu는 시장의 다른 추론 모델과의 비교를 제공하지 않았습니다. 이러한 자세한 비교 데이터가 없기 때문에 ERNIE X1의 경쟁적 위치를 완전히 평가하기는 어렵지만 더 낮은 비용으로 비슷한 성능을 제공한다는 주장은 확실히 주목할 만합니다.

ERNIE 4.5: 네이티브 멀티모달 기능 수용

ERNIE 4.5는 Baidu에서 ‘네이티브 멀티모달 모델’로 제시됩니다. 즉, 텍스트, 이미지, 오디오 및 비디오와 같은 다양한 형태의 미디어를 통합 프레임워크 내에서 원활하게 통합하고 이해하도록 설계되었습니다. 서로 다른 미디어 유형을 별도로 처리하는 많은 AI 시스템과 달리 ERNIE 4.5는 이러한 양식을 결합하고 심지어 이들 간에 변환(예: 텍스트를 오디오로 또는 그 반대로)하도록 설계되었습니다.

Baidu는 ERNIE 4.5가 ‘여러 양식의 공동 모델링을 통해 협업 최적화를 달성하여 탁월한 멀티모달 이해 능력을 보여준다’고 강조합니다. 이는 모델이 서로 다른 미디어 유형에서 정보를 이해하고 관련시키는 방법을 배우는 정교한 접근 방식을 제안합니다.

멀티모달 능력 외에도 ERNIE 4.5는 ‘정제된 언어 기술’을 자랑하며 이해 및 생성 능력뿐만 아니라 논리적 추론, 기억 및 코딩 능력을 향상시킵니다. Baidu는 또한 모델의 ‘강력한 지능’과 ‘상황 인식’, 특히 인터넷 밈 및 풍자 만화와 같은 미묘한 콘텐츠를 인식하는 능력을 강조합니다. 이는 콘텐츠의 문자적 의미뿐만 아니라 문화적, 사회적 맥락을 이해하는 데 중점을 두고 있음을 나타냅니다.

또한 Baidu는 ERNIE 4.5가 ‘환각’에 덜 취약하다고 주장합니다. 환각은 모델이 처음에는 그럴듯해 보일 수 있는 거짓 또는 오해의 소지가 있는 정보를 생성하는 AI의 일반적인 문제입니다. 환각은 AI 시스템의 신뢰성과 신뢰성을 손상시킬 수 있으므로 이는 중요한 개선 사항입니다.

Baidu는 이러한 발전을 다음과 같은 몇 가지 핵심 기술 덕분이라고 생각합니다.

  • Spatiotemporal Representation Compression (시공간 표현 압축): 이는 비디오 콘텐츠와 같이 시간과 공간에 따라 변하는 정보를 효율적으로 표현하고 처리하는 기술을 나타냅니다.
  • Knowledge-Centric Training Data Construction (지식 중심 훈련 데이터 구성): 이는 사실적 지식이 풍부한 훈련 데이터 세트를 구축하는 데 중점을 두고 있음을 시사합니다.
  • Self-Feedback Enhanced Post-Training (자체 피드백 강화 사후 훈련): 이는 모델이 자체 출력에서 학습하고 시간이 지남에 따라 성능을 향상시킬 수 있는 메커니즘을 의미합니다.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE) (이기종 멀티모달 전문가 혼합): 이 접근 방식은 필요할 때만 활성화되는 더 작고 특수한 ‘전문가’ 모델을 활용합니다. 이는 성능을 최적화하고 계산 비용을 줄입니다. MoE 모델은 종종 기존 트랜스포머 기반 모델보다 작고 비용 효율적이지만 비슷하거나 더 우수한 성능을 달성할 수 있으므로 AI 개발에 매력적인 옵션입니다.

앞으로 보고서에 따르면 Baidu는 2025년 후반에 ERNIE 5를 출시할 계획이며 멀티모달 기능에서 ‘큰 향상’을 약속합니다. 이는 멀티모달 AI의 경계를 계속 넓히려는 지속적인 노력을 시사합니다.

ERNIE 4.5: 비교 분석

Baidu는 ERNIE 4.5의 멀티모달 기능을 OpenAI의 GPT-4o와 직접 비교했습니다. 회사는 ERNIE 4.5가 MMU (Massive Multi-discipline Understanding)를 제외한 거의 모든 벤치마크에서 GPT-4o를 능가했다고 주장합니다. MMU는 심층적인 주제 지식과 신중한 추론이 필요한 광범위한 대학 수준 작업에서 모델을 평가합니다. 이는 ERNIE 4.5가 많은 영역에서 탁월하지만 GPT-4o가 전문적인 학문적 지식이 필요한 작업에서 여전히 우위를 점할 수 있음을 시사합니다.

Baidu는 또한 ERNIE 4.5가 다음과 같은 여러 다른 영역에서 OpenAI의 GPT-4o 및 GPT-4.5뿐만 아니라 DeepSeek의 V3를 능가한다는 벤치마크 결과를 제시합니다.

  • C-Eval: 이 벤치마크는 인문학에서 과학 및 공학에 이르기까지 다양한 분야에서 고급 지식 및 추론 능력을 평가합니다. 여기서 ERNIE 4.5의 강력한 성능은 다양한 주제에 대한 폭넓은 이해를 시사합니다.
  • CMMLU: 이 벤치마크는 중국어 및 문화의 특정 맥락 내에서 지식 및 추론 능력을 평가합니다. 여기서 ERNIE 4.5의 성공은 이 영역에서의 능숙함을 강조합니다.
  • GSM8K: 이 벤치마크는 초등학교 수학 문제를 사용하여 다단계 추론을 평가합니다. ERNIE 4.5의 성능은 수학적 추론에 대한 강력한 능력을 나타냅니다.
  • DROP: 이 벤치마크는 LLM의 독해 능력을 측정합니다. ERNIE 4.5의 결과는 높은 수준의 텍스트 이해를 시사합니다.

그러나 ERNIE 4.5가 우수한 성능을 보인 많은 벤치마크가 특히 중국어 및 문화에 초점을 맞추었다는 점을 인정하는 것이 중요합니다. 이것은 미국 회사에서 개발한 모델인 GPT-4o 및 GPT-4.5가 제대로 수행되지 않은 이유를 부분적으로 설명할 수 있습니다. 그럼에도 불구하고 ERNIE 4.5는 중국 회사에서 개발한 모델인 DeepSeek-V3보다 이러한 벤치마크 중 많은 부분에서 더 나은 성능을 보였으며 이는 중국 상황에서 진정한 경쟁 우위를 나타냅니다.

반대로 ERNIE 4.5는 다음과 같은 특정 다른 벤치마크에서는 제대로 수행되지 않은 것으로 알려졌습니다.

  • MMLU-Pro: 이 벤치마크는 더 광범위하고 어려운 작업 세트에서 언어 이해를 평가합니다. GPT-4.5는 여기서 ERNIE 4.5보다 성능이 뛰어나 일반적인 언어 이해에서 잠재적인 이점을 시사합니다.
  • GPQA: 이 벤치마크는 생물학, 물리학 및 화학 전문가가 작성한 객관식 질문 데이터 세트로 구성됩니다. GPT-4.5는 다시 ERNIE 4.5보다 성능이 뛰어나 전문적인 과학 지식에 대한 더 강력한 이해를 나타냅니다.
  • Math-500: 이 벤치마크는 어려운 고등학교 수준의 수학 문제를 해결하는 능력을 테스트합니다. DeepSeek-V3와 GPT-4.5는 모두 ERNIE 4.5보다 성능이 뛰어나 고급 수학적 추론에서 추가 개선이 필요함을 시사합니다.
  • LiveCodeBench: 이 벤치마크는 코딩 능력을 측정합니다. GPT-4.5는 ERNIE 4.5보다 성능이 뛰어나 코드 생성 및 이해에서 잠재적인 이점을 나타냅니다.

일부 벤치마크에서 GPT-4.5의 우수한 성능에도 불구하고 Baidu는 ERNIE 4.5의 가격이 OpenAI 모델의 1%에 불과하다고 강조합니다. 이러한 상당한 비용 차이로 인해 ERNIE 4.5는 비용 효율적인 멀티모달 AI 솔루션을 찾는 기업과 개발자에게 매우 매력적인 옵션이 될 수 있습니다.

ERNIE X1 및 ERNIE 4.5 액세스

ERNIE 4.5는 현재 API와 Baidu AI Cloud의 MaaS (Model-as-a-Service) 플랫폼인 Qianfan을 통해 액세스할 수 있습니다. 입력 가격은 1,000 토큰당 0.004 RMB부터 시작하고 출력 가격은 1,000 토큰당 0.016 RMB부터 시작합니다. Baidu는 ERNIE X1이 ‘곧’ 플랫폼에서 제공될 것이며 입력 가격은 1,000 토큰당 0.002 RMB부터 시작하고 출력 가격은 1,000 토큰당 0.008 RMB부터 시작한다고 밝혔습니다.

사용자는 Baidu의 챗봇인 ERNIE Bot을 통해 두 모델과 상호 작용할 수도 있어 기능을 탐색할 수 있는 편리하고 사용자 친화적인 인터페이스를 제공합니다.

구체적인 가격 구조 및 가용성 세부 정보는 개별 개발자에서 대기업에 이르기까지 광범위한 사용자가 이러한 고급 AI 모델에 액세스할 수 있도록 하려는 Baidu의 노력을 강조합니다. 특히 ERNIE X1의 경쟁력 있는 가격은 Baidu를 글로벌 AI 시장의 강력한 경쟁자로 자리매김하여 미국 기술 대기업의 모델에 대한 매력적인 대안을 제공합니다.