Meta, 차세대 AI 모델 Llama 4 공개

Facebook, Instagram, WhatsApp을 운영하는 기술 대기업 Meta Platforms가 Llama 4 시리즈를 선보이며 인공지능 분야에서의 입지를 크게 강화했습니다. 이번 출시는 영향력 있는 Llama 오픈 모델 제품군의 차세대 버전을 의미하며, AI 개발 경쟁의 최전선에 서고 업계 내 경쟁 구도를 재편하려는 지속적인 노력을 보여줍니다. 이번 발표에는 각각 특정 기능과 컴퓨팅 아키텍처로 설계된 세 가지 독특한 모델이 포함되어 있으며, 일반적인 채팅 기능부터 복잡한 데이터 처리 작업에 이르기까지 다양한 애플리케이션 요구를 충족시키는 것을 목표로 합니다.

Llama 4 제품군 소개: Scout, Maverick, Behemoth

Llama 4 세대의 초기 출시는 Llama 4 Scout, Llama 4 Maverick, 그리고 아직 개발 중인 Llama 4 Behemoth라는 세 가지 특정 이름의 모델을 포함합니다. Meta는 이 모델들의 기반이 방대한 양의 레이블 없는 텍스트, 이미지, 비디오 콘텐츠로 구성된 광범위한 훈련 데이터셋에 있다고 밝혔습니다. 이러한 멀티모달 훈련 접근 방식은 모델에 정교하고 ‘광범위한 시각적 이해’ 능력을 부여하여 순수 텍스트 기반 상호작용을 넘어서는 능력을 확장하기 위한 것입니다.

Llama 4의 개발 경로는 빠르게 진화하는 AI 분야 내의 경쟁 압력에 영향을 받은 것으로 보입니다. 보고서에 따르면, 국제 AI 연구소, 특히 중국 연구소 DeepSeek의 오픈 모델 등장과 주목할 만한 효율성이 Meta 자체 개발 노력을 가속화하도록 촉발했다고 합니다. Meta는 DeepSeek과 같은 경쟁사들이 사용하는 방법론, 특히 고급 AI 모델 실행 및 배포와 관련된 컴퓨팅 비용을 성공적으로 절감한 기술을 분석하고 이해하기 위해 상당한 자원을 투입하고 전문 팀이나 ‘워룸(war rooms)’을 설립했을 가능성이 있는 것으로 이해됩니다. 이러한 경쟁적 기류는 주요 기술 기업과 연구 기관 간에 AI 성능과 운영 효율성 모두에서 혁신을 달성하기 위한 치열한 경쟁을 강조합니다.

새로운 Llama 4 라인업 전반에 걸쳐 접근성은 다양합니다. ScoutMaverick은 Meta 자체 Llama.com 포털 및 널리 사용되는 AI 개발 허브인 Hugging Face와 같은 파트너 플랫폼을 포함한 기존 채널을 통해 개발자 커뮤니티와 대중에게 공개적으로 제공됩니다. 이러한 개방성은 Llama 모델을 중심으로 더 넓은 생태계를 육성하려는 Meta의 전략을 강조합니다. 그러나 현재 시리즈에서 가장 강력한 모델로 자리 잡은 Behemoth는 아직 개발 중이며 일반 사용을 위해 출시되지 않았습니다. 동시에 Meta는 이러한 새로운 기능을 사용자 대면 제품에 통합하고 있습니다. 회사는 WhatsApp, Messenger, Instagram과 같은 자사 애플리케이션 제품군에서 작동하는 독점 AI 비서인 Meta AI가 Llama 4의 성능을 활용하도록 업그레이드되었다고 발표했습니다. 이 통합은 40개국에 걸쳐 출시되고 있지만, 고급 멀티모달 기능(텍스트, 이미지 및 잠재적으로 다른 데이터 유형 결합)은 초기에 미국 내 영어 사용자에게 제한됩니다.

라이선스 환경 탐색

일부 모델에 대한 개방성 강조에도 불구하고, Llama 4의 배포 및 사용은 특정 개발자 및 조직에게 장애물이 될 수 있는 특정 라이선스 조건의 적용을 받습니다. 주목할 만한 제한 사항은 유럽 연합 내에 기반을 두거나 주요 사업장을 둔 사용자 및 회사가 Llama 4 모델을 사용하거나 배포하는 것을 명시적으로 금지한다는 것입니다. 이러한 지리적 제한은 EU의 포괄적인 AI 법(AI Act)과 GDPR과 같은 기존 데이터 프라이버시 규정에 의해 요구되는 엄격한 거버넌스 요구 사항의 직접적인 결과일 가능성이 높습니다. 이러한 복잡한 규제 프레임워크를 탐색하는 것은 해당 지역에서 Meta의 배포 전략을 형성하는 중요한 고려 사항으로 보입니다.

또한, 이전 Llama 버전의 라이선스 구조를 반영하여 Meta는 대규모 기업에 조건을 부과합니다. 월간 활성 사용자 수가 7억 명을 초과하는 회사는 Meta에 직접 특별 라이선스를 공식적으로 요청해야 합니다. 결정적으로, 이 라이선스를 부여하거나 거부하는 결정은 전적으로 Meta의 ‘단독 재량’에 달려 있습니다. 이 조항은 Llama 생태계 일부의 ‘개방적’ 특성에도 불구하고 잠재적으로 경쟁 관계에 있는 대형 기술 기업이 자사의 가장 진보된 모델을 활용하는 방식을 Meta가 통제할 수 있게 하여 일정 수준의 전략적 감독을 유지합니다. 이러한 라이선스 뉘앙스는 고위험 AI 영역에서 개방형 혁신 촉진과 전략적 통제 유지 사이의 복잡한 상호 작용을 강조합니다.

출시와 함께 발표된 공식 커뮤니케이션에서 Meta는 Llama 4 출시를 중추적인 순간으로 규정했습니다. 회사는 블로그 게시물에서 “이 Llama 4 모델들은 Llama 생태계의 새로운 시대의 시작을 알립니다”라고 밝혔으며, “이것은 Llama 4 컬렉션의 시작일 뿐입니다”라고 덧붙였습니다. 이 미래 지향적인 성명은 Llama 4 세대 내에서 지속적인 개발 및 확장을 위한 로드맵을 시사하며, 이번 출시를 최종 목적지가 아닌 AI 발전의 지속적인 여정에서 중요한 이정표로 자리매김합니다.

아키텍처 혁신: 전문가 혼합(MoE) 접근 방식

Llama 4 시리즈를 구별하는 핵심 기술적 특징은 전문가 혼합(Mixture of Experts, MoE) 아키텍처의 채택입니다. Meta는 이것이 Llama 제품군 내에서 이 특정 설계 패러다임을 활용하는 첫 번째 코호트임을 강조합니다. MoE 접근 방식은 대규모 언어 모델이 구조화되고 훈련되는 방식에 있어 상당한 변화를 나타내며, 자원 집약적인 훈련 단계와 사용자 쿼리에 응답하는 운영 단계 모두에서 컴퓨팅 효율성 측면에서 주목할 만한 이점을 제공합니다.

핵심적으로 MoE 아키텍처는 복잡한 데이터 처리 작업을 더 작고 관리하기 쉬운 하위 작업으로 분해하여 작동합니다. 그런 다음 이러한 하위 작업은 ‘전문가(experts)’라고 하는 더 작고 전문화된 신경망 구성 요소 모음으로 지능적으로 라우팅되거나 위임됩니다. 각 전문가는 일반적으로 특정 유형의 데이터나 작업에서 뛰어난 성능을 발휘하도록 훈련됩니다. 아키텍처 내의 게이팅 메커니즘은 입력 데이터 또는 쿼리의 특정 부분을 처리하는 데 가장 적합한 전문가 또는 전문가 조합을 결정합니다. 이는 전체 모델이 입력의 모든 부분을 처리하는 기존의 밀집(dense) 모델 아키텍처와 대조됩니다.

효율성 향상은 주어진 작업에 대해 모델의 전체 매개변수 중 일부(선택된 전문가에 속하는 ‘활성’ 매개변수)만 사용된다는 사실에서 비롯됩니다. 이러한 선택적 활성화는 거대한 밀집 모델 전체를 활성화하는 것에 비해 계산 부하를 크게 줄입니다.

Meta는 이 아키텍처가 실제로 작동하는 방식을 보여주는 구체적인 세부 정보를 제공했습니다.

  • Maverick: 이 모델은 4000억 개의 상당한 총 매개변수 수를 보유합니다. 그러나 128개의 개별 ‘전문가’를 통합한 MoE 설계 덕분에 처리 중 언제든지 170억 개의 매개변수만 활성 상태로 사용됩니다. 매개변수는 종종 모델의 학습 및 문제 해결 복잡성에 대한 능력의 대략적인 지표로 간주됩니다.
  • Scout: 유사하게 구조화된 Scout는 16개의 ‘전문가’에 걸쳐 분포된 1090억 개의 총 매개변수를 특징으로 하며, Maverick과 동일한 170억 개의 활성 매개변수를 갖습니다.

이러한 아키텍처 선택을 통해 Meta는 방대한 전체 용량(높은 총 매개변수 수)을 가진 모델을 구축하면서도 추론(쿼리 처리)에 대한 관리 가능한 계산 요구 사항을 유지할 수 있어 잠재적으로 대규모 배포 및 운영에 더 실용적입니다.

성능 벤치마크 및 모델 전문화

Meta는 OpenAI, Google, Anthropic과 같은 경쟁사의 저명한 모델과 Llama 4를 비교하는 내부 벤치마크 결과를 발표하며 새로운 모델을 경쟁력 있게 포지셔닝했습니다.

Meta가 창의적인 글쓰기 및 코드 생성과 같은 작업을 포함하여 ‘일반적인 비서 및 채팅’ 애플리케이션에 최적이라고 지정한 Maverick은 특정 벤치마크에서 OpenAI의 GPT-4o 및 Google의 Gemini 2.0과 같은 모델보다 우수한 성능을 보이는 것으로 보고되었습니다. 이러한 벤치마크는 코딩 능력, 논리적 추론, 다국어 기능, 긴 텍스트 시퀀스 처리(long-context), 이미지 이해와 같은 영역을 다룹니다. 그러나 Meta 자체 데이터에 따르면 Maverick이 현재 사용 가능한 최신 및 가장 강력한 모델, 예를 들어 Google의 Gemini 2.5 Pro, Anthropic의 Claude 3.7 Sonnet 또는 OpenAI의 예상되는 GPT-4.5의 기능을 일관되게 능가하지는 못합니다. 이는 Maverick이 고성능 계층에서 강력한 위치를 목표로 하지만 경쟁사의 최신 플래그십 모델에 대해 모든 지표에서 절대적인 최고 자리를 주장하지는 못할 수 있음을 시사합니다.

반면에 Scout는 다른 강점에 맞춰져 있습니다. 광범위한 문서 요약 및 크고 복잡한 코드베이스에 대한 추론과 관련된 작업에서 그 기능이 강조됩니다. Scout의 특히 독특하고 결정적인 특징은 최대 1천만 토큰을 처리할 수 있는 매우 큰 **컨텍스트 창(context window)**입니다. 토큰은 언어 모델이 처리하는 텍스트 또는 코드의 기본 단위입니다(예: ‘understanding’이라는 단어는 ‘un-der-stand-ing’과 같은 여러 토큰으로 나뉠 수 있음). 1천만 토큰 컨텍스트 창은 실제적으로 동시에 엄청난 양의 정보(잠재적으로 수백만 단어 또는 전체 코드 라이브러리에 해당)를 수집하고 처리할 수 있는 능력을 의미합니다. 이를 통해 Scout는 매우 긴 문서나 복잡한 프로그래밍 프로젝트 전반에 걸쳐 일관성과 이해력을 유지할 수 있으며, 이는 컨텍스트 창이 작은 모델에게는 어려운 과제입니다. 또한 이 방대한 텍스트 입력과 함께 이미지도 처리할 수 있습니다.

이러한 모델을 실행하기 위한 하드웨어 요구 사항은 규모와 아키텍처를 반영합니다. Meta의 추정에 따르면:

  • Scout는 비교적 효율적이어서 단일 고급 Nvidia H100 GPU에서 실행할 수 있습니다.
  • MoE 효율성에도 불구하고 총 매개변수 수가 더 많은 Maverick은 더 상당한 리소스를 필요로 하며, Nvidia H100 DGX 시스템(일반적으로 여러 H100 GPU 포함) 또는 동등한 계산 능력이 필요합니다.

곧 출시될 Behemoth 모델은 훨씬 더 강력한 하드웨어 인프라가 필요할 것으로 예상됩니다. Meta는 Behemoth가 2880억 개의 활성 매개변수(16명의 전문가에 걸쳐 거의 2조 개의 총 매개변수 중)로 설계되었다고 밝혔습니다. 예비 내부 벤치마크는 Behemoth가 특히 복잡한 수학 문제 해결과 같은 영역에서 STEM(과학, 기술, 공학, 수학) 기술에 초점을 맞춘 여러 평가에서 GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Pro(주목할 점은 더 진보된 Gemini 2.5 Pro는 아님)와 같은 모델보다 성능이 우수함을 보여줍니다.

그러나 현재 발표된 Llama 4 모델 중 어느 것도 OpenAI의 개발 중인 o1 및 o3-mini 개념과 같은 맥락에서 ‘추론(reasoning)’ 모델로 명시적으로 설계되지 않았다는 점은 주목할 가치가 있습니다. 이러한 특수 추론 모델은 일반적으로 답변의 내부 사실 확인 및 반복적 개선을 위한 메커니즘을 통합하여 특히 사실적 쿼리에 대해 잠재적으로 더 신뢰할 수 있고 정확한 응답을 제공합니다. 절충점은 종종 대기 시간 증가인데, 이는 더 빠른 생성을 우선시하는 Llama 4 제품군의 모델과 같은 보다 전통적인 대규모 언어 모델에 비해 응답을 생성하는 데 더 오래 걸린다는 것을 의미합니다.

대화 경계 조정: 논쟁적인 주제

Llama 4 출시의 흥미로운 측면 중 하나는 특히 민감하거나 논란의 여지가 있는 주제에 관한 모델의 응답 행동을 Meta가 의도적으로 조정했다는 점입니다. 회사는 Llama 4 모델이 이전 Llama 3 제품군에 비해 ‘논쟁적인(contentious)’ 질문에 대한 답변 거부를 덜 하도록 조정되었다고 명시적으로 밝혔습니다.

Meta에 따르면, Llama 4는 이제 이전 버전이 회피하거나 일반적인 거부를 제공했을 수 있는 ‘논쟁적인(debated)’ 정치 및 사회적 주제에 참여할 가능성이 더 높습니다. 또한 회사는 Llama 4가 전적으로 참여를 거부할 프롬프트 유형과 관련하여 ‘극적으로 더 균형 잡힌(dramatically more balanced)’ 접근 방식을 보여준다고 주장합니다. 명시된 목표는 판단을 강요하지 않고 유용하고 사실적인 응답을 제공하는 것입니다.

Meta 대변인은 TechCrunch에 이 변화에 대해 다음과 같이 설명했습니다. “[Llama 4]가 판단 없이 유용하고 사실적인 응답을 제공할 것이라고 믿을 수 있습니다… 우리는 Llama가 더 많은 질문에 답하고, 다양한 관점에 응답하며 […] 특정 견해를 다른 견해보다 선호하지 않도록 계속해서 더 반응적으로 만들고 있습니다.”

이러한 조정은 인공지능 시스템에서 인지되는 편향을 둘러싼 지속적인 대중 및 정치적 논쟁을 배경으로 이루어집니다. Elon Musk 및 벤처 캐피털리스트 David Sacks와 같이 트럼프 행정부와 관련된 저명한 인물을 포함한 특정 정치 파벌 및 논평가들은 인기 있는 AI 챗봇이 종종 ‘워크(woke)’라고 묘사되는 정치적 편향을 보이며, 보수적인 관점을 검열하거나 자유주의적 관점에 편향된 정보를 제시한다고 비난해 왔습니다. 예를 들어 Sacks는 과거 OpenAI의 ChatGPT를 구체적으로 비판하며, 그것이 ‘워크하게 프로그래밍’되었고 정치 문제에 대해 신뢰할 수 없다고 주장했습니다.

그러나 AI에서 진정한 중립성을 달성하고 편향을 제거하는 과제는 기술 커뮤니티 내에서 매우 복잡하고 지속적인 문제(‘다루기 힘든(intractable)’)로 널리 인식되고 있습니다. AI 모델은 훈련받는 방대한 데이터셋에서 패턴과 연관성을 학습하며, 이러한 데이터셋은 필연적으로 포함된 인간이 생성한 텍스트와 이미지에 존재하는 편향을 반영합니다. 완벽하게 편향되지 않거나 정치적으로 중립적인 AI를 만들려는 노력은 명시적으로 이를 목표로 하는 회사조차도 어려운 것으로 입증되었습니다. Elon Musk 자신의 AI 벤처인 xAI는 특정 정치적 입장을 다른 입장보다 지지하는 것을 피하는 챗봇 개발에 어려움을 겪고 있다고 보고되었습니다.

내재된 기술적 어려움에도 불구하고 Meta와 OpenAI를 포함한 주요 AI 개발자들 사이의 추세는 논란의 여지가 있는 주제를 덜 회피하도록 모델을 조정하는 방향으로 나아가는 것으로 보입니다. 여기에는 유해하거나 노골적으로 편향된 콘텐츠 생성을 완화하려고 시도하면서 이전에 허용되었던 것보다 더 넓은 범위의 질문에 참여할 수 있도록 안전 필터와 응답 지침을 신중하게 조정하는 것이 포함됩니다. 이러한 미세 조정은 AI 회사가 개방적인 담론 촉진, 사용자 안전 보장, 강력한 기술을 둘러싼 복잡한 사회 정치적 기대 탐색 사이에서 수행해야 하는 섬세한 균형 잡기 행위를 반영합니다. 논쟁적인 쿼리 처리에 대한 명시적인 조정이 포함된 Llama 4의 출시는 이 복잡한 환경을 탐색하는 Meta의 최신 단계를 나타냅니다.