Meta Llama 4란 무엇인가?
Meta Llama 4는 LLM 기술의 중요한 도약을 나타내며, 텍스트, 이미지, 비디오 데이터를 처리하고 해석할 수 있는 멀티모달 기능을 자랑합니다. 이 4세대 모델은 전 세계의 수많은 언어를 지원하여 언어 장벽을 초월합니다.
Llama 4 모델의 핵심 혁신은 Llama 제품군 최초로 전문가 혼합 아키텍처를 채택했다는 것입니다. 이 아키텍처는 각 입력 토큰에 대해 총 매개변수의 하위 집합만 동적으로 활성화하여 성능과 효율성 간의 조화로운 균형을 달성합니다.
Llama 4 커뮤니티 라이선스가 공식적으로 Open Source Initiative 승인 라이선스로 인정되지는 않지만 Meta는 Llama 4 모델을 오픈 소스로 특징짓습니다. 이 라이선스는 특정 제한 사항에 따라 Llama 4 모델에 대한 무료 사용 및 수정 권한을 부여합니다. 2025년 4월 현재 제한은 월간 사용자 7억 명으로 제한되며, 이를 초과하면 상업적 라이선스가 필요합니다.
Llama 4 라인업은 Scout, Maverick 및 Behemoth의 세 가지 주요 버전으로 구성됩니다. Scout와 Maverick은 동시에 출시되었고 Behemoth는 아직 개발 중입니다. 이러한 모델은 사양이 크게 다릅니다.
- Llama 4 Scout: 170억 개의 활성 매개변수, 16명의 전문가, 1,090억 개의 총 매개변수, 1,000만 토큰 컨텍스트 창, 2024년 8월의 지식 컷오프를 특징으로 합니다.
- Llama 4 Maverick: 또한 170억 개의 활성 매개변수를 특징으로 하지만 128명의 전문가, 4,000억 개의 총 매개변수, 100만 토큰 컨텍스트 창 및 Scout와 동일한 지식 컷오프를 자랑합니다.
- Llama 4 Behemoth: 2,880억 개의 활성 매개변수, 16명의 전문가, 2조 개의 총 매개변수, 지정되지 않은 컨텍스트 창과 지식 컷오프를 가진 세 가지 중 가장 강력합니다.
Meta Llama 4의 기능
Meta Llama 4 모델은 다음과 같은 다양한 응용 프로그램을 제공합니다.
- 네이티브 멀티모달: 텍스트, 이미지 및 비디오를 동시에 이해하는 기능입니다. 이를 통해 모델은 다양한 정보 소스에서 컨텍스트와 의미를 도출할 수 있습니다.
- 콘텐츠 요약: Llama 4 모델은 다양한 콘텐츠 유형의 정보를 효율적으로 압축할 수 있으며, 이는 멀티모달 이해의 중요한 측면입니다. 예를 들어, 모델은 비디오를 분석하고 주요 장면을 추출하여 콘텐츠에 대한 간결한 요약을 생성할 수 있습니다.
- 장문맥 처리: Llama 4 Scout는 특히 광범위한 1,000만 토큰 컨텍스트 창에 의해 촉진되어 상당한 양의 정보를 처리하도록 설계되었습니다. 이 기능은 광범위한 연구 논문을 분석하거나 긴 문서를 처리하는 것과 같은 작업에 매우 유용합니다.
- 다국어 모달리티: 모든 Llama 4 모델은 텍스트 처리, 아랍어, 영어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 포르투갈어, 스페인어, 타갈로그어, 태국어 및 베트남어에 대한 광범위한 언어를 지원하는 다국어 능력을 보여줍니다. 그러나 이미지 이해는 현재 영어로 제한되어 있습니다.
- 텍스트 생성: Llama 4 모델은 창의적인 글쓰기 노력을 포함하여 일관되고 문맥적으로 관련된 텍스트를 생성하는 데 탁월합니다. 모델은 다양한 글쓰기 스타일에 적응하고 인간 품질의 텍스트를 생성할 수 있습니다.
- 고급 추론: 이러한 모델은 복잡한 과학적 및 수학적 문제를 추론할 수 있는 능력을 가지고 있습니다. 복잡한 논리를 해독하고 정확한 결론에 도달할 수 있습니다.
- 코드 생성: Llama 4는 응용 프로그램 코드를 이해하고 생성할 수 있어 개발자가 워크플로를 간소화하는 데 도움이 됩니다. 모델은 코드 스니펫, 전체 함수를 생성하고 전체 응용 프로그램까지 개발할 수 있습니다.
- 기본 모델 기능: 오픈 모델인 Llama 4는 파생 모델 개발을 위한 기본 요소 역할을 합니다. 연구원과 개발자는 Llama 4를 특정 작업에 맞게 미세 조정하여 기존 기능을 활용하여 특수 응용 프로그램을 구축할 수 있습니다.
Meta Llama 4의 훈련 방법론
Meta는 4세대 Llama 제품군 LLM을 훈련하기 위해 일련의 고급 기술을 사용하여 이전 버전에 비해 정확성과 성능을 향상시키는 것을 목표로 했습니다. 이러한 기술에는 다음이 포함됩니다.
- 훈련 데이터: 모든 LLM의 초석은 훈련 데이터이며 Meta는 더 많은 데이터가 더 나은 성능으로 이어진다는 것을 인식했습니다. 이를 위해 Llama 4는 Llama 3를 훈련하는 데 사용된 데이터 양의 두 배인 30조 개 이상의 토큰으로 훈련되었습니다.
- 조기 융합 멀티모달: Llama 4 시리즈는 텍스트 및 비전 토큰을 통합된 모델로 통합하는 "조기 융합" 접근 방식을 채택했습니다. Meta에 따르면 이 접근 방식은 별도의 인코더와 디코더의 필요성을 제거하여 시각적 정보와 텍스트 정보 간의 보다 자연스러운 이해를 촉진합니다.
- 하이퍼파라미터 최적화: 이 기술에는 레이어당 학습률과 같은 중요한 모델 하이퍼파라미터를 미세 조정하여 보다 안정적이고 일관된 훈련 결과를 얻는 것이 포함됩니다. 이러한 매개변수를 최적화함으로써 Meta는 Llama 4의 전반적인 안정성과 성능을 향상시킬 수 있었습니다.
- iRoPE 아키텍처: 위치 임베딩 없는 인터리브된 주의 레이어 아키텍처 또는 iRoPE 아키텍처는 훈련 중에 긴 시퀀스 처리를 향상시키고 Llama 4 Scout에서 1,000만 토큰 컨텍스트 창을 용이하게 합니다. 이 아키텍처를 통해 모델은 입력 시퀀스의 먼 부분에서 정보를 유지하여 더 길고 복잡한 문서를 처리할 수 있습니다.
- MetaCLIP 비전 인코더: 새로운 Meta 비전 인코더는 이미지를 토큰 표현으로 변환하여 멀티모달 이해를 향상시킵니다. 이 인코더를 통해 Llama 4는 시각적 정보를 효과적으로 처리하고 해석할 수 있습니다.
- GOAT 안전 훈련: Meta는 훈련 전반에 걸쳐 Generative Offensive Agent Tester(GOAT)를 구현하여 LLM 취약점을 식별하고 모델 안전성을 개선했습니다. 이 기술은 모델이 유해하거나 편향된 콘텐츠를 생성할 위험을 완화하는 데 도움이 됩니다.
Llama 모델의 진화
2022년 11월 ChatGPT의 획기적인 출시 이후 업계 전반의 기업은 LLM 시장에서 발판을 마련하기 위해 경쟁했습니다. Meta는 2023년 초에 제한된 액세스로 초기 Llama 모델을 도입하여 초기 대응자 중 하나였습니다. 2023년 중반 Llama 2 출시부터 모든 후속 모델은 오픈 라이선스하에 제공되었습니다.
- Llama 1: 2023년 2월에 제한된 액세스로 출시된 원래 Llama 모델입니다.
- Llama 2: 2023년 7월에 오픈 라이선스를 가진 최초의 Llama 모델로 출시된 Llama 2는 무료 액세스 및 사용을 제공했습니다. 이 반복에는 다양한 컴퓨팅 요구 사항을 충족하는 7B, 13B 및 70B 매개변수 버전이 포함되었습니다.
- Llama 3: Llama 3 모델은 2024년 4월에 처음으로 8B 및 70B 매개변수 버전으로 데뷔했습니다.
- Llama 3.1: 2024년 7월에 출시된 Llama 3.1은 405B 매개변수 모델을 추가하여 LLM 기능의 경계를 넓혔습니다.
- Llama 3.2: Meta의 최초의 완전 멀티모달 LLM인 이 모델은 2024년 10월에 출시되어 Llama 제품군의 진화에서 중요한 이정표를 세웠습니다.
- Llama 3.3: Meta는 2024년 12월에 Llama 3.3의 70B 변형이 더 적은 컴퓨팅 리소스가 필요한 동시에 3.1의 405B 변형과 동일한 성능을 제공한다고 주장하여 지속적인 최적화 노력을 보여주었습니다.
다른 모델과 비교한 Llama 4
생성 AI의 환경은 OpenAI의 GPT-4o, Google Gemini 2.0 및 DeepSeek를 포함한 다양한 오픈 소스 프로젝트와 같은 유명 기업을 특징으로 하여 점점 더 경쟁이 치열해지고 있습니다.
Llama 4의 성능은 다음을 포함한 여러 벤치마크를 사용하여 평가할 수있습니다.
- MMMU(Massive Multi-discipline Multimodal Understanding): 이미지 추론 기능을 평가합니다.
- LiveCodeBench: 코딩 능력을 평가합니다.
- GPQA Diamond(Graduate-Level Google-Proof Q&A Diamond): 추론 및 지식을 측정합니다.
이러한 벤치마크에서 더 높은 점수는 더 나은 성능을 나타냅니다.
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
MMMU 이미지 추론 | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
이러한 벤치마크는 이미지 추론, 코딩 및 일반 지식에서 Llama 4 Maverick의 강점을 강조하여 LLM 분야에서 강력한 경쟁자로 자리매김합니다.
Llama 4 액세스
Meta Llama 4 Maverick과 Scout는 다양한 채널을 통해 쉽게 사용할 수 있습니다.
- Llama.com: Meta에서 운영하는 llama.com 웹사이트에서 Scout와 Maverick을 무료로 직접 다운로드하십시오.
- Meta.ai: Meta.ai 웹 인터페이스는 브라우저 기반으로 Llama 4에 액세스할 수 있도록 하여 로컬 설치 없이도 사용자가 모델과 상호 작용할 수 있도록 합니다.
- Hugging Face: Llama 4는 또한 머신 러닝 모델을 공유하고 검색하기 위한 인기 있는 플랫폼인 https://huggingface.co/meta-llama에서 액세스할 수 있습니다.
- Meta AI App: Llama 4는 다양한 플랫폼에서 음성 또는 텍스트를 통해 액세스할 수 있는 Meta의 AI 가상 어시스턴트를 구동합니다. 사용자는 어시스턴트를 활용하여 텍스트 요약, 콘텐츠 생성, 질문 답변과 같은 작업을 수행할 수 있습니다.