LlamaCon 실망감과 변화하는 기대
Meta의 오픈 소스 LLM인 Llama에 전념하는 첫 컨퍼런스인 LlamaCon에서는 충족되지 못한 기대감이 팽배했습니다. 참석한 여러 개발자들은 정교한 추론 모델, 또는 최소한 DeepSeek의 V3 및 Alibaba의 클라우드 컴퓨팅 부서에서 개발한 모델인 Qwen과 같은 경쟁사보다 뛰어난 기존 모델의 공개를 예상했다고 털어놓았습니다.
이러한 발표의 부재는 Llama가 AI 주도권 경쟁에서 뒤처지고 있다는 우려를 불러일으켰습니다. 컨퍼런스 한 달 전에 Meta는 오픈 가중치 모델인 Llama 4 Scout와 Llama 4 Maverick을 포함하여 Llama 제품군의 4세대를 출시했습니다. Scout는 단일 GPU에서 효율적인 성능을 위해 설계되었고 Maverick은 다른 기반 모델과 경쟁하도록 설계된 더 큰 모델입니다.
Scout 및 Maverick 외에도 Meta는 아직 훈련 중인 훨씬 더 큰 "교사 모델"인 Llama 4 Behemoth에 대한 미리보기를 제공했습니다. Behemoth의 목적은 더 크고 일반적인 모델에서 더 작고 특화된 모델을 만드는 기술인 증류를 용이하게 하는 것입니다.
그러나 Behemoth 출시 지연과 Llama 4 제품군으로 경쟁 성능을 달성하는 데 어려움이 있다는 보고서가 나왔습니다. Meta의 최첨단 기능에 대한 주장에도 불구하고 일부 개발자들 사이에서는 Llama가 더 이상 선두를 달리고 있지 않다는 인식이 있었습니다.
경쟁사의 부상: Qwen 및 DeepSeek
LlamaCon과 Llama 4 모델을 둘러싼 실망감은 Meta의 오픈 소스 LLM이 기술적 성능과 개발자의 열정 모두에서 모멘텀을 잃고 있다는 광범위한 정서를 반영합니다. Meta는 오픈 소스 원칙, 생태계 구축 및 혁신에 대한 약속을 강조하지만 DeepSeek, Qwen 및 OpenAI와 같은 경쟁업체는 추론, 도구 사용 및 실제 배포와 같은 중요한 영역에서 빠르게 발전하고 있습니다.
한 개발자인 Vineeth Sai Varikuntla는 Llama가 일반적인 사용 사례와 추론에서 Qwen과 DeepSeek을 능가할 것으로 기대했지만 Qwen이 훨씬 앞서 있다는 것을 발견하여 실망감을 표명했습니다.
이러한 정서는 Meta가 선도적인 오픈 소스 LLM으로서 Llama의 위치를 유지하는 데 직면한 과제를 강조합니다. Llama의 초기 릴리스는 상당한 관심과 찬사를 받았지만 점점 더 유능한 대안의 출현으로 경쟁 환경이 심화되었습니다.
유망한 시작: Llama 2의 영향
Llama를 둘러싼 현재의 이야기를 완전히 이해하려면 Llama의 기원과 그것이 생성한 초기 흥분을 기억하는 것이 중요합니다. 2023년 Nvidia CEO인 Jensen Huang은 Llama 2의 출시를 그해 "AI에서 가장 큰 사건"이라고 극찬했습니다. 2024년 7월까지 Llama 3의 릴리스는 OpenAI의 지배에 도전할 수 있는 최초의 오픈 LLM을 대표하는 획기적인 것으로 간주되었습니다.
SemiAnalysis의 최고 분석가인 Dylan Patel에 따르면 Llama 3의 등장은 컴퓨팅 성능에 대한 즉각적인 수요 급증을 촉발하여 GPU 임대 가격 상승으로 이어졌습니다. "Meta" 및 "Llama"에 대한 Google 검색도 이 기간 동안 정점을 찍어 새로운 모델에 대한 광범위한 관심을 나타냅니다.
Llama 3는 미국산 오픈 최고 수준의 LLM으로 기념되었습니다. 일관되게 업계 벤치마크를 능가하지는 않았지만 AI 커뮤니티 내에서 상당한 영향력과 관련성을 발휘했습니다. 그러나 이러한 역학은 점차적으로 변화했습니다.
아키텍처 변화 및 비판
Llama 4 모델은 DeepSeek에서 대중화한 아키텍처인 "전문가 혼합" 아키텍처를 도입했습니다. 이 아키텍처를 통해 모델은 특정 작업에 가장 적합한 전문 지식만 활성화할 수 있으므로 효율성이 향상됩니다.
그러나 Llama 4의 릴리스는 개발자가 공개 벤치마킹에 사용된 버전이 다운로드 및 배포에 사용할 수 있는 버전과 다르다는 것을 발견했을 때 비판에 직면했습니다. 이 불일치는 "리더보드 게임"이라는 비난으로 이어졌고, Meta는 문제의 변형이 실험적이며 모델의 여러 버전을 평가하는 것이 표준 관행이라고 밝히며 부인했습니다.
Meta의 설명에도 불구하고 논란은 Llama가 경쟁 우위를 유지하는 데 어려움을 겪고 있다는 인식에 기여했습니다. 경쟁 모델이 계속 발전함에 따라 Meta는 명확한 방향이 없는 것처럼 보였습니다.
개발자 채택 측정: 복잡한 작업
어떤 LLM 제품군이 개발자들에게 가장 인기가 있는지 결정하는 것은 어려운 작업입니다. 그러나 사용 가능한 데이터에 따르면 Llama의 최신 모델은 선두 그룹에 속하지 않습니다.
특히 Qwen은 인터넷 전반에 걸쳐 다양한 리더보드에서 지속적으로 높은 순위를 차지하고 있습니다. 성능을 기반으로 모델 순위를 매기는 사이트인 Artificial Analysis에 따르면 Llama 4 Maverick 및 Scout는 OpenAI의 GPT-4 모델(지난 해 말에 출시됨) 바로 위에 있으며 지능 면에서 xAI의 Grok 및 Anthropic의 Claude 아래에 있습니다.
개발자에게 다양한 모델에 대한 액세스를 제공하고 API 사용량을 기반으로 리더보드를 게시하는 플랫폼인 OpenRouter는 5월 초 현재 Llama 3.3이 상위 20개 모델에 포함되어 있지만 Llama 4는 포함되어 있지 않습니다.
이러한 데이터 포인트가 결정적인 것은 아니지만 Llama의 최신 반복이 이전 반복만큼 개발자들에게 강력하게 공감하지 못했다는 것을 시사합니다.
벤치마크를 넘어서: 도구 사용 및 추론
Llama 4에 대한 표준 평가가 만족스럽지 못했을 수 있지만 전문가들은 억제된 열정이 원시 성능 지표 이상의 요인에서 비롯된다고 주장합니다.
SemiAnalysis의 분석가인 AJ Kourabi는 "도구 호출"과 단순한 챗봇 기능을 넘어 확장하는 모델의 능력의 중요성을 강조합니다. 도구 호출은 모델 용량을 의미하며 인터넷 또는 사용자 장치에서 다른 응용 프로그램에 액세스하고 지시하는 기능입니다. 여행 예약 및 비용 관리와 같은 작업을 자동화하는 에이전트 AI에 중요한 기능입니다.
Meta는 Llama 모델이 API를 통해 도구 호출을 지원한다고 밝혔습니다. 그러나 개발자이자 YouTuber인 Theo Browne은 에이전트 도구가 두드러지게 나타나면서 도구 호출이 최첨단 관련성을 위한 필수가 되었다고 주장합니다.
Anthropic은 도구 사용에서 초기 리더로 부상했으며 OpenAI와 같은 독점 모델이 빠르게 따라잡고 있습니다. 올바른 응답을 생성하기 위해 올바른 도구를 안정적으로 호출하는 능력은 매우 가치가 있으며 OpenAI는 이 기능의 우선 순위를 지정하기 위해 초점을 전환했습니다.
Kourabi는 강력한 추론 모델이 없다는 것은 Meta가 뒤쳐졌다는 중요한 지표라고 주장합니다. 추론은 에이전트 AI 방정식의 기본 요소로 간주되어 모델이 작업을 분석하고 적절한 조치를 결정할 수 있도록 합니다.
Llama의 틈새 시장: 실용적인 응용 프로그램 및 엔터프라이즈 채택
AI 연구의 최전선에서의 위치에 대한 우려에도 불구하고 Llama는 여전히 많은 개발자와 조직에게 귀중한 도구입니다.
RockerBox의 제품 책임자인 Nate Jones는 개발자들에게 Llama는 미래에 요구될 가능성이 높으므로 이력서에 포함하도록 조언합니다.
GAI Insights의 CEO이자 수석 분석가인 Paul Baier는 Llama가 특히 기술 산업 외부의 많은 기업의 AI 전략에서 핵심 구성 요소로 계속 사용될 것이라고 믿습니다.
기업은 Llama가 눈에 띄는 예인 오픈 소스 모델이 덜 복잡한 작업을 처리하고 비용을 통제하는 데 중요하다는 것을 인식합니다. 많은 조직이 다양한 요구 사항을 충족하기 위해 폐쇄형 및 오픈형 모델의 조합을 선호합니다.
Snowflake의 AI 책임자인 Baris Gultekin은 고객이 벤치마크에만 의존하지 않고 특정 사용 사례를 기반으로 모델을 평가하는 경우가 많다고 지적합니다. 저렴한 비용으로 인해 Llama는 종종 많은 응용 분야에 충분합니다.
Snowflake에서 Llama는 영업 통화 기록을 요약하고 고객 리뷰에서 구조화된 정보를 추출하는 데 사용됩니다. Dremio에서 Llama는 SQL 코드를 생성하고 마케팅 이메일을 작성합니다.
Dremio의 공동 설립자이자 최고 제품 책임자인 Tomer Shiran은 대부분의 모델이 이제 기본 요구 사항을 충족할 만큼 "충분히 좋기" 때문에 특정 모델이 응용 프로그램의 80%에 중요하지 않을 수 있다고 제안합니다.
다양화되는 환경: Llama의 고정된 역할
Llama가 특정 영역에서 독점 모델과의 직접적인 경쟁에서 벗어나고 있을 수 있지만 전체 AI 환경은 더욱 다양화되고 있으며 Llama의 역할은 특정 틈새 시장 내에서 고정되고 있습니다.
Shiran은 벤치마크가 모델 선택의 주요 동인이 아니며 사용자는 자신의 사용 사례에서 모델을 테스트하는 것을 우선시한다고 강조합니다. 고객 데이터에 대한 모델의 성능이 가장 중요하며 이 성능은 시간이 지남에 따라 달라질 수 있습니다.
Gultekin은 모델 선택이 일회성 이벤트가 아니라 사용 사례별 결정인 경우가 많다고 덧붙입니다.
Llama는 최신 발전을 끊임없이 추구하는 개발자를 잃고 있을 수 있지만 실용적인 AI 기반 도구 구축에 집중하는 많은 개발자의 지원을 유지하고 있습니다.
이러한 역학은 2013년 React 출시와 2016년 PyTorch 생성으로 예시된 Meta의 광범위한 오픈 소스 전략과 일치합니다. 성공적인 생태계를 육성함으로써 Meta는 오픈 소스 커뮤니티의 기여로부터 이익을 얻습니다.
Nate Jones가 관찰한 바와 같이 Zuckerberg는 Meta의 오픈 소스 이니셔티브로부터 상당한 순풍을 얻습니다.