LLM 경기장의 구글 상승세: 권력 이동
대규모 언어 모델(LLM)의 지형은 상당한 변화를 겪었으며, 구글이 두각을 나타내는 플레이어로 부상하고 Meta와 OpenAI는 주목할 만한 어려움에 직면해 있습니다. 초기에는 OpenAI가 획기적인 GPT 모델로 분야를 장악하여 LLM 성능에 대한 새로운 벤치마크를 설정했습니다. Meta는 또한 인상적인 기능을 자랑하고 공개적으로 액세스할 수 있는 코드의 무제한 사용, 수정 및 배포를 허용하는 개방형 가중치 모델을 제공하여 상당한 위치를 확보했습니다.
그러나 이러한 초기 우위로 인해 구글을 포함한 다른 기술 대기업들은 따라잡기 경쟁을 펼쳐야 했습니다. LLM의 기초가 되는 트랜스포머 아키텍처에 대한 구글의 2017년 중요한 연구 논문에도 불구하고, 회사의 초기 노력은 2023년 Bard의 널리 비판받는 출시로 인해 가려졌습니다.
최근에는 Meta와 OpenAI가 경험한 차질과 함께 구글의 강력한 새로운 LLM 도입으로 상황이 반전되었습니다. 이러한 변화는 LLM 환경의 역학을 크게 바꾸었습니다.
Meta의 Llama 4: 실수인가?
4월 5일 토요일 Meta의 Llama 4의 예상치 못한 출시로 업계 전체가 놀랐습니다.
주요 모델을 주말에 출시하기로 한 결정은 관례에 어긋나는 것으로 여겨졌고, 그 결과 미미한 반응을 얻었고 후속 주의 뉴스 흐름 속에서 발표가 가려졌습니다.
Llama 4는 멀티모달 기능(이미지, 오디오 및 기타 모달리티 처리)과 다양한 크기와 강점을 가진 세 가지 버전(Llama 4 Behemoth, Maverick 및 Scout)으로 제공되는 등 특정 강점을 가지고 있지만 출시에는 비판이 있었습니다. 특히 Llama 4 Scout 버전은 최대 1천만 개의 토큰의 상당한 컨텍스트 창을 제공하여 모델이 단일 세션에서 방대한 양의 텍스트를 처리하고 생성할 수 있었습니다.
그러나 사용자의 투표를 기반으로 LLM 순위를 매기는 플랫폼인 LMArena에서 Meta의 순위 접근 방식과 관련하여 불일치가 나타나면서 모델의 평판이 떨어졌습니다. 순위에 사용된 특정 Llama 4 모델이 일반 대중에게 제공된 모델과 다르다는 사실이 밝혀졌습니다. LMArena는 Meta가 ‘사람 선호도에 맞게 최적화된 맞춤형 모델’을 제공했다고 밝혔습니다.
또한 Llama 4 Scout의 1천만 토큰 컨텍스트 창에 대한 Meta의 주장은 회의적인 시각으로 받아들여졌습니다. 이 수치의 기술적 정확성에도 불구하고 벤치마크는 Llama 4가 긴 컨텍스트 성능에서 경쟁 모델에 뒤쳐진다는 것을 보여주었습니다.
우려를 더하여 Meta는 Llama 4 ‘추론’ 또는 ‘사고’ 모델을 출시하지 않았고 더 작은 변형 모델을 보류했지만 회사는 추론 모델이 곧 출시될 것이라고 밝혔습니다.
AI 컨설팅 회사인 Gradient Flow의 설립자인 Ben Lorica는 Meta가 모든 구성 요소가 완전히 준비된 보다 체계적인 릴리스의 표준 관행에서 벗어났다고 언급했습니다. 이는 Meta가 추론 모델 및 더 작은 버전과 같은 필수 요소가 부족하더라도 새로운 모델을 선보이고 싶어했을 수 있음을 시사합니다.
OpenAI의 GPT-4.5: 조기 철수
OpenAI도 최근 몇 달 동안 어려움에 직면했습니다.
2월 27일에 연구 미리보기로 공개된 GPT-4.5는 회사의 ‘현재까지 가장 크고 최고의 채팅 모델’로 선전되었습니다. OpenAI의 벤치마크는 GPT-4.5가 일반적으로 이전 모델인 GPT-4o보다 성능이 우수함을 나타냈습니다.
그러나 모델의 가격 구조는 비판을 받았습니다. OpenAI는 API 액세스 가격을 백만 출력 토큰당 US$150로 설정했는데, 이는 GPT-4o의 백만 토큰당 $10 가격에 비해 무려 15배나 증가한 것입니다. API를 통해 개발자는 OpenAI 모델을 애플리케이션 및 서비스에 통합할 수 있습니다.
Life Architect의 AI 컨설턴트이자 분석가인 Alan D. Thompson은 GPT-4.5가 약 5조 4천억 개의 매개변수를 가진 2025년 1분기에 출시된 가장 큰 기존 LLM일 가능성이 높다고 추정했습니다. 그는 현재 하드웨어 제약 조건을 감안할 때 그러한 엄청난 규모는 정당화하기 어렵고 대규모 사용자 기반을 제공하는 데 상당한 어려움을 야기한다고 주장했습니다.
4월 14일, OpenAI는 3개월도 채 안 되어 API를 통해 GPT-4.5 액세스를 중단하기로 결정했다고 발표했습니다. GPT-4.5는 계속 액세스할 수 있지만 ChatGPT 인터페이스를 통해 ChatGPT 사용자에게만 제한됩니다.
이 발표는 백만 토큰당 $8로 가격이 책정된 보다 경제적인 모델인 GPT-4.1의 도입과 동시에 이루어졌습니다. OpenAI의 벤치마크는 GPT-4.1이 전체적으로 GPT-4.5만큼 뛰어나지는 않지만 특정 코딩 벤치마크에서는 더 나은 성능을 보인다는 것을 나타냅니다.
OpenAI는 또한 최근에 새로운 추론 모델인 o3 및 o4-mini를 출시했으며, o3 모델은 특히 강력한 벤치마크 성능을 보여주었습니다. 그러나 o3에 대한 API 액세스 가격이 백만 출력 토큰당 $40로 책정되어 비용은 여전히 우려 사항입니다.
구글의 부상: 기회 포착
Llama 4와 ChatGPT-4.5에 대한 엇갈린 반응은 경쟁자들이 활용할 수 있는 기회를 만들었고, 그들은 기회를 포착했습니다.
Meta의 문제 있는 Llama 4 출시는 개발자들이 DeepSeek-V3, 구글의 Gemma 및 알리바바의 Qwen2.5와 같은 대안을 채택하는 것을 막을 가능성이 낮습니다. 2024년 후반에 도입된 이러한 LLM은 LMArena 및 HuggingFace 리더보드에서 선호되는 개방형 가중치 모델이 되었습니다. 그들은 인기 있는 벤치마크에서 Llama 4에 필적하거나 능가하고 저렴한 API 액세스를 제공하며 경우에 따라 소비자 등급 하드웨어에서 다운로드하여 사용할 수 있습니다.
그러나 진정으로 주목을 받은 것은 구글의 최첨단 LLM인 Gemini 2.5 Pro입니다.
3월 25일에 출시된 구글 Gemini 2.5 Pro는 작업을 추론하기 위해 자체 프롬프팅을 사용하는 GPT-o1 및 DeepSeek-R1과 유사한 ‘사고 모델’입니다. Gemini 2.5 Pro는 멀티모달이며 백만 토큰의 컨텍스트 창을 제공하고 심층 연구를 지원합니다.
Gemini 2.5는 SimpleBench에서 1위(4월 16일에 OpenAI의 o3에게 그 자리를 내주었지만) 및 Artificial Analysis의 결합된 AI Intelligence Index에서 1위를 차지하는 등 벤치마크에서 빠르게 승리했습니다. Gemini 2.5 Pro는 현재 LMArena에서 1위를 차지하고 있습니다. 4월 14일 현재 구글 모델은 LMArena에서 상위 10개 슬롯 중 5개를 차지했는데, 여기에는 Gemini 2.5 Pro, Gemini 2.0의 3가지 변형 및 Gemma 3-27B가 포함됩니다.
인상적인 성능 외에도 구글은 가격 선도자이기도 합니다. 구글 Gemini 2.5는 현재 구글의 Gemini 앱 및 구글의 AI Studio 웹사이트를 통해 무료로 사용할 수 있습니다. 구글의 API 가격 책정 또한 경쟁력이 있으며 Gemini 2.5 Pro는 백만 출력 토큰당 $10로, Gemini 2.0 Flash는 백만 토큰당 40센트로 가격이 책정되어 있습니다.
Lorica는 대용량 추론 작업의 경우 DeepSeek-R1 또는 구글 Gemini를 선택하는 경우가 많으며 OpenAI 모델을 사용하는 경우 가격 책정을 더 신중하게 고려해야 한다고 언급합니다.
Meta와 OpenAI가 반드시 붕괴 직전에 있는 것은 아니지만 OpenAI는 10억 명의 사용자를 자랑하는 ChatGPT의 인기로 이점을 누리고 있습니다. 그럼에도 불구하고 Gemini의 강력한 순위와 벤치마크 성능은 현재 구글에 유리한 LLM 환경의 변화를 나타냅니다.