GPT-4.5는 실패작이었나? OpenAI 최신 모델 심층 분석

GPT-4.5의 규모와 범위

GPT-4.5는 단순한 크기 면에서 OpenAI의 현재까지 가장 야심 찬 프로젝트입니다. 아키텍처 및 훈련 데이터에 대한 정확한 세부 정보는 부족하지만, 훈련 과정이 너무나 계산 집약적이어서 여러 데이터 센터에 분산해야 했다는 것은 알려져 있습니다. 이것만으로도 개발에 투입된 엄청난 자원을 짐작할 수 있습니다.

이 모델의 가격 구조는 프리미엄 제품으로서의 위치를 더욱 강조합니다. 비용은 이전 모델보다 훨씬 높으며, GPT-4o보다 1530배, o1보다 35배, Claude 3.7 Sonnet보다 10~25배 더 비쌉니다. 현재 접근 권한은 ChatGPT Pro 구독자(월 200달러)와 토큰당 비용을 지불할 의향이 있는 API 클라이언트로 제한됩니다.

그러나 적어도 일부 영역에서는 성능 향상이 가격표와 일치하지 않았습니다. 초기 벤치마크에서는 GPT-4o에 비해 약간의 개선만 나타났으며, GPT-4.5가 o1 및 o3-mini와 같은 모델보다 추론 작업에서 뒤처지는 것으로 나타났습니다.

GPT-4.5의 의도된 목적 이해

OpenAI가 GPT-4.5를 주력, 범용 모델로 명시적으로 마케팅하지 않았다는 점을 인식하는 것이 중요합니다. 실제로 블로그 게시물의 초기 버전에서는 절대적인 기능의 한계를 뛰어넘는 ‘프런티어 모델’이 될 의도가 아니라고 밝혔습니다. 또한 주로 추론 모델로 설계되지 않았기 때문에 해당 목적에 최적화된 모델(예: o3 및 DeepSeek-R1)과의 직접적인 비교는 다소 오해의 소지가 있습니다.

OpenAI는 GPT-4.5가 마지막 비사고 연쇄(non-chain-of-thought) 모델이 될 것이라고 밝혔습니다. 즉, 훈련은 복잡한 추론 능력을 개발하는 것보다 방대한 양의 세계 지식을 포함하고 사용자 선호도에 맞추는 데 중점을 두었습니다.

GPT-4.5가 빛을 발할 수 있는 곳: 지식과 뉘앙스

더 큰 모델의 핵심 이점은 종종 지식 습득 능력이 확장된다는 데 있습니다. GPT-4.5는 이러한 원칙에 따라 더 작은 모델에 비해 환각을 일으키는 경향이 감소했습니다. 따라서 사실과 맥락 정보에 대한 엄격한 준수가 가장 중요한 시나리오에서 잠재적으로 가치가 있습니다.

또한 GPT-4.5는 사용자 지침과 선호도를 따르는 능력이 향상되었습니다. 이는 OpenAI의 다양한 데모와 온라인에서 공유된 사용자 경험을 통해 입증되었습니다. 이 모델은 사용자 의도의 뉘앙스를 보다 효과적으로 파악하여 보다 맞춤화되고 관련성 있는 출력을 제공하는 것으로 보입니다.

산문 품질에 대한 논쟁: 주관성과 잠재력

GPT-4.5가 우수한 산문을 생성하는 능력에 대한 활발한 논의가 있었습니다. 일부 OpenAI 경영진은 모델의 출력 품질을 칭찬했으며, CEO Sam Altman은 이 모델과의 상호 작용이 일부 안목 있는 테스터에게 ‘AGI’(인공 일반 지능)를 엿볼 수 있게 했다고 제안했습니다.

그러나 더 광범위한 반응은 분명히 엇갈렸습니다. OpenAI 공동 창립자 Andrej Karpathy는 순수한 추론에 덜 의존하는 작업, 즉 ‘EQ’(감성 지능), 창의성, 유추, 유머와 같이 세계 지식과 일반적인 이해에 의해 병목 현상이 발생하는 영역에서 개선될 것으로 예상했습니다.

흥미롭게도 Karpathy가 실시한 후속 설문 조사에서는 글쓰기 품질 측면에서 GPT-4.5보다 GPT-4o의 응답을 선호하는 일반적인 사용자 선호도가 나타났습니다. 이는 산문을 평가하는 데 내재된 주관성을 강조하고, 숙련된 프롬프트 엔지니어링을 통해 더 작고 효율적인 모델에서 비슷한 품질을 얻을 수 있음을 시사합니다.

Karpathy 자신도 결과의 모호성을 인정하면서 다양한 가능한 설명을 제시했습니다. ‘고급 취향’ 테스터는 다른 사람들이 놓친 미묘한 구조적 개선을 인식하고 있을 수 있고, 테스트된 예제가 이상적이지 않았을 수 있으며, 차이가 너무 미묘하여 작은 샘플 크기에서는 구별하기 어려울 수 있습니다.

스케일링의 한계와 LLM의 미래

GPT-4.5의 출시는 어떤 면에서는 방대한 데이터 세트로 훈련된 모델을 단순히 확장하는 것의 잠재적 한계를 강조합니다. OpenAI의 또 다른 공동 창립자이자 전 수석 과학자인 Ilya Sutskever는 NeurIPS 2024에서 “우리가 알고 있는 사전 훈련은 의심할 여지 없이 끝날 것입니다… 우리는 최고 데이터에 도달했고 더 이상 없을 것입니다. 우리는 우리가 가진 데이터를 처리해야 합니다. 인터넷은 하나뿐입니다.”라고 말했습니다.

GPT-4.5에서 관찰된 수익 감소는 주로 인터넷 데이터로 훈련되고 인간 피드백을 통한 강화 학습(RLHF)을 통해 정렬을 위해 미세 조정된 범용 모델을 확장하는 데 따르는 어려움을 보여줍니다.

대규모 언어 모델의 다음 프런티어는 테스트 시간 스케일링(또는 추론 시간 스케일링)으로 보입니다. 여기에는 사고 연쇄(CoT) 토큰을 생성하여 더 오랜 시간 동안 ‘생각’하도록 모델을 훈련시키는 것이 포함됩니다. 테스트 시간 스케일링은 복잡한 추론 문제를 해결하는 모델의 능력을 향상시키며 o1 및 R1과 같은 모델의 성공에 핵심적인 요소였습니다.

실패가 아니라 기반

GPT-4.5가 모든 작업에 최적의 선택은 아닐 수 있지만, 미래 발전의 기초 요소로서의 잠재적 역할을 인식하는 것이 중요합니다. 강력한 지식 기반은 보다 정교한 추론 모델 개발에 필수적입니다.

GPT-4.5 자체가 대부분의 애플리케이션에서 가장 많이 사용되는 모델이 되지 않더라도 후속 추론 모델의 중요한 구성 요소 역할을 할 수 있습니다. o3와 같은 모델 내에서 이미 활용되고 있을 가능성도 있습니다.

OpenAI의 최고 연구 책임자(Chief Research Officer)인 Mark Chen은 “추론을 구축하려면 지식이 필요합니다. 모델은 맹목적으로 들어가서 처음부터 추론을 배울 수 없습니다. 따라서 우리는 이 두 가지 패러다임이 상당히 상호 보완적이며 서로 피드백 루프가 있다고 생각합니다.”라고 설명했습니다.

따라서 GPT-4.5의 개발은 막다른 골목이 아니라 대규모 언어 모델의 지속적인 진화에서 전략적인 단계를 나타냅니다. 이는 AI 연구의 반복적인 특성을 보여주는 증거이며, 각 단계는 개별적으로는 미미해 보일지라도 보다 유능하고 다재다능한 AI 시스템을 향한 더 넓은 진전에 기여합니다. 이제 초점은 이 강력한 지식 기반을 활용하여 정보를 기억할 수 있을 뿐만 아니라 전례 없는 효과로 추론하고 문제를 해결할 수 있는 모델을 구축하는 데 맞춰지고 있습니다. 진정으로 지능적인 AI를 향한 여정은 계속되며, GPT-4.5는 엇갈린 반응에도 불구하고 그 여정에서 중요한 역할을 합니다.
이제 초점은 모델이 얼마나 많이 아는지가 아니라 그 지식을 얼마나 잘 사용할 수 있는지에 있습니다. 이것이 AI 커뮤니티가 씨름하고 있는 핵심 과제이며, GPT-4.5는 완벽한 솔루션은 아니지만 미래의 혁신을 위한 귀중한 통찰력과 견고한 기반을 제공합니다. 앞으로 나아갈 길은 기존 기술을 개선하고, 새로운 아키텍처를 탐색하고, 훈련 및 평가를 위한 보다 정교한 방법을 개발하는 등 다양한 접근 방식을 결합하는 것입니다. 궁극적인 목표는 동일합니다. 인간의 언어를 이해하고 생성할 수 있을 뿐만 아니라 한때 인간 지능의 독점적인 영역으로 여겨졌던 방식으로 추론하고, 배우고, 적응할 수 있는 AI 시스템을 만드는 것입니다.