GPT-4.5의 탄생: 2년간의 여정
OpenAI가 가장 야심차게 계획한 GPT-4.5 프로젝트는 출시 2년 전에 구상되었습니다. Altman은 이 프로젝트에 OpenAI의 ‘거의 모든 사람’이 참여했다고 언급하며 조직의 광범위한 참여를 강조했습니다. 이는 GPT-4.5가 조직의 더 넓은 임무 내에서 갖는 전략적 중요성을 보여줍니다.
개발 단계에서 OpenAI 팀은 ‘재앙적인 문제’라고 부르는 상황에 직면했습니다. 10만 GPU 클러스터의 배치는 드물지만 심각한 오류로 나타나는 잠재적인 인프라 취약점을 드러냈습니다. 신속성과 최적의 성능 사이의 균형을 맞추기 위해 시스템 엔지니어는 기본적으로 ‘구축 및 수정’을 동시에 수행하는 반복적인 접근 방식을 채택했습니다. 특히 해결하기 어려웠던 버그는 훈련 프로세스가 약 40% 완료될 때까지 감지되지 않은 채 클러스터를 반복적으로 괴롭혔습니다.
역설적이게도 이러한 시련은 OpenAI의 기술적 기반을 강화하는 데 기여했습니다. 이제 5~10명의 소규모 팀이 GPT-4 규모의 모델을 복제할 수 있는 전문 지식을 얻게 되었습니다. GPT-4에서 GPT-4.5로의 성능 향상은 약 10배로 추정되며, OpenAI 내부에서도 놀라울 정도로 ‘정량화하기는 어렵지만 포괄적으로 향상된 지능’으로 특징지어졌습니다. 이러한 질적인 도약은 단순한 스케일링을 넘어 모델의 추론 및 이해 능력의 근본적인 개선을 시사합니다.
OpenAI는 앞으로 성능의 다음 단계를 달성하는 것은 계산 능력뿐만 아니라 데이터 효율성에 달려 있음을 인식하고 있습니다. 따라서 사용 가능한 컴퓨팅 자원의 유용성을 극대화하여 기존 데이터 세트에서 더 많은 지식을 추출할 수 있는 알고리즘 개발에 초점을 맞추고 있습니다.
또한 아키텍처는 단일 클러스터에서 다중 클러스터 설계로 진화하여 최대 1천만 개의 GPU에 걸쳐 협업 학습을 포함하는 미래의 훈련 시나리오를 구상하고 있습니다. 이러한 전환에는 대규모 분산 시스템의 안정성과 신뢰성을 보장하기 위해 내결함성을 크게 개선해야 합니다.
이 대화에서는 데이터의 ‘긴 꼬리’와 스케일링 법칙 간의 관계, 머신 러닝 및 시스템 팀 간의 긴밀한 협업(공동 설계)의 장점, 비지도 학습의 본질, 꼼꼼한 문제 해결 문화에 대해서도 자세히 다루었습니다.
GPT-4.5의 핵심 인물
Altman 외에 이 대화에 참여한 다른 세 명의 OpenAI 팀원은 다음과 같습니다.
- Alex Paino: GPT-4.5의 사전 훈련 머신 러닝 알고리즘 담당.
- Amin Tootoonchian: OpenAI의 최고 시스템 설계자.
- Daniel Selsam: 데이터 효율성 및 알고리즘 연구.
GPT-4.5의 기원과 진화
Sam Altman: GPT-4.5처럼 큰 모델을 구축하려면 실제로 무엇이 필요합니까?
Alex Paino: 2년 전에 이 프로젝트를 시작했습니다. 당시 OpenAI는 새로운 대규모 컴퓨팅 클러스터를 출시하려던 시점이었고, 우리 팀은 이 기회를 포착하여 모델에 필요한 기능을 결정하기 위한 일련의 작업을 수행하고, 많은 수의 위험 감소 운영 테스트를 수행했습니다.
시스템에서 머신 러닝에 이르는 전체 기술 스택을 포함하는 장기 계획을 개발했습니다. 위험을 줄이고 훈련을 준비하는 것은 긴 실행 프로세스이며, 훈련 자체도 매우 큰 프로젝트입니다.
Amin Tootoonchian: 처음부터 머신 러닝 팀과 시스템 팀이 긴밀하게 협력하여 훈련할 모델을 명확히 파악한 후 훈련을 시작해야 한다고 생각합니다.
우리는 머신 러닝 및 시스템에서 예측을 통해 기대와 현실 간의 격차를 최소화하려고 노력했습니다. 그러나 작업 리듬이 매우 빠르고 최신 컴퓨팅 리소스를 사용해야 하므로 모델 훈련은 사전에 완벽하게 계획하기 어려운 것이 되었습니다.
우리는 거의 항상 해결되지 않은 많은 문제로 훈련을 시작하고 프로세스 중에 과제를 극복하고 발전을 이루려고 노력합니다. 주요 솔루션은 더 많은 컴퓨팅 리소스를 늘리는 것입니다.
마지막 단계는 실행이며, 훈련 프로세스를 완료하려면 많은 사람들이 장시간 동안 많은 에너지와 동기를 투자해야 합니다.
Sam Altman: 기대와 현실의 격차가 얼마나 된다고 생각하십니까?
Amin Tootoonchian: 시스템 측면에서 볼 때, 처음에는 예상 상태와 거리가 먼 경우가 많습니다. 우리는 항상 출시를 연기하고 문제가 해결될 때까지 기다릴지, 아니면 일찍 시작하여 프로세스 중에 문제를 해결할지 선택해야 합니다. 이 과정에서 불합리한 지연을 피하기 위해 항상 절충이 필요합니다.
그러나 거의 항상 예상치 못한 문제가 발생하며, 우리가 해야 할 일은 이러한 노드를 최대한 처리하고, 알려지지 않은 요소를 처리하고, 모델 훈련 계획을 수립하는 것입니다.
Alex Paino: 이 프로젝트에서 우리의 목표는 GPT-4.5를 만드는 것이며, 이는 GPT-4보다 10배 더 스마트해야 함을 의미합니다. 이것이 약 2년 전에 설정한 초기 목표입니다.
이 과정에서 많은 일이 일어났습니다. 우리는 예상보다 더 잘할 수 있을지, 아니면 더 못할 수 있을지 고민했습니다. 이것은 매우 복잡한 과정이지만 결국 투입한 효과적인 계산 측면에서 GPT-4보다 10배 더 스마트하다고 생각하는 모델을 얻었습니다.
Amin Tootoonchian: 실행 측면에서 볼 때, GPT-4.5 프로젝트에 소요된 시간은 우리가 처음에 예상했던 것과 거리가 멉니다.
린 팀 혁명: 최소한의 리소스로 GPT-4 훈련
Sam Altman: 클러스터가 10,000개 카드에서 100,000개 카드로 확장되었을 때 왜 그렇게 많은 문제가 발생했습니까?
Amin Tootoonchian: 시스템 개발자가 충분히 민감하다면 대부분의 문제는 소규모 단계에서 관찰할 수 있다고 생각합니다.
또한 대규모 훈련 단계에만 국한된 것은 아니지만 원래 자주 발생했지만 규모가 커진 후에는 재앙적인 문제가 되는 문제도 있으며, 특히 팀이 이러한 문제가 사전에 그렇게까지 악화될 것이라고 예상하지 못한 경우에 그렇습니다.
Sam Altman: 어떤 것들이 재앙적인 결과를 초래했습니까?
Amin Tootoonchian: 인프라 문제는 잘 알려져 있다고 생각합니다. 실패율, 실패 유형 및 총 실패량이 매우 높습니다. 100,000개 카드 클러스터는 대규모 샘플 풀이므로 컴퓨팅 성능 공급업체가 관찰하지 못한 문제도 발견했습니다.
네트워크는 그중 일부이며, 개별 가속기에도 문제가 있을 수 있습니다. 그러나 이것은 또한 이 시스템의 아름다움이기도 합니다. 예상되는 결과를 얻으려면 거의 모든 구성 요소가 예상대로 작동해야 합니다. 우리의 임무는 이 문제를 최대한 줄이는 것입니다.
Sam Altman: 클러스터 규모의 한계에서 작업하는 것은 정말 어렵지만, 더 이상 기술의 최전선에 있지 않은 작업을 수행하는 것이 훨씬 쉬워졌다는 것도 알았습니다. GPT-4.5를 훈련하려면 수백 명의 인력이 필요하며 OpenAI의 거의 모든 사람이 참여합니다.
하지만 오늘날 OpenAI에서 가장 작은 팀을 선택하여 우리가 알고 있는 모든 지식과 모든 시스템 작업을 통해 GPT-4를 처음부터 다시 훈련한다면 몇 명의 인력이 필요할까요?
Alex Paino: 이제 GPT-4 수준의 모델을 만드는 데 약 5~10명이 필요할 수 있다고 생각합니다. GPT-4.5를 완료하는 과정에서 기술 스택이 크게 향상되었습니다.
사실, 우리는 GPT-4.5를 훈련하는 과정에서 유사한 작업을 수행했습니다. GPT-4 수준의 모델인 GPT-4o를 훈련하고 GPT-4.5 연구 프로젝트의 많은 동일한 콘텐츠를 사용하여 다시 훈련했습니다. 해당 훈련에는 더 적은 인원이 사용되었습니다.
데이터 효율성: 차세대 모델의 잠재력을 여는 열쇠
Sam Altman: Dan의 관점에서 볼 때, 대규모 모델을 훈련하기 어려운 이유는 무엇입니까?
Daniel Selsam: 새로운 것을 하는 것은 어렵다고 생각합니다. 다른 사람이 무언가를 했다는 것을 발견하는 것만으로도 훨씬 쉬워집니다. 왜냐하면 가장 어려운 부분은 자신이 무언가를 할 수 있다는 믿음을 갖는 것이기 때문입니다. 무언가가 가능하다는 것을 아는 것만으로도 슈퍼 치트 코드가 되어 일이 훨씬 쉬워진다고 생각합니다.
Alex Paino: GPT 사전 훈련 작업을 이전보다 10배로 확장하고 있으며, 항상 예측할 수 없는 흥미로운 새로운 것들을 발견할 것입니다.
Sam Altman: 사전 훈련 규모에서 다음 10배 또는 100배 성장을 달성하려면 무엇이 필요합니까?
Daniel Selsam: 데이터 효율성입니다. Transformer 아키텍처(GPT)는 데이터를 매우 효율적으로 사용합니다. 정보를 잘 흡수하고 압축하여 일반화를 달성할 수 있습니다. 가장 큰 특징은 컴퓨팅 리소스를 사용하여 정보를 효율적으로 흡수할 수 있다는 것입니다.
그러나 데이터에서 얻는 통찰력의 깊이는 제한적입니다. 컴퓨팅 능력이 빠르게 증가하는 반면 데이터가 비교적 느리게 증가하면 데이터가 이 표준 모델의 병목 현상이 됩니다. 따라서 알고리즘 혁신이 필요합니다. 동일한 양의 데이터에서 더 많은 컴퓨팅 능력을 사용하여 더 많은 지식을 학습할 수 있는 방법을 개발해야 합니다.
Sam Altman: 이 외에 확장을 유지하기 위해 무엇이 더 필요하다고 생각하십니까?
Amin Tootoonchian: 제 답변은 시스템에 관한 것입니다. GPT-4.5에 필요한 막대한 작업량은 본질적으로 모델 사양의 불가피한 결과라고 생각합니다. GPT-4와 완전히 동일한 기술 아키텍처로 GPT-4.5를 훈련할 수 없습니다.
상태 관리 측면에서 볼 때, 필요한 컴퓨팅 리소스가 단일 클러스터의 수용 능력을 초과했기 때문에 다중 클러스터 훈련 아키텍처로 전환해야 합니다. 이 목표를 달성하려면 짧은 시간에 여러 가지 다른 워크플로를 통합해야 합니다.
이것이 단계적인 돌파구를 달성하는 데 도움이 되었지만, 다음 단계의 성능 향상을 달성하려면 알려져 있지만 일시적으로 보류된 몇 가지 기술적 문제를 해결해야 합니다. 이러한 문제는 피할 수 없습니다. 완벽한 시스템의 개발 주기를 끊임없이 연장하는 것은 이러한 기술적 절충입니다. 우리는 항상 최적의 구현 계획을 추구하는 과정에서 전략적 절충을 하고 있습니다.
시스템 자체가 궁극적인 목표가 아니라는 점을 분명히 해야 합니다. 실제 출력 값이 핵심 고려 사항입니다. 다음 10배 성능 향상을 위해서는 내결함성의 돌파구가 매우 중요하다고 생각합니다. 운영 및 유지 관리 불안을 크게 줄이기 위해 워크로드와 긴밀하게 협력하는 내결함성 메커니즘을 구축해야 합니다. 현재 초대형 시스템의 운영 및 유지 관리 복잡성은 본질적으로 이전 시스템의 운영 및 유지 관리 복잡성과 다릅니다.
Sam Altman: GPT-4.5 훈련 중에 특정 구성 요소로 인해 발생한 오류의 비율을 알고 있습니까?
Amin Tootoonchian: 공유할 특정 수치는 없지만 일반적으로 새로운 세대의 하드웨어를 처음 배포할 때는 완전히 이해되지 않은 많은 기술적 과제에 직면하는 경우가 많습니다. 문제를 완전히 명확히 하기 전에 프로젝트를 진행하기로 선택했는데, 이로 인해 초기 실패율이 높았습니다.
그러나 경험에 따르면 근본 원인을 식별하고 해결하면 실패율이 크게 감소합니다. 이 현상은 본질적으로 인프라에 대한 우리의 이해를 심화시키는 것을 반영합니다. 일부 사람들은 이를 인프라 정리 또는 인프라의 기본 문제 이해라고 부릅니다.
실행의 초기 단계는 거의 항상 꽤 고통스럽습니다. 프로젝트를 진행하는 동안 새로운 실패 모드를 지속적으로 발견하고 해결하지만 결국 실패율은 점차 감소하고 정상 실행 시간이 증가합니다.
이것은 본질적으로 우선 순위 절충의 문제입니다. 인프라 수명 주기의 초기 단계에서는 실패 위험을 정확하게 추정하기 어려운 경우가 많습니다. 그리고 궁극적인 이상적인 상태(원래는 ‘City Estate’, 이상적인 도시 국가 설계)를 과도하게 추구하면 시스템의 초기 가용성 성능이 극히 저조해질 수 있습니다.
계산 능력을 넘어서: 알고리즘 혁신과 데이터의 활용되지 않은 잠재력
Sam Altman: 추론 모델은 미래 기술 스택의 핵심 구성 요소이지만, 당분간은 기존 사전 훈련 모델의 개발 경계에 집중해 보겠습니다. 무제한의 GPU 컴퓨팅 능력, 무제한의 네트워크 대역폭 및 무제한의 전원 공급 장치가 있지만 시스템 안정성 문제, 내결함성 훈련 방법 부족 및 기존 데이터 세트의 제한 사항을 포함하여 기존 기술 병목 현상으로 인해 여전히 제한됩니다.
각 주요 GPT 버전 번호에 대해 100배 규모 증가를 달성하는 진화 규칙에 따라 현재 기술 경계를 기반으로 사전 훈련 모델 개발은 어느 수준에 도달할 수 있습니까? 특히 GPT 시리즈 모델의 경우 기존 지식 시스템을 기반으로 어떤 종류의 모델을 이론적으로 훈련할 수 있습니까? GPT-5.5를 만들 수 있습니까?
Alex Paino: 머신 러닝 및 알고리즘 개발의 관점에서 볼 때, 우리는 아직 명확한 이론적 한계에 도달하지 못했습니다. 실제로 우리는 데이터 효율성이 더 높은 알고리즘과 기존 데이터 리소스를 최대한 활용하는 방법을 탐색하기 시작했을 뿐입니다. 이 상황은 매우 흥미롭습니다. GPT-4와 같은 모델조차도 제한된 컴퓨팅 리소스 조건에서 대부분 개발되었으며, 이는 대부분의 이전 연구의 방향을 결정했습니다.
그러나 상황은 완전히 다릅니다. GPT-4.5 이후, 일부 주요 차원에서는 계산 능력보다는 데이터가 주요 제약 조건이 되고 있습니다. 이러한 변화는 관련 연구를 덜 흥미롭게 만듭니다.
Sam Altman: 그러나 이것은 정말 놀라운 진전이며 세상은 우리가 구축할 수 있는 최고의 모델에 대한 주요 병목 현상이 더 이상 계산 리소스가 아니라는 사실을 완전히 인식하지 못할 수 있습니다. 이 변화는 매우 의미가 있습니다. 결국 우리는 너무 오랫동안 계산 능력이 제한된 환경에서 살았습니다.
놀라움을 밝히다: 예측 가능성 대 예측할 수 없는 지능
Sam Altman: GPT-4.5 훈련 중에 배운 가장 흥미로운 머신 러닝 경험은 무엇입니까? 공유하고 싶은 내용을 말씀해 주십시오.
Amin Tootoonchian: 일반적으로 가장 생각을 자극하는 것은 우리의 예측에서 벗어나는 것, 특히 실제 성능이 예상 곡선에서 벗어나는 이유를 이해하려고 노력할 때입니다.
Alex Paino: 우리에게 가장 놀라운 발견 중 하나는 서로 다른 머신 러닝 구성 요소가 매우 다른 확장성 성능을 가지고 있다는 것입니다. 어떤 부분은 매우 잘 확장될 수 있지만 다른 부분은 확장될 수 없습니다. 이것이 우리가 실제 훈련 과정에서 실제로 깨달은 것입니다. 이 경험은 우리에게 많은 영감을 주었습니다.
Daniel Selsam: GPT 패러다임의 두 가지 핵심 특징은 첫째, 테스트 손실(모델이 보이지 않는 테스트 데이터에서 얼마나 잘 수행되는지 측정하는 지표)을 정확하게 예측할 수 있다는 점입니다. 둘째, 모델 성능은 규모 증가에 따라 예측 가능한 개선을 보인다는 점입니다. 더욱 놀라운 것은 테스트 손실의 감소가 정량화하기는 어렵지만 놀랍고 신비로운 방식으로 다양한 모든 방향으로 향상된 수준의 지능으로 변환된다는 것입니다.
Sam Altman: 이것에 대해 절대적으로 낙관적입니까? 이 관점에 완전히 동의하십니까?
Daniel Selsam: 사실, 제가 말씀드리고 싶은 것은 GPT-4.5 테스트에서 특히 흥미로운 현상을 발견했다는 것입니다. 재검사 후 모델이 보여준 많은 정교한 기능은 모든 사람의 예상을 완전히 뛰어넘었습니다.
미리 정의하기 어려운 다양한 방식으로 더 똑똑해질 것이라고 확신하며, 이러한 미묘한 개선 사항은 실제 배포 후 사용자 만족도에서 관찰할 수 있습니다. 더 강력한 상식 보유, 더 정확한 컨텍스트 이해 능력, 더 미묘한 의미론적 파악 - 이것이 추가 테스트 손실로 인한 마법입니다. 제 생각에는 스케일링 법칙이 이 차원에서 완벽하게 검증되었습니다.
협업의 힘: 조화롭게 협력하는 머신 러닝 및 시스템 팀
Sam Altman: 전체 훈련 과정에서 가장 긍정적인 순간은 언제였습니까? 가장 좋아하는 기억은 무엇입니까? 분명히 고통이 많았지만 그 고통이 완화되었기를 바랍니다.
Alex Paino: 저에게는 그런 순간이 있습니다. 훈련 중에 많은 머신 러닝 작업을 수행했는데, 프로세스 중에 우리가 만든 일부 변경 사항이 예상보다 훨씬 더 좋은 영향을 미쳤다고 생각하며, 이는 우리에게 매우 흥분되는 순간이었습니다.
Amin Tootoonchian: 저에게는 훈련과 동시에 인프라도 구축하고 있습니다. 우리는 이 성능 절벽을 넘을 수 있다고 굳게 믿고 있으며 계획이 있고 모두가 실행하고 있지만 시간이 오래 걸립니다. 이것은 힘든 일이며 제가 생각했던 것보다 훨씬 더 어렵습니다. 제 예측이 틀렸고 이러한 문제를 해결하는 데 걸리는 시간을 과소평가했습니다.
팀이 마침내 주요 문제를 극복하고 성능이 크게 향상되었을 때의 순간은 여전히 기억에 생생합니다. 전체 팀의 에너지 변화를 분명히 느낄 수 있습니다. 모두가 갑자기 에너지로 가득 차서 새로운 동기로 최종 목표를 향해 돌진합니다.
가장 놀라운 것은 상태 추적기에 표시된 예상 완료 시간이 처음 2년에서 계속 단축되어 최종적으로 명확한 시간 노드에 고정되었다는 것입니다. 이 눈에 보이는 진전은 팀의 사기 진작에 헤아릴 수 없을 정도로 중요합니다. 이것이 바로 그것의 아름다움이라고 생각합니다.
머신 러닝 작업은 결코 중단되지 않는다는 점을 강조하고 싶습니다. 훈련이 시작된 후에도 이 머신 러닝 공동 설계 프로세스는 계속 진행됩니다. 머신 러닝 팀은 ‘후속 처리’로 표시된 문제를 적극적으로 추적했을 뿐만 아니라 훈련 시간을 진정으로 최적화하는 개선 사항을 계속 제공했습니다.
이것은 우리 팀 정신을 완벽하게 구현합니다. 여기에는 ‘자기 집 앞의 눈을 치우는’ 업무 경계가 없습니다. 진정으로 매끄러운 협업입니다. 이러한 응집력이 우리의 가장 큰 장점입니다.
GPT-4.5 사전 훈련의 꼼꼼한 계획과 끊임없는 이상 탐구
Daniel Selsam: 외부에서는 이 훈련 자체의 과제와 예측 정확성에 대해 많은 논의를 했습니다. 그러나 실제로 이 모든 것은 매우 꼼꼼한 계획을 기반으로 구축되었습니다. 이에 대해 자세히 이야기해 주시겠습니까?
Alex Paino: 이것은 확실히 우리가 지금까지 만든 가장 꼼꼼한 계획입니다. 앞에서 말했듯이 훈련을 공식적으로 시작하기 1년 전에 이 프로젝트 준비를 시작했습니다. 이 기간 동안 여러 차례의 대규모 위험 통제 테스트 실행을 수행했습니다.
우리는 모든 개선 사항을 점진적으로 도입하는 데 특별한 주의를 기울입니다. 높은 신뢰도의 기본 구성에서 시작하여(GPT-4와 유사한 성숙한 아키텍처로 이해될 수 있음) 머신 러닝 수준에서 이 구성을 완전히 숙달했으며, 그런 다음 빌딩 블록처럼 새로운 기능을 계층화합니다.
핵심은 각 개선 사항의 확장성을 다양한 규모로 엄격하게 검증하는 것입니다. 성능 향상을 확인하는 것뿐만 아니라 모델 크기가 증가함에 따라 이러한 개선 사항이 계속 효과적인지 확인하는 것입니다. 많은 개선 사항이 소규모 테스트에서는 잘 수행되지만 대규모 응용 프로그램에서는 실패합니다.
따라서 우리는 전체 프로세스에서 높은 수준의 경계를 유지하고 스케일링 법칙 방법론을 계속 반복하고 개선했습니다. 이러한 위험 통제 관행을 통해 많은 귀중한 경험을 축적했으며, 이는 앞으로 GPT 시리즈 모델 개발을 계속 안내할 것입니다.
Amin Tootoonchian: 매우 그리운 흥미로운 순간이 기억납니다. 아시다시피, 훈련 작업을 시작할 때마다 거의 불가피하게 다양한 버그가 발생하며 이는 흔한 일입니다. 그러나 핵심은 진행을 방해하지 않도록 하는 것이며, 현재 진행 상황이 실제로 올바른 궤도에 있는지, 이러한 버그가 훈련의 건전성에 치명적인 영향을 미치는지 항상 확인해야 합니다.
처음에는 주요 결함이 있다는 확신이 들었지만 구축한 전체 모니터링 시스템을 통해 문제의 근본 원인을 정확하게 구별할 수 있었습니다. 하드웨어 오류입니까? 어떤 유형의 하드웨어 오류입니까? 데이터 손상입니까? 아니면 머신 러닝 모델 자체에 버그가 있습니까? 아니면 코드에 경쟁 조건이 있습니까?
당시에는 여러 문제 토론 영역이 동시에 열려 있었고 다양한 증상이 나타났습니다. 일련의 버그 수정 후 교착 상태에 빠졌습니다. 해결되지 않은 여러 문제가 우리 앞에 쌓여 있었고 모두가 머리를 쥐어짜고 있었습니다. 이것들은 서로 다른 버그로 인해 발생한 것입니까? 아니면 문제를 일으키는 버그입니까?
나중에 투표를 진행하여 팀원들에게 가장 가능성이 높은 근본 원인에 투표해 달라고 요청했습니다. 결과적으로 가장 비관적인 옵션이 진실을 밝혔습니다. 알고 보니 간단한 합산 작업인 PyTorch의 torch.sum 함수 업스트림에 문제가 있었습니다.
이 버그는 매우 흥미롭습니다. 아시다시피 우리는 주로 Triton 커널을 사용하고 일부 중요하지 않은 주변 시나리오에서만 torch 작업으로 되돌아갑니다. 특정 코드 경로로 인해 트리거된 torch.sum 함수 버그는 데이터 분포 특성으로 인해 가끔 불법 메모리 액세스를 유발합니다. 메모리 오프셋을 계산할 때 실수를 했습니다.
가장 극적인 것은 엔지니어가 마침내 문제를 찾아내고 수정을 제출했을 때 다양한 증상이 나타났던 모든 오류가 사라졌다는 것입니다. 모두가 슬랙 채널을 ‘다중 버그 이론’에서 ‘단일 버그 이론’으로 신나게 변경했고 그 장면은 매우 행복했습니다.
이 버그는 얼마나 오랫동안 잠복해 있었습니까? 훈련 초기 단계부터 존재했으며 진행률 표시줄이 약 40%를 통과할 때까지 발견되지 않았습니다. 발견 과정도 드라마로 가득 차 있었습니다. 당시 복잡한 커널이 시퀀스를 계속 호출했고 두 번째 호출이 불법 메모리 액세스를 트리거했습니다.
이 충돌 빈도는 극히 낮지만(수백 또는 수천 번의 훈련 단계마다 한 번씩 발생함) 가끔 발생하는 오류로 간과하기 쉽지만 우리 팀의 원칙은 어떤 이상도 놓치지 않는 것입니다. 이 이야기에서 가장 좋은 부분은 쉽게 포기하지 않는 이러한 끈기에 있습니다.
이상적인 시스템 추구: 멀리 떨어진 수평선
Sam Altman: GPT-4.5 사전 훈련이 시작된 후에는 무엇을 더 해야 합니까?
Alex Paino: 우리 모두는 손실 곡선을 자주 관찰해야 합니다. 또한 시스템을 지속적으로 최적화하고 훈련이 시작되기 전에 완료되지 않은 공동 설계를 개선해야 합니다. 훈련 과정에서 다양한 통계 지표를 면밀히 모니터링하여 예기치 않은 비정상적인 추세가 없는지 확인합니다. 동시에 머신 러닝 관점에서 가능한 개선 계획을 탐색합니다. 사전 훈련이 시작된 후에는 데이터 수준 작업이 일시적으로 줄어들지만 처리해야 할 작업이 여전히 많이 있습니다.
Amin Tootoonchian: 머신 러닝은 판단의 정확성에 크게 좌우된다고 생각합니다. 사전 훈련이 시작된 후 많은 소음 신호에 직면하면 우리는 찻잎을 해석하는 점쟁이와 같으며 시스템이 건전한지 판단해야 합니다. 이것이 우리의 책임입니다.
Sam Altman: 시스템 수준에서 모델 훈련을 수행하는 데 제한적인 요소는 무엇입니까? 칩, 프로세서, 메모리, 네트워크 또는 전원입니까?
Amin Tootoonchian: 시스템의 아름다움은 공동 설계를 수행할 때 워크로드가 구축하는 인프라에 적응할 수 있다는 것입니다. 여기에는 네트워크가 병목 현상이거나 메모리 대역폭이 병목 현상이라는 등의 일반적인 설명이 없습니다. 동일한 사양의 모델이라도 리소스 요구 사항을 전송하도록 선택할 수 있으며 보다 균형 잡힌 시스템을 만들도록 선택할 수 있지만 메모리 대역폭이 더 많은 것이 항상 유리합니다. 제한 조건이 없으면 이 질문에 답하기 어렵습니다.
GPT-4.5를 설계할 때 시스템이 일종의 속성을 갖도록 해야 할 수 있으며, 이는 사람의 지시 하에 생성되어야 합니다. 따라서 공동 설계는 모델 아키텍처와 건축 요소를 형성하는 데 매우 중요하며 어느 정도 시스템과 머신 러닝 측면을 연결합니다. 시스템에 우리가 그다지 갖고 싶지 않은 속성이 있다면 내 이상적인 상황은 모든 것이 분리되어 서로에게 최대 공간을 제공하는 것입니다.
때로는 모든 것이 함께 연결되어 인프라 요구 사항을 충족해야 하거나 상황이 그래야 합니다. 대부분의 경우 균형 잡힌 시스템과 균형 잡힌 통신이 필요합니다. 그리고 우리가 가진 최고의 조정 수단은 이러한 모든 공동 설계입니다.
Sam Altman: 이 이상적인 시스템 목표까지 얼마나 남았습니까?
Amin Tootoonchian: 그 목표까지는 아직 갈 길이 멉니다. 시스템을 구축하는 과정은 항상 이렇습니다. 먼저 상황이 어떻게 작동해야 하는지에 대한 이상화된 견해가 있고 기존 리소스와 이러한 차이점을 조정합니다.
우리는 이론을 위해 이론을 하는 것이 아니라 단지 우리가 그것이 무엇이 되기를 원하는지, 그것을 실현하고, 그 이상에 최대한 가깝게 만드는 것을 논의하는 것뿐이라고 생각합니다. 이것이 시스템 분야에서 가장 흥미로운 부분일 수 있습니다. 사람들은 이것이 우아한 시스템 설계라고 말하곤 했지만 궁극적으로 역사는 이 선택이 옳았는지 틀렸는지 알려줄 것입니다.
Sam Altman: 다음 대규모 훈련 전에 머신 러닝 문제에 대한 답을 얻을 수 있다면 무엇을 가장 알고 싶습니까?
Alex Paino: 제한된 데이터와 특정 필드에서 어떤 알고리즘을 사용해야 하는지 알고 싶습니다. 광범위한 질문이지만 가장 중요한 질문입니다.
Sam Altman: 앞으로 1천만 개 이상의 GPU로 동기식 사전 훈련을 수행할 예정입니까?
Alex Paino: 있을 것이라고 생각하지만 기존의 사전 훈련 모델이 아닐 수 있습니다. 그 형태는 기존 기술과 매우 다를 수 있지만 비지도 학습의 핵심은 여전히 유지될 것입니다.
Amin Tootoonchian: 반동기식 모드를 선호합니다. 물리 법칙으로 인해 완전한 동기화는 현실적이지 않습니다.
Daniel Selsam: 분산될 가능성이 더 높다고 생각합니다. 학습 및 작업 수행을 위해 AI 시스템에서 1천만 개의 GPU가 함께 작동할 것입니다. 그러나 뇌의 여러 부분과 마찬가지로 서로 통신할 필요는 없을 수 있습니다.
알고리즘 개선 및 데이터 효율성의 시너지 효과
Sam Altman: 가장 진보된 알고리즘과 인간 데이터 효율성 간의 격차는 얼마나 큽니까? 앞으로 따라잡을 수 있기를 희망할 수 있습니까?
Daniel Selsam: 둘을 직접 비교하기는 어렵습니다. 언어 학습의 격차는 분명히 큽니다. 핵심은 인간 시신경이 받는 정보의 양을 정의하는 방법입니다. 알고리즘은 일반적으로 인간보다 데이터 효율성이 훨씬 낮다고 생각합니다.
수십 년 동안 딥 러닝은 계산 능력 효율성에 집중해 왔습니다. 데이터 및 계산 능력의 증가 외에도 정말 놀라운 것은 알고리즘 개선으로 인해 생성된 시너지 효과입니다. 알고리즘 성능이 10% 또는 20% 향상될 때마다 데이터 효율성에 중첩되면 큰 영향을 미칩니다. 지금까지는 데이터 효율성을 중심으로 동원이 없었습니다. 왜냐하면 데이터가 유통되지 않고 계산 능력이 제한되어 있으면 이 접근 방식은 가치가 없기 때문입니다.
이제 AI 연구의 새로운 단계에 접어들고 있으며 데이터 효율성에서 승리를 축적하기 시작할 것입니다. 지금 우리가 극복할 수 없는 장애물에 직면할 것이라고 예측하는 것은 다소 어리석다고 생각합니다. 인간 두뇌가 작동하는 방식은 알고리즘 개선과 확실히 다르며 이 점에 대해 주의해야 합니다. 하지만 알고리즘의 미래 발전에 대해 낙관해야 한다고 생각합니다.
Sam Altman: 더 큰 규모의 사전 훈련과 모델의 더 강력한 학습 및 추론 능력 간의 상관 관계는 무엇입니까?
Alex Paino: 우리가 관찰한 것은 더 나은 사전 훈련과 비지도 학습이 종종 모델의 전반적인 지능을 향상시키고 일반화에 큰 도움이 된다는 것입니다. 이것은 추론 능력과 상호 보완적이지만 추론은 지능 향상에 더 느리게 작용할 수 있습니다. 그들은 상호 보완적이라고 생각합니다.
Sam Altman: 사전 훈련은 많은 것에서 일반적인 것 같지만 모델을 훈련하면 한 가지 유형의 작업에서만 잘 수행할 수 있습니다. 맞습니까?
Alex Paino: 이것은 매우 흥미롭지만 그들을 훈련하는 데이터를 보면 이 상황에 놀라지 않을 것입니다. 사전 훈련 데이터 세트 범위는 매우 넓으며 우리가 추구하는 것은 폭과 다양성입니다. 모델 강화 학습에 관해서는 모델이 좋은 보상 신호와 좋은 훈련 환경을 명확하게 얻도록 만들면 데이터 세트의 폭을 균형 있게 유지하기 어렵다고 생각합니다.
Daniel Selsam: 동의하지만 또 다른 요소가 있다고 생각합니다. 사전 훈련은 본질적으로 데이터를 압축하여 서로 다른 것들 사이의 연결을 발견하는 것입니다. 비유와 더 추상적인 것에 관한 것입니다. 추론은 특정 문제에 대한 신중한 사고가 필요한 기술이며 많은 유형의 문제에 대한 해결책을 얻을 수도 있습니다. 그러나 사전 훈련 과정에서는 여러 분야에서 데이터를 압축할 때 더 추상적인 지식을 배울 수 있습니다.
지능의 본질: 압축과 롱테일 효과
Sam Altman: 비지도 학습이 효과적인 이유는 무엇입니까?
Daniel Selsam: 핵심은 압축입니다. 지능의 이상적인 형태는 솔로모노프 귀납법입니다. 일반적으로 머신 러닝은 모든 가능성을 고려하지만 더 간단한 프로그램으로 테스트를 시작하는 경향이 있습니다.
현재 사전 훈련의 본질은 압축 프로세스이며, 지금까지 인간이 생산한 모든 데이터를 설명하기 위한 가장 간단한 프로그램을 찾아 대략적인 표현을 달성합니다.
Sam Altman: 다음 토큰 예측이 압축을 달성하는 데 어떻게 도움이 됩니까?
Daniel Selsam: 통계에는 역설이 있습니다. 딥 네트워크가 압축할 수 없는 것처럼 보임에도 불구하고 왜 일반화를 달성할 수 있을까요? 일반적으로 많은 데이터와 작은 모델이 있으면 이러한 모델은 무언가를 배우기 위해 압축을 거쳐야 합니다.
사전 훈련에서는 데이터 및 모델의 규모가 매우 큽니다. 일부 사람들은 이 훈련이 단지 메모리 및 보간 학습이라고 생각합니다. 사실 그들은 압축에 대한 또 다른 이해 관점을 무시합니다. pre-quential 압축. 데이터 가중치가 매우 크더라도 이진은 이 정보를 저장할 필요가 없습니다. 다음 토큰 예측 결과는 유용한 정보를 빠르게 검색하고 압축 효율성을 높일 수 있습니다.
Sam Altman: GPT-4.5 훈련 과정은 많은 인력, 시간 및 비용이 소요되었으며, 실제로 스케일링 법칙을 검증하기 위한 실험으로 간주될 수 있으며 그 결과는 효과적이며 오랫동안 지속될 것임을 입증합니다. 왜 스케일링 법칙을 우주의 법칙이라고 부를 수 있을까요?
Daniel Selsam: 압축 정도가 높을수록 지능이 더 강해집니다. 이것은 심오한 철학적 의미를 담고 있습니다. 더 큰 모델을 훈련하는 데 시간이 더 오래 걸리고 압축률이 더 높은 이유는 무엇일까요? 여기에는 많은 이론이 관련되어 있으며 그중 Sparse Representations를 좋아합니다.
현실의 핵심 개념은 멱법칙 분포를 따릅니다. 예를 들어 100번째로 중요한 개념은 100개의 문서마다 한 번만 나타날 수 있으며 명백한 롱테일 효과가 있습니다. 이러한 분포 특성으로 인해 모든 핵심 개념을 효과적으로 캡처하려면 대규모 데이터 및 계산 능력이 필요하며 스케일링 법칙이 오랫동안 효과적으로 존재하도록 결정합니다.