OpenAI GPT-4.5 훈련 심층 분석: 도전과 혁신

OpenAI GPT-4.5 훈련 심층 분석: 계산적 도전과 혁신

GPT-4.5의 개발은 2년 전에 시작된 프로젝트로, OpenAI의 가장 야심 찬 시도입니다. 이 거대한 프로젝트에는 수백 명의 개인들이 협력했으며, OpenAI의 CEO인 샘 알트만은 이 프로젝트가 조직 전체의 참여를 필요로 했다고 언급했습니다.

대규모 훈련에서의 ‘파국적 문제’ 극복

GPT-4.5를 만드는 과정은 어려움이 없지 않았습니다. 팀은 연구 개발 단계에서 수많은 ‘파국적 문제’에 직면했습니다. 10만 개의 GPU 클러스터를 사용하여 이전에는 볼 수 없었던, 확률은 낮지만 심각한 인프라 오류를 발견했습니다. 속도와 최적의 성능 사이의 균형을 맞추기 위해 OpenAI의 시스템 팀은 ‘수정하면서 진행하는’ 방식을 채택해야 했습니다. 특히 해결하기 어려웠던 버그는 클러스터를 빈번한 오류로 괴롭혔지만, 훈련 과정의 약 40%가 경과할 때까지 감지되지 않았습니다.

이러한 어려움에도 불구하고 GPT-4.5 프로젝트는 더욱 강력한 기술 스택 개발을 촉진했습니다. 현재는 단 5-10명의 소규모 팀이 GPT-4와 유사한 대규모 모델을 복제할 수 있습니다. GPT-4에서 GPT-4.5로의 성능 향상은 약 10배였으며, ‘정량화하기는 어렵지만 모든 측면에서 향상된 지능’이라는 결과를 얻었으며, 이는 OpenAI 직원들조차 놀라게 했습니다.

초점 전환: 계산 능력에서 데이터 효율성으로

OpenAI는 다음 10배 또는 100배의 성능 도약을 달성하는 것이 원시 계산 능력이 아니라 데이터 효율성, 즉 더 많은 계산 자원을 활용하면서 동일한 양의 데이터에서 더 많은 지식을 추출하는 능력에 달려 있다는 것을 깨달았습니다.

아키텍처도 단일 클러스터에서 멀티 클러스터 패러다임으로 진화하고 있습니다. 향후 훈련 반복에는 최대 1천만 개의 GPU가 협력 학습에 참여할 수 있으며, 이는 더욱 높은 내결함성을 필요로 합니다.

샘 알트만과 GPT-4.5 팀의 대화

다음은 샘 알트만과 OpenAI GPT-4.5 팀 간의 토론을 편집한 것입니다.

샘 알트만: GPT-4.5와 같은 대규모 모델을 구축하려면 무엇이 필요합니까?

알렉스 파이노: 우리는 약 2년 전에 이 프로젝트를 시작했습니다. 당시 OpenAI는 새로운 대규모 컴퓨팅 클러스터를 출시하려고 했고, 우리 팀은 이를 모델에 포함해야 할 기능을 결정하기 위한 일련의 작업을 수행하고 많은 위험 감소 작업 테스트를 수행할 기회로 보았습니다.

우리는 시스템에서 머신 러닝에 이르기까지 전체 기술 스택을 포함하는 긴 계획을 개발했습니다. 위험을 줄이고 훈련을 준비하는 것은 긴 실행 과정이며, 훈련 자체도 매우 큰 프로젝트입니다.

아민 투툰치안: 제 생각에는 이 과정은 머신 러닝 팀과 시스템 팀이 처음부터 긴밀하게 협력하여 우리가 훈련하려는 모델을 명확히 하고 훈련을 시작할 때까지 필요합니다.

우리는 머신 러닝과 시스템 측면 모두에서 예측을 하여 기대와 현실 사이의 간격을 최대한 좁히려고 노력했습니다. 그러나 우리의 작업 리듬이 빠르고 최신 컴퓨팅 자원을 사용해야 하기 때문에 모델 훈련은 사전에 완벽하게 계획하기 어려운 것이 되었습니다.

우리는 거의 항상 해결되지 않은 많은 문제로 훈련을 시작하고 운영 중에 어려움을 극복하고 진행하려고 노력합니다. 주요 해결책은 더 많은 컴퓨팅 자원을 추가하는 것입니다.

마지막 단계는 실행이며, 훈련 과정을 완료하려면 많은 사람들이 오랜 시간 동안 많은 에너지와 동기를 투자해야 합니다.

샘 알트만: 우리의 기대와 현실 사이의 간격이 얼마나 크다고 생각하십니까?

아민 투툰치안: 시스템 측면에서 우리는 일반적으로 처음에는 예상 상태와 거리가 멉니다. 우리는 항상 선택에 직면합니다. 시작을 연기하고 문제가 해결될 때까지 기다릴지, 아니면 일찍 시작하고 그 과정에서 문제를 해결할지입니다. 이는 항상 프로세스에서 불합리한 지연을 피하기 위한 절충이 필요합니다.

그러나 거의 항상 예상치 못한 문제가 있으며, 우리가 해야 할 일은 이러한 노드를 최대한 처리하고 알려지지 않은 요소를 처리하고 모델 훈련 계획을 수립하는 것입니다.

알렉스 파이노: 이 프로젝트에서 우리의 목표는 GPT-4.5를 만드는 것입니다. 즉, 그 기능은 GPT-4보다 10배 더 똑똑해야 합니다. 이것이 약 2년 전에 우리가 설정한 초기 목표입니다.

이 과정에서 많은 일이 일어났습니다. 우리는 더 잘할 수 있을지 아니면 예상보다 나쁠지에 대해 생각하고 있었습니다. 이것은 매우 복잡한 과정이지만 결국 우리가 투자한 효과적인 계산 측면에서 우리는 GPT-4보다 10배 더 똑똑하다고 생각되는 모델을 얻었습니다.

아민 투툰치안: 실행 측면에서 GPT-4.5 프로젝트에 소요된 시간은 우리가 처음에 예상했던 것과 거리가 멉니다.

샘 알트만: 클러스터가 10,000개의 카드에서 100,000개의 카드로 확장될 때 왜 그렇게 많은 문제가 발생했습니까?

아민 투툰치안: 제 생각에는 시스템 개발자가 충분히 민감하다면 대부분의 문제는 소규모 단계에서 관찰할 수 있습니다.

일부 문제는 대규모 훈련 단계에만 국한된 것이 아니라 이전에도 자주 발생했지만 규모가 증가하면 특히 팀이 이러한 문제가 그렇게 악화될 것이라고 예상하지 못했을 때 파국적인 문제가 될 것입니다.

샘 알트만: 어떤 것들이 파국적인 결과를 초래했습니까?

아민 투툰치안: 제 생각에는 인프라 문제가 잘 알려져 있습니다. 실패율, 실패 유형 또는 총 실패량 모두 매우 높습니다. 100,000 카드 클러스터는 대규모 샘플 풀이므로 컴퓨팅 전력 공급업체가 관찰하지 못한 문제도 발견했습니다.

네트워크가 그중 하나이고 개별 가속기에도 문제가 있을 수 있습니다. 그러나 이것은 또한 이 시스템의 아름다움입니다. 예상되는 결과를 얻으려면 거의 모든 구성 요소가 예상대로 작동해야 합니다. 우리의 임무는 이 문제를 최대한 줄이는 것입니다.

샘 알트만: 클러스터 크기의 한계에서 작업하는 것은 실제로 어렵지만 기술의 최전선에 있지 않은 것을 수행하는 것이 훨씬 쉬워졌다는 것을 알았습니다. GPT-4.5를 훈련하려면 수백 명이 필요하고 OpenAI는 거의 모든 사람이 탑승했습니다.

그러나 오늘날 OpenAI에서 가장 작은 팀을 선택하고 우리가 알고 있는 모든 지식과 시스템 작업으로 GPT-4를 처음부터 다시 훈련하려면 몇 명이 필요할까요?

알렉스 파이노: 제 생각에는 GPT-4 수준의 모델을 만들려면 약 5~10명이 필요할 수 있습니다. GPT-4.5를 완료하는 과정에서 기술 스택이 크게 향상되었습니다.

사실 GPT-4.5 훈련 과정에서 유사한 작업을 수행했습니다. GPT-4 수준의 모델인 GPT-4o를 훈련하고 GPT-4.5 연구 프로젝트에서 동일한 콘텐츠를 많이 사용하여 다시 훈련했습니다. 그 훈련에는 더 적은 사람들이 사용되었습니다.

샘 알트만: 당신의 관점에서, Dan? 대규모 모델을 훈련하는 것이 왜 어렵습니까?

다니엘 셀삼: 제 생각에는 새로운 것을 하는 것이 어렵습니다. 제 생각에는 다른 사람이 무언가를 했다는 것을 발견하는 것만으로도 훨씬 쉬워집니다. 왜냐하면 가장 어려운 부분은 처음부터 무언가를 할 수 있다는 믿음을 갖는 것이기 때문입니다. 제 생각에는 무언가가 가능하다는 것을 아는 것만으로도 일을 훨씬 쉽게 만드는 슈퍼 치트 코드입니다.

알렉스 파이노: 우리는 GPT 사전 훈련 실행을 이전 크기의 10배로 확장하고 있으며 항상 예측할 수 없는 흥미로운 새로운 것을 발견합니다.

샘 알트만: 사전 훈련 규모에서 다음 10배 또는 100배 성장을 달성하려면 무엇이 필요합니까?

다니엘 셀삼: 데이터 효율성입니다. Transformer 아키텍처 (즉, GPT)는 데이터를 활용하는 데 매우 효율적입니다. 정보를 잘 흡수하고 압축하며 일반화를 달성할 수 있습니다. 가장 큰 특징은 컴퓨팅 자원으로 정보를 효율적으로 흡수할 수 있다는 것입니다.

그러나 데이터에서 얻는 통찰력의 깊이는 제한적입니다. 컴퓨팅 능력이 빠르게 성장하고 데이터가 상대적으로 느리게 성장하면 데이터는 이 표준 모델의 병목 현상이 됩니다. 이를 위해서는 더 많은 컴퓨팅 능력을 사용하여 동일한 양의 데이터에서 더 많은 지식을 학습할 수 있는 방법을 개발하기 위한 알고리즘 혁신이 필요합니다.

샘 알트만: 확장을 유지하려면 무엇이 더 필요하다고 생각하십니까?

아민 투툰치안: 제 대답은 시스템에 관한 것입니다. 제 생각에는 GPT-4.5에 필요한 막대한 작업량은 본질적으로 모델 사양의 불가피한 결과입니다. GPT-4와 정확히 동일한 기술 아키텍처로 GPT-4.5를 훈련할 수 없습니다.

상태 관리 측면에서 필요한 컴퓨팅 자원이 단일 클러스터의 용량을 초과했기 때문에 멀티 클러스터 훈련 아키텍처로 전환해야 합니다. 이 목표를 달성하려면 여러 가지 워크플로를 단기간에 통합해야 합니다.

이것이 실제로 우리가 단계적 돌파구를 달성하는 데 도움이 되었지만 다음 수준의 성능 향상을 달성하려면 아직 알려져 있지만 일시적으로 보류된 기술 문제를 해결해야 합니다. 이러한 문제는 피할 수 없습니다. 완벽한 시스템의 R&D 주기를 끊임없이 연장하는 것은 바로 이러한 종류의 기술적 절충이며, 우리는 항상 최적의 구현 계획을 추구하는 과정에서 전략적 절충을 하고 있습니다.

시스템 자체는 궁극적인 목표가 아니며 실제 출력 값이 핵심 고려 사항이라는 점을 분명히 해야 합니다. 다음 10배 성능 향상을 위해서는 내결함성의 돌파구가 중요하다고 생각합니다. 운영 및 유지 관리 불안을 크게 줄이기 위해 워크로드와 깊이 시너지 효과를 내는 내결함성 메커니즘을 구축해야 합니다. 현재 초고대규모 시스템의 운영 및 유지 관리 복잡성은 이전 시스템과 근본적으로 다릅니다.

샘 알트만: GPT-4.5 훈련 중 특정 구성 요소로 인해 발생한 오류의 비율을 아십니까?

아민 투툰치안: 공유할 구체적인 숫자는 없지만 일반적으로 새로운 세대의 하드웨어를 배포하는 초기 단계에서는 시스템 운영이 완전히 이해되지 않은 많은 기술적 문제에 직면하는 경우가 많습니다. 문제를 완전히 정의하기 전에 프로젝트를 진행하기로 선택하여 초기 오류율이 높았습니다.

그러나 경험에 따르면 근본 원인을 식별하고 해결하면 오류율이 크게 감소합니다. 이 현상은 본질적으로 인프라에 대한 우리의 이해를 심화시키는 것을 반영합니다. 어떤 사람들은 이것을 인프라 정리 또는 인프라의 기본 문제 이해라고 부릅니다.

실행의 초기 단계는 거의 항상 상당히 고통스럽습니다. 프로젝트를 진행하는 동시에 지속적으로 새로운 오류 모드를 발견하고 해결하고 있지만 오류율은 점차 감소하고 정상 작동 시간은 길어집니다.

이것은 본질적으로 우선 순위 절충의 문제입니다. 인프라 수명 주기의 초기 단계에서는 오류 위험을 정확하게 예측하기 어려운 경우가 많습니다. 궁극적인 이상적인 상태 (원래는 ‘City Estate’, 이상적인 도시 국가 설계)를 지나치게 추구하면 시스템 초기 단계의 가용성 성능이 매우 저조할 수 있습니다.

샘 알트만: 추론 모델은 미래 기술 스택의 핵심 구성 요소이지만 기존 사전 훈련 모델의 개발 경계에 일시적으로 집중해 보겠습니다. 무제한의 GPU 컴퓨팅 능력, 무제한의 네트워크 대역폭, 무제한의 전원 공급 장치가 있지만 시스템 안정성 문제, 내결함성 훈련 방법 부족, 기존 데이터 세트의 제한 사항을 포함하여 기존 기술적 병목 현상으로 인해 여전히 제한됩니다.

각 주요 GPT 버전 번호에서 100배 규모의 증가를 달성하는 우리의 진화 법칙에 따라 현재 기술 경계를 기반으로 사전 훈련 모델의 개발은 어떤 수준에 도달할 수 있습니까? 특히 GPT 시리즈 모델의 경우 기존 지식 시스템을 사용하여 이론적으로 어떤 종류의 모델을 훈련할 수 있습니까? GPT-5.5를 만들 수 있습니까?

알렉스 파이노: 머신 러닝 및 알고리즘 개발의 관점에서 우리는 아직 명확한 이론적 상한에 도달하지 못했습니다. 사실 우리는 더 높은 데이터 효율성을 가진 알고리즘과 기존 데이터 리소스를 최대한 활용하는 방법을 탐구하기 시작했을 뿐입니다. 이 상황은 매우 흥미롭습니다. GPT-4와 같은 모델조차도 제한된 컴퓨팅 리소스의 제약 조건 하에서 대부분 개발되었으며, 이는 또한 대부분의 이전 연구의 방향을 결정합니다.

그러나 상황은 지금 완전히 다릅니다. GPT-4.5 이후 일부 주요 차원에서는 컴퓨팅보다 데이터가 주요 제약 조건이 되고 있습니다. 이러한 변화로 인해 관련 연구가 덜 흥미로워집니다.

샘 알트만: 그러나 이것은 정말 놀라운 진전이며 세상은 우리가 구축할 수 있는 최고의 모델에서 컴퓨팅 리소스가 더 이상 주요 병목 현상이 아니라는 것을 완전히 깨닫지 못할 수도 있습니다. 이 변화는 심오합니다. 결국 우리는 컴퓨팅 제약 환경에서 너무 오래 살았습니다.

샘 알트만: GPT-4.5를 훈련하는 과정에서 배운 가장 흥미로운 머신 러닝 경험은 무엇입니까? 공유하고 싶은 것에 대해서만 이야기하십시오.

아민 투툰치안: 일반적으로 가장 생각을 자극하는 것은 예측에서 벗어나는 상황입니다. 특히 실제 성능이 예상 곡선에서 벗어나는 이유를 이해하려고 노력할 때 그렇습니다.

알렉스 파이노: 우리에게 가장 놀라운 발견 중 하나는 다양한 머신 러닝 구성 요소의 확장성 성능이 크게 다르다는 것입니다. 어떤 부분은 잘 확장할 수 있지만 다른 부분은 그렇지 않습니다. 이것이 우리가 실제 훈련 과정에서 실제로 깨달은 것입니다. 이 경험은 우리에게 많은 영감을 주었습니다.

다니엘 셀삼: 제 생각에는 GPT 패러다임의 두 가지 핵심 기능은 첫째, 테스트 손실 (모델이 보이지 않는 테스트 데이터에서 얼마나 잘 수행되는지 측정하는 지표)을 정확하게 예측할 수 있다는 것입니다. 둘째, 모델 성능은 규모의 확장에 따라 예측 가능한 개선을 보여줍니다. 더욱 마법 같은 것은 테스트 손실의 감소가 정량화하기는 어렵지만 놀라운 다양한 방식으로 모든 영역에서 향상된 수준의 지능으로 변환된다는 것입니다.

샘 알트만: 당신은 이것에 대해 절대적으로 낙관적입니까? 이 견해에 완전히 동의하십니까?

다니엘 셀삼: 사실 제가 말하고 싶은 것은 GPT-4.5 테스트에서 특히 흥미로운 현상을 발견했다는 것입니다. 재테스트 후 모델은 모든 사람의 예상을 완전히 뛰어넘는 많은 미묘한 능력을 보여주었습니다.

우리는 사전 정의할 수 없는 다양한 방식으로 더 똑똑해질 것이라고 확신하며 실제 배포 후에는 사용자 만족도에서 이러한 미묘한 수준의 개선을 관찰할 수 있습니다. 더 강력한 상식 보유량, 더 정확한 컨텍스트 이해 능력, 더 섬세한 의미 파악. 이것이 바로 추가 테스트 손실이 가져다주는 마법입니다. 제 생각에는 스케일링 법칙이 이 차원에서 완벽하게 검증되었습니다.

샘 알트만: 전체 훈련 과정에서 가장 긍정적인 순간은 언제였습니까? 가장 좋아하는 기억은 무엇입니까? 분명히 고통이 많았지만 그 고통이 완화되었기를 바랍니다.

알렉스 파이노: 저에게 그런 순간이 있습니다. 우리는 훈련 중에 많은 머신 러닝 작업을 했습니다. 운영 중에 우리가 변경한 일부 사항이 예상보다 훨씬 더 좋은 영향을 미쳤다고 생각하며, 이는 우리에게 매우 흥미로운 순간이었습니다.

아민 투툰치안: 저에게는 훈련과 동시에 인프라를 구축하고 있습니다. 우리는 이 성능 절벽을 넘을 수 있다고 굳게 믿고 있으며 계획이 있고 모든 사람이 그것을 실행하고 있지만 시간이 오래 걸립니다. 이것은 힘든 일이고 제가 생각했던 것보다 확실히 더 어렵습니다. 제 예측은 틀렸고 이러한 문제를 해결하는 데 걸리는 시간을 과소평가했습니다.

팀이 마침내 핵심 문제를 극복하고 성능이 크게 향상되었을 때의 순간은 여전히 제 기억에 생생합니다. 전체 팀의 에너지 변화를 분명히 느낄 수 있습니다. 모든 사람이 갑자기 에너지로 가득 차고 새로운 동기를 가지고 최종 목표를 향해 돌진하고 있습니다.

가장 마법 같은 것은 상태 추적기에 표시된 예상 완료 시간이 초기 2년에서 계속 단축되어 결국 명확한 시간 노드에 고정되었다는 것입니다. 이 눈에 보이는 진전은 팀 사기에 막대한 영향을 미칩니다. 이것이 아름다움이라고 생각합니다.

머신 러닝 작업은 결코 중단되지 않는다는 점을 강조하고 싶습니다. 훈련이 시작된 후에도 이 머신 러닝 공동 설계 프로세스는 계속됩니다. 머신 러닝 팀은 “후속 처리”로 표시된 문제를 적극적으로 후속 조치할 뿐만 아니라 훈련 시간을 진정으로 최적화하는 개선 사항을 계속 제공합니다.

이것은 우리의 팀 정신을 완벽하게 반영합니다. 여기에는 “각 사람은 자신의 문 앞에서 눈을 쓸어낸다”는 작업 경계가 없지만 진정으로 완벽한 협력이 있으며 이러한 응집력은 우리의 가장 큰 강점입니다.

샘 알트만: 외부 세계에서는 이 훈련 자체의 과제와 예측 정확도에 대해 많은 논의가 있었습니다. 그러나 실제로 이 모든 것은 매우 철저한 계획에 기반합니다. 이에 대해 자세히 이야기해 주시겠습니까?

알렉스 파이노: 이것은 분명히 지금까지 우리의 가장 철저한 계획입니다. 앞서 말했듯이 우리는 공식 훈련 시작 1년 전에 이 프로젝트를 준비하기 시작했습니다. 이 기간 동안 우리는 여러 차례의 대규모 위험 통제 테스트를 수행했습니다.

우리는 모든 개선 사항을 점진적으로 도입하는 데 특히 주의를 기울입니다. 높은 신뢰도의 기본 구성에서 시작합니다. 이는 머신 러닝 수준에서 완전히 숙달한 GPT-4와 유사한 성숙한 아키텍처로 이해할 수 있으며, 그런 다음 빌딩 블록처럼 레이어별로 새로운 기능을 추가합니다.

핵심은 다양한 규모에서 각 개선 사항의 확장성을 엄격하게 검증하는 것입니다. 성능 개선을 볼 뿐만 아니라 모델 규모가 확장됨에 따라 이러한 개선 사항이 계속 효과적인지 확인하는 것입니다. 많은 개선 사항이 소규모 테스트에서 잘 수행되지만 대규모 애플리케이션에서는 실패합니다.

따라서 우리는 전체 프로세스에서 높은 수준의 경계를 유지하고 확장 법칙 방법론을 계속 반복하고 개선했습니다. 이 위험 통제 연습을 통해 우리는 미래의 GPT 시리즈 모델 개발을 계속 안내할 귀중한 경험을 많이 축적했습니다.

아민 투툰치안: 제가 매우 그리워하는 특히 흥미로운 순간을 기억합니다. 아시다시피, 우리는 훈련 작업을 시작할 때마다 거의 항상 다양한 버그에 직면합니다. 이것은 이미 흔한 일입니다. 그러나 핵심은 진행이 차단되지 않도록 하고 현재 진행이 실제로 올바른궤도에 있는지 그리고 이러한 버그가 훈련의 건전성에 치명적인 영향을 미치는지 항상 확인하는 것입니다.

처음에는 주요 결함이 있다고 확신했지만 우리가 구축한 전체 모니터링 시스템을 통해 문제의 근본 원인을 정확하게 구별할 수 있었습니다. 하드웨어 고장입니까? 어떤 유형의 하드웨어 고장입니까? 데이터 손상입니까? 아니면 머신 러닝 모델 자체의 버그입니까? 아니면 코드의 경쟁 조건입니까?

당시에는 다양한 증상이 있는 여러 문제 토론 영역이 동시에 열려 있었습니다. 일련의 버그 수정 후 우리는 막혔습니다. 해결되지 않은 문제가 많았고 모든 사람이 머리를 쥐어짜고 있었습니다. 이것이 다른 버그로 인한 것입니까? 아니면 작업 중인 버그입니까?

나중에 우리는 팀 구성원이 가장 가능성 있는 근본 원인에 투표하도록 투표를 개최했습니다. 가장 유망하지 않은 옵션이 진실을 알아냈습니다. 알고 보니 간단한 합산 연산인 PyTorch의 업스트림 torch.sum 함수에 문제가 있었습니다.

이 버그는 특히 흥미롭습니다. 아시다시피 우리는 주로 Triton 커널을 사용하고 일부 중요하지 않은 에지 시나리오에서만 torch 작업으로 되돌아갑니다. 그리고 우리의 특정 코드 경로에 의해 트리거된 torch.sum 함수 버그는 데이터 분포 특성으로 인해 실수로 불법 메모리 액세스를 유발합니다. 메모리 오프셋을 계산할 때 오류가 발생했습니다.

가장 극적인 것은 엔지니어가 마침내 문제를 찾고 수정 사항을 제출했을 때 다양한 증상이 있는 모든 오류 보고서가 사라졌다는 것입니다. 모든 사람이 Slack 채널을 “다중 버그 이론”에서 “단일 버그 이론”으로 흥분하여 변경했고 장면은 매우 행복했습니다.

이 버그는 얼마나 오랫동안 숨어 있었습니까? 그것은 훈련 초기 단계부터 존재했고 진행률 표시줄이 약 40%를 통과할 때까지 식별되지 않았습니다. 발견 과정도 드라마로 가득했습니다. 당시 복잡한 커널이 순차적으로 시퀀스를 호출했고 두 번째 호출은 불법 메모리 액세스를 트리거했습니다.

이 충돌 빈도가 극히 낮음 (수백 또는 심지어 수천 번의 훈련 단계마다 한 번만 발생함)에도 불구하고 가끔 발생하는 오류로 간과하기 쉽지만 우리 팀의 지침은 예외를 결코 놓치지 않는 것입니다. 이 이야기의 가장 좋은 부분은 쉽게 포기하지 않는 이러한 끈기에 있습니다.

샘 알트만: GPT-4.5 사전 훈련이 시작된 후 무엇을 더 해야 합니까?

알렉스 파이노: 우리 모두는 손실 곡선을 자주 관찰해야 합니다. 또한 시스템을 계속 최적화하고 훈련이 시작되기 전에 완료되지 않은 공동 설계를 개선해야 합니다. 예상치 못한 추세가 없는지 확인하기 위해 훈련 과정에서 다양한 통계를 면밀히 모니터링합니다. 동시에 머신 러닝 관점에서 가능한 개선 계획을 탐색합니다. 사전 훈련이 시작된 후 데이터 수준 작업이 일시적으로 줄어들지만 처리해야 할 작업이 여전히 많습니다.

아민 투툰치안: 제 생각에는 머신 러닝은 대부분 정확성 판단에 달려 있습니다. 사전 훈련이 시작된 후 많은 양의 노이즈 신호에 직면하여 우리는 찻잎을 해석하는 점쟁이와 같으며 시스템이 건강한지 판단해야 합니다. 이것이 우리의 책임입니다.

샘 알트만: 시스템 수준에서 모델 훈련을 수행하는 데 제한하는 것은 무엇입니까? 칩, 프로세서, 메모리, 네트워크 또는 전원 공급 장치입니까?

아민 투툰치안: 시스템의 아름다움은 공동 설계를 수행할 때 워크로드가 구축하는 인프라에 적응할 수 있다는 것입니다. 네트워크가 병목 현상이라거나 메모리 대역폭이 병목 현상이라는 보편적인 말은 없습니다. 동일한 사양의 모델의 경우에도 리소스 요구 사항을 전송하도록 선택할 수 있습니다. 더 균형 잡힌 시스템을 만들도록 선택할 수 있지만 더 많은 메모리 대역폭을 확보하는 것이 항상 유리합니다. 제한된 조건 없이는 이 질문에 답하기 어렵습니다.

GPT-4.5를 설계할 때 시스템에 특정 속성이 있어야 할 수 있으며, 이는 인간의 지도를 통해 생성해야 합니다. 따라서 공동 설계는 모델 아키텍처와 아키텍처 요소를 형성하는 데 매우 중요하며 시스템과 머신 러닝 측면을 어느 정도 연결합니다. 시스템에 우리가 그다지 원하지 않는 속성이 있는 경우. 제 이상적인 상황은 모든 것을 분리하여 서로에게 가장 큰 공간을 제공하는 것입니다.

때로는 모든 것이 연결되어 있으며 인프라의 요구 사항을 충족해야 하거나 모든 것이 이와 같아야 합니다. 대부분의 경우 균형 잡힌 시스템, 균형 잡힌 통신이 필요합니다. 그리고 우리가 가진 최고의 규제 수단은 이러한 모든 공동 설계입니다.

샘 알트만: 이러한 이상적인 시스템 목표에서 우리는 얼마나 멀리 떨어져 있습니까?

아민 투툰치안: 우리는 그 목표에서 멀리 떨어져 있습니다. 시스템을 구축하는 과정은 항상 이와 같습니다. 먼저 모든 것이 어떻게 작동해야 하는지에 대한 이상화된 견해가 있고 그런 다음 이러한 차이점이 기존 리소스로 조정됩니다.

저는 우리가 이론을 위해 이론을 하는 것이 아니라 우리가 원하는 것이 무엇인지, 실현하고 그 이상에 최대한 가깝게 다가가기 위해 논의하는 것이라고 생각하지 않습니다. 이것이 시스템 분야에서 가장 흥미로운 부분일 것입니다. 사람들은 이것이 우아한 시스템 설계라고 말했고 결국 역사가 우리에게 이 선택이 옳았는지 틀렸는지 알려줄 것입니다.

샘 알트만: 다음 대규모 훈련 전에 머신 러닝 질문에 대한 답변을 얻을 수 있다면 가장 알고 싶은 것은 무엇입니까?

알렉스 파이노: 제한된 데이터와 특정 필드에서 어떤 알고리즘을 사용해야 하는지 알고 싶습니다. 이것은 광범위한 질문이지만 실제로 가장 중요합니다.

샘 알트만: 앞으로 1천만 개 이상의 GPU로 동기 사전 훈련을 수행할 것입니까?

알렉스 파이노: 있을 것이라고 생각하지만 전통적인 사전 훈련 모델이 아닐 수도 있습니다. 그 형태는 기존 기술과 매우 다를 수 있지만 여전히 비지도 학습의 핵심을 유지할 것입니다.

아민 투툰치안: 저는 반동기 모델을 선호합니다. 물리 법칙으로 인해 완전한 동기화는 매우 현실적이지 않습니다.

다니엘 셀삼: 분산될 가능성이 더 높다고 생각합니다. 학습하고 작업을 수행하는 AI 시스템에서 1천만 개의 GPU가 함께 작동할 것이지만 뇌의 다양한 부분처럼 서로 통신하지 않을 수도 있습니다.

샘 알트만: 현재 가장 진보된 알고리즘과 인간 데이터 효율성 사이에는 얼마나 차이가 있습니까? 앞으로 따라잡을 수 있을까요?

다니엘 셀삼: 두 가지를 직접 비교하기는 어렵습니다. 언어 학습의 격차는 확실히 큽니다. 핵심은 인간 시신경이 받는 정보의 양을 정의하는 방법입니다. 제 생각에는 알고리즘의 전체 데이터 효율성이 인간보다 훨씬 낮습니다.

수십 년 동안 딥 러닝은 컴퓨팅 효율성에 초점을 맞추었습니다. 데이터와 컴퓨팅 능력의 성장 외에도 정말 놀라운 것은 알고리즘 개선으로 인한 중첩 효과입니다. 알고리즘 성능이 10% 또는 20% 향상될 때마다 데이터 효율성에 중첩되면 상당한 효과가 있습니다. 지금까지 데이터 효율성에 대한 동원이 없었습니다. 데이터가 흐르지 않고 컴퓨팅 능력이 제한될 때는 가치가 없기 때문입니다.

이제 우리는 AI 연구의 새로운 단계에 접어들고 있으며 데이터 효율성 승리를 축적하기 시작할 것입니다. 극복할 수 없는 장애물에 직면할 것이라고 지금 예측하는 것은 약간 어리석다고 생각합니다. 인간 두뇌가 작동하는 방식은 알고리즘 개선과는 분명히 다르며 이 점에 대해 주의해야 합니다. 그러나 알고리즘의 미래 발전에 대해 낙관적으로 생각해야 한다고 생각합니다.

샘 알트만: 더 큰 규모의 사전 훈련과 모델의 더 강력한 학습 및 추론 능력 사이에는 어떤 상관 관계가 있습니까?

알렉스 파이노: 우리가 관찰한 것은 더 나은 사전 훈련과 비지도 학습이 모델의 전반적인 지능을 향상시키고 일반화에 크게 도움이 되는 경향이 있다는 것입니다. 이는 추론 능력과 상호 보완적이지만 추론은 지능 향상에 약간 둔감할 수 있습니다. 상호 보완적이라고 생각합니다.

샘 알트만: 사전 훈련은 많은 것에서 보편적인 것 같지만 모델을 훈련하면 한 가지 유형의 것만 잘 할 수 있게 됩니다. 그렇죠?

알렉스 파이노: 이것은 매우 흥미롭지만 그들을 훈련시키는 데이터를 보면 이 상황에 놀라지 않을 것입니다. 사전 훈련 데이터 세트 범위는 매우 크며 우리가 추구하는 것은 폭과 다양성입니다. 모델 강화 학습에 대해 이야기하고 좋은 보상 신호와 좋은 훈련 환경을 명확하게 얻으면 데이터 세트의 폭을 고려하기가 어렵다고 생각합니다.

다니엘 셀삼: 동의하지만 또 다른 요인이 있다고 생각합니다. 사전 훈련은 본질적으로 데이터를 압축하여 다른 것들 간의 연결을 발견하는 것입니다. 그것은 비유와 더 추상적인 것에 관한 것입니다. 추론은 특정 문제에 대한 신중한 사고가 필요한 기술이며 많은 유형의 문제에 대한 솔루션도 얻을 수 있습니다. 그러나 사전 훈련 과정에서는 데이터를 압축할 때 다양한 분야에서 더 추상적인 지식을 배울 수 있습니다.

샘 알트만: 비지도 학습이 효과적인 이유는 무엇입니까?

다니엘 셀삼: 핵심은 압축입니다. 지능의 이상적인 형태는 솔로모노프 유도입니다. 일반적으로 머신 러닝은 모든 가능성을 고려하지만 더 간단한 프로그램부터 테스트하는 경향이 있습니다.

현재 사전 훈련의 본질은 압축 과정이며, 인간이 지금까지 생산한 모든 데이터를 설명하기 위해 가장 간단한 프로그램을 찾아 대략적인 표현을 달성합니다.

샘 알트만: 다음 토큰 예측은 압축을 달성하는 데 어떻게 도움이 됩니까?

다니엘 셀삼: 통계에는 역설이 있습니다. 왜 딥 네트워크는 압축할 수 없는 것 같지만 일반화를 달성할 수 있을까요? 일반적으로 많은 데이터와 일부 작은 모델이 있는 경우 이러한 모델은 무언가를 배우기 위해 압축을 거쳐야 합니다.

사전 훈련에서는 데이터와 모델의 규모가 모두 매우 큽니다. 어떤 사람들은 이 훈련이 단순히 기억과 보간 학습이라고 생각합니다. 사실 그들은 압축을 이해하는 또 다른 관점을 무시합니다. 사전 순차적 압축입니다. 마치 압축기와 같습니다. 데이터 가중치가 매우 큰 경우에도 바이너리는 이 정보를 저장할 필요가 없습니다. 다음 토큰 예측 결과는 유용한 정보를 빠르게 검색하고 압축 효율성을 향상시킬 수 있습니다.

샘 알트만: GPT-4.5 훈련 과정은 많은 인력, 시간 및 비용이 소요되었으며 실제로 스케일링 법칙을 검증하기 위한 실험으로 간주될 수 있으며 그 결과는 효과적이며 오랫동안 계속될 것이라는 것을 증명합니다. 왜 스케일링 법칙을 우주의 법칙이라고 부를 수 있을까요?

다니엘 셀삼: 압축 정도가 높을수록 지능이 강력해지며 이는 심오한 철학적 의미를 갖습니다. 더 큰 모델을 훈련하는 데 시간이 오래 걸리고 압축률이 높은 이유는 무엇일까요? 여기에는 많은 이론이 관련되어 있으며 그중 제가 좋아하는 것은 희소 표현입니다.

현실의 핵심 개념은 멱법칙 분포를 따릅니다. 예를 들어 100번째로 중요한 개념은 100개의 문서마다 한 번만 나타날 수 있으며 명백한 롱테일 효과가 있습니다. 이 분포 특성은 모든 핵심 개념을 효과적으로 캡처하려면 대규모 데이터와 컴퓨팅 능력이 필요하다는 것을 의미하며 스케일링 법칙이 오랫동안 유효할 것임을 결정합니다.