AI 역사의 재형성: 트랜스포머 저자 노암 샤제어와 제프 딘의 대화 | ko

AI 진화의 새벽: PageRank에서 AGI까지 25년의 여정

구글의 기술 오디세이의 두 거장, 현재 최고 과학자인 제프 딘과 트랜스포머 모델의 핵심 인물이며 다시 합류한 노암 샤제어가 최근에 계몽적인 대화를 나눴습니다. 유명한 팟캐스터 드와케쉬 파텔이 주최한 그들의 대화는 MapReduce의 기초적인 날부터 트랜스포머와 MoE 아키텍처의 혁신적인 시대에 이르기까지 AI의 진화를 엿볼 수 있게 했습니다.

구글에서 수십 년의 경험을 쌓은 이 노련한 베테랑들은 인터넷과 인공 지능의 결정적인 기술을 목격했을 뿐만 아니라 적극적으로 형성해 왔습니다. 아이러니하게도 샤제어는 구글에 합류한 초기 동기가 단기적인 재정적 추구였다고 고백했습니다. 그의 계획은 그 후 그가 이 분야에 기여한 공헌으로 극적으로 뒤집혔습니다.

AI 컴퓨팅의 현재 상태와 미래 궤적

2시간에 걸친 광범위한 대화에서 딘과 샤제어는 AI 컴퓨팅의 현재 상태에 대한 통찰력을 공개하며 다음과 같이 밝혔습니다.

운영 규모가 개별 데이터 센터를 초월했습니다. Gemini의 트레이닝은 이제 여러 대도시 지역의 여러 데이터 센터에 걸쳐 비동기적으로 운영됩니다.
AI와의 상호 작용이 기존 읽기보다 훨씬 비용 효율적이기 때문에 추론 컴퓨팅 확장에는 상당한 성장 여지가 있습니다.
미래 모델 아키텍처는 MoE의 유연성을 능가하여 다양한 모델 구성 요소를 여러 팀에서 독립적으로 개발할 수 있도록 구상됩니다.

참호에서 얻은 통찰력: 버그 현상금과 미래 아키텍처

이 대화는 또한 소셜 미디어에서 관심을 불러일으켰으며 사용자는 다음과 같은 흥미로운 개념을 강조했습니다.

거대한 MoE 모델을 메모리에 저장할 가능성.
코드의 예상치 못한 버그의 이점. 규모가 커짐에 따라 예기치 않게 획기적인 발견으로 이어질 수 있습니다.

딘은 AI 컴퓨팅이 터무니없이 비싸다는 개념에 도전했습니다. 책과 상호 작용하는 비용과 동일한 책에 대한 AI와 상호 작용하는 비용을 비교함으로써 그는 설득력있는 요점을 설명했습니다.

가장 진보된 언어 모델은 작업당 약 10^-18달러의 놀라울 정도로 낮은 비용으로 작동하여 1달러당 백만 개의 토큰을 처리합니다. 대조적으로 페이퍼백 책을 구매하면 1달러당 10,000개의 토큰만 제공됩니다.

AI 상호 작용에 대한 100배의 비용 이점이라는 현저한 차이는 추론 컴퓨팅 증가를 통해 AI 지능을 향상시킬 수 있는 미개척 잠재력을 강조합니다.

인프라 관점에서 볼 때 추론 시간 계산의 중요성이 커짐에 따라 데이터 센터 계획이 재편될 수 있습니다. 이는 원래 추론 용으로 설계되었고 나중에 트레이닝에 적용된 Google의 1세대 TPU와 유사하게 추론 작업에 특별히 맞춤화된 하드웨어를 필요로 할 수 있습니다.

분산 및 비동기 계산: 새로운 패러다임

추론에 대한 강조가 커짐에 따라 데이터 센터 간의 지속적인 통신이 불필요해져 보다 분산되고 비동기적인 계산 모델로 이어질 수 있습니다.

Gemini 1.5는 이미 이 경로에 착수하여 여러 주요 도시에서 컴퓨팅 리소스를 활용하고 있습니다. 고속 네트워크는 여러 데이터 센터의 계산을 동기화하여 전례 없는 트레이닝 규모를 달성합니다. 각 트레이닝 단계가 몇 초가 걸릴 수 있는 대규모 모델의 경우 50밀리초의 네트워크 대기 시간조차도 최소한의 영향을 미칩니다.

추론 영역에서는 대기 시간 민감도가 중요한 고려 사항이 됩니다. 즉각적인 응답에는 최적화된 저지연 성능이 필요하지만 복잡한 컨텍스트 분석과 같은 긴급하지 않은 작업은 더 긴 처리 시간을 허용할 수 있습니다.

보다 적응력이 뛰어나고 효율적인 시스템은 여러 작업을 비동기적으로 관리하여 사용자 대기 시간을 최소화하면서 전체 성능을 향상시킬 수 있습니다. 또한 더 작은 드래프트 모델을 사용하는 것과 같은 알고리즘 발전은 추론 프로세스의 병목 현상을 완화할 수 있습니다. 이 접근 방식에는 더 작은 모델이 잠재적 토큰을 생성하고 더 큰 모델에서 확인하여 병렬화를 통해 추론 프로세스를 크게 가속화합니다.

샤제어는 비동기 트레이닝 중에 각 모델 복제본이 독립적으로 작동하여 비동기 적용을 위해 중앙 시스템으로 그라디언트 업데이트를 보낸다고 덧붙였습니다. 사소한 매개변수 변동의 이론적 의미에도 불구하고 이 방법은 매우 성공적인 것으로 입증되었습니다.

대조적으로 동기식 트레이닝은 안정성과 재현성을 제공하며 많은 연구자가 선호합니다. 트레이닝의 복제 가능성을 보장하기 위해 딘은 작업, 특히 그라디언트 업데이트 및 데이터 일괄 처리 동기화를 로깅하는 관행을 강조했습니다. 이러한 로그를 재생함으로써 비동기 트레이닝조차도 재현 가능한 결과를 산출하여 디버깅을 더 쉽게 관리하고 환경 요인으로 인한 불일치를 완화할 수 있습니다.

버그의 우연한 역할

이를 확장하면서 샤제어는 흥미로운 관점을 제시했습니다.

모델 트레이닝 중에 다양한 버그가 발생하지만 이러한 모델의 고유한 노이즈 내성 덕분에 자체 조정이 가능하여 예상치 못한 결과가 발생합니다. 일부 버그는 긍정적인 영향을 미치기도 하며 규모가 실험적 변칙을 증폭함에 따라 개선의 기회를 제공합니다.

디버깅 관행에 대한 질문을 받았을 때 샤제어는 빠른 유효성 검사를 위해 수많은 소규모 실험을 수행하는 접근 방식을 설명했습니다. 이 방법은 코드베이스를 단순화하고 실험 주기를 몇 주 대신 몇 시간으로 단축하여 빠른 피드백과 조정을 용이하게 합니다.

딘은 초기에는 불리한 결과를 보인 많은 실험이 나중에 중요한 통찰력을 제공할 수 있다는 점에 동의했습니다. 그러나 연구자들은 코드 복잡성의 문제에 직면합니다. 점진적인 개선이 필요하지만 성능 및 유지 관리 문제도 발생하므로 시스템 정리와 혁신 사이의 균형이 필요합니다.

미래 모델의 유기적 구조

딘과 샤제어는 AI 모델이 단일 구조에서 모듈식 아키텍처로 크게 변화할 것으로 예상합니다.

Gemini 1.5 Pro와 같은 모델은 이미 작업에 따라 다른 구성 요소를 활성화하는 MoE(Mixture of Experts) 아키텍처를 사용합니다. 예를 들어 수학 문제는 수학에 능숙한 섹션을 사용하고 이미지 처리는 해당 전문 모듈을 활성화합니다.

그러나 현재 모델 구조는 다소 경직되어 있으며 전문가 모듈의 크기가 균일하고 유연성이 부족합니다. 딘은 보다 미래 지향적인 비전을 제안했습니다. 미래 모델은 유기적 구조를 채택하여 여러 팀에서 모델의 서로 다른 부분을 독립적으로 개발하거나 향상할 수 있어야 합니다.

예를 들어 동남아시아 언어 전문 팀은 관련 모듈을 개선할 수 있고 다른 팀은 코드 이해력을 향상시키는 데 집중할 수 있습니다. 이 모듈식 접근 방식은 개발 효율성을 높일 뿐만 아니라 글로벌 팀이 모델 발전에 기여할 수 있도록 합니다.

기술적으로 모델은 증류를 통해 개별 모듈을 지속적으로 최적화할 수 있습니다. 여기에는 대규모 고성능 모듈을 더 작고 효율적인 버전으로 압축한 다음 새로운 지식을 계속 학습하는 것이 포함됩니다.

라우터는 작업 복잡성에 따라 적절한 모듈 버전을 선택하여 성능과 효율성의 균형을 맞춥니다. 이는 Google의 Pathway 아키텍처의 핵심 개념입니다.

이 새로운 아키텍처에는 강력한 TPU 클러스터와 풍부한 고대역폭 메모리(HBM)를 포함한 강력한 인프라가 필요합니다. 각 호출은 모델 매개변수의 일부만 사용할 수 있지만 전체 시스템은 동시 요청을 처리하기 위해 전체 모델을 메모리에 보관해야 합니다.

현재 모델은 작업을 80%의 성공률로 10개의 하위 작업으로 분해할 수 있습니다. 미래 모델은 작업을 90% 이상의 성공률로 100개 또는 1,000개의 하위 작업으로 분해할 수 있습니다.

“맙소사” 순간: 정확한 고양이 인식

돌이켜보면 2007년은 대규모 언어 모델(LLM)에게 중요한 이정표였습니다.

당시 Google은 기계 번역을 위해 2조 개의 토큰을 사용하여 N-gram 모델을 트레이닝했습니다. 그러나 N-gram 데이터에 대한 디스크 스토리지에 의존하면 광범위한 디스크 I/O(예: 100,000회 검색/단어)로 인해 대기 시간이 길어져 단일 문장을 번역하는 데 12시간이 걸렸습니다.

이를 해결하기 위해 메모리 압축, 분산 아키텍처 및 일괄 처리 API 최적화를 포함한 여러 전략을 고안했습니다.

메모리 압축: 디스크 I/O를 피하기 위해 N-gram 데이터를 메모리에 완전히 로드합니다.
분산 아키텍처: 병렬 쿼리를 위해 여러 머신(예: 200개)에 데이터를 배포합니다.
일괄 처리 API 최적화: 요청당 오버헤드를 줄여 처리량을 개선합니다.

이 기간 동안 컴퓨팅 성능은 무어의 법칙을 따르기 시작하여 기하급수적인 성장을 이끌었습니다.

“2008년 후반부터 무어의 법칙 덕분에 신경망이 실제로 작동하기 시작했습니다.”

특정 연구 노력이 실제로 작동했다는 믿을 수 없는 순간인 “맙소사” 순간에 대한 질문을 받았을 때 제프는 초기 Google 팀의 YouTube 비디오 프레임에서 고차원 기능(예: 고양이와 보행자 인식)을 학습하기 위해 모델을 트레이닝한 프로젝트를 회상했습니다. 분산 트레이닝(2,000대 머신, 16,000개 코어)을 통해 대규모 비지도 학습을 달성했습니다.

비지도 사전 트레이닝 후 지도 작업(ImageNet)에서 모델의 성능이 60% 향상되어 대규모 트레이닝 및 비지도 학습의 잠재력을 입증했습니다.

Google이 여전히 주로 정보 검색 회사인지 묻는 질문에 제프는 다음과 같이 강조했습니다.

“AI는 Google의 원래 미션을 수행합니다.”

본질적으로 AI는 정보 검색뿐만 아니라 복잡한 콘텐츠를 이해하고 생성하며 광범위한 미래 잠재력을 가지고 있습니다. Google의 미래 방향에 대해 “모르겠습니다.”

그러나 Google과 일부 오픈 소스 코드를 모든 개발자의 컨텍스트에 통합할 것으로 예상할 수 있습니다. 즉 모델이 더 많은 토큰을 처리할 수 있도록 함으로써 검색 내 검색은 모델 기능과 유용성을 더욱 향상시킬 것입니다.

이 개념은 이미 Google 내부에서 실험되고 있습니다.

“사실 내부 개발자를 위해 내부 코드베이스에서 Gemini 모델에 대한 추가 트레이닝을 이미 수행했습니다.”

더 정확하게 말하면 Google은 내부적으로 코드의 25%가 AI에 의해 작성되는 목표를 달성했습니다.

Google에서 가장 행복했던 시간

흥미롭게도 두 사람은 Google과 관련된 더 흥미로운 경험도 공유했습니다.

노암에게 1999년 Google과 같은 대기업에 합류하는 것은 처음에는 자신의 기술이 제대로 활용되지 않을 수 있다고 생각했기 때문에 매력적이지 않았습니다. 그러나 Google의 일일 검색량 지수 차트를 본 후 그는 마음을 빠르게 바꿨습니다.

“이 사람들은 성공할 수밖에 없고 해결해야 할 흥미로운 문제가 많은 것 같습니다.”

그는 특정 “작은” 의도를 가지고 합류했습니다.

“돈을 좀 벌고 행복하게 내 AI 연구 관심사를 추구하겠습니다.”

Google에 합류한 후 그는 그의 멘토인 제프를 만났고(새로운 직원은 멘토를 배정받았습니다) 그들은 여러 프로젝트에서 협력했습니다.

이 시점에서 제프는 Google에 대한 자신의 감사로 끼어들었습니다.

“RM 비전(Responsive and Multimodal)에 대한 Google의 광범위한 권한이 마음에 듭니다. 한 방향이라도 많은 작은 프로젝트를 수행할 수 있습니다.”

이것은 또한 “치고 빠지기”를 처음 계획했던 사람이 장기적으로 머물도록 이끈 자유를 노암에게 제공했습니다.

한편 주제가 제프로 바뀌자 병렬 역전파에 대한 그의 학부 논문이 다시 논의되었습니다.

이 8페이지 분량의 논문은 1990년 최고의 학부 논문이 되었으며 미네소타 대학교 도서관에 보관되어 있습니다. 이 논문에서 제프는 역전파를 기반으로 한 신경망의 병렬 트레이닝을 위한 두 가지 방법을 탐구했습니다.

패턴 분할 접근 방식: 각 프로세서에서 전체 신경망을 나타내고 사용 가능한 프로세서 간에 입력 패턴을 나눕니다.
네트워크 분할 접근 방식(파이프라인 접근 방식): 사용 가능한 프로세서에 신경망의 뉴런을 배포하여 통신 링을 형성합니다. 기능은 이 파이프라인을 통과하여 각 프로세서의 뉴런에서 처리됩니다.

그는 다양한 크기의 신경망과 다양한 입력 데이터로 이러한 방법을 테스트했습니다. 결과는 패턴 분할 접근 방식의 경우 더 큰 네트워크와 더 많은 입력 패턴이 더 나은 가속도를 제공한다는 것을 보여주었습니다.

가장 주목할 만한 점은 이 논문이 1990년에 “큰” 신경망이 어떻게 생겼는지 보여준다는 것입니다.

“레이어당 10, 21, 10개의 뉴런이 있는 3레이어 신경망은 매우 큰 것으로 간주되었습니다.”

제프는 테스트에 최대 32개의 프로세서를 사용했다고 회상했습니다.

(당시 그는 12년 후 앤드류 응, 쿼크 르 등과 함께 16,000개의 CPU 코어를 사용하여 대규모 데이터에서 고양이를 식별할 것이라고 상상할 수 없었을 것입니다.)

그러나 제프는 이러한 연구 결과가 진정으로 효과적이려면 **”약 백만 배 더 많은 컴퓨팅 능력이 필요했습니다.”**라고 인정했습니다.

나중에 그들은 AI의 잠재적 위험, 특히 AI가 매우 강력해질 때의 피드백 루프 문제에 대해 논의했습니다. 즉 AI는 코드를 작성하거나 알고리즘을 개선하여 통제할 수 없는 가속 루프(“지능 폭발”)에 들어갈 수 있습니다.

이로 인해 AI가 인간의 통제를 빠르게 능가하여 악의적인 버전을 만들 수도 있습니다. 진행자가 말했듯이 “제프와 같은 백만 명의 최고의 프로그래머가 결국 백만 명의 사악한 제프로 변하는 것”을 상상해 보십시오.

(네티즌): “새로운 악몽이 시작되었습니다. 하하!”

마지막으로 Google에서 가장 행복했던 시간을 회상하며 두 사람은 추억을 공유했습니다.

제프에게 Google 초기에 가장 즐거웠던 순간은 Google 검색 트래픽의 폭발적인 성장을 목격한 것입니다.

“현재 20억 명이 사용하는 것을 구축하는 것은 놀라운 일입니다.”

최근에는 5년 전에도 사람들이 믿을 수 없었던 것을 Gemini 팀과 함께 구축하게 되어 기쁩니다. 그리고 그는 모델의 영향력이 더욱 확대될 것으로 예상합니다.

노암은 비슷한 경험과 사명감을 반영하며 Google의 “마이크로 키친 영역”도 애정 어린 마음으로 언급했습니다.

이곳은 약 50개의 테이블이 있는 특별한 공간으로 커피와 스낵을 제공하며 사람들이 자유롭게 대화하고 아이디어를 교환할 수 있습니다.

이 언급에 제프조차도 활기를 띠었습니다(도지).

업데이트됨 2025-02-18

# Google # Gemini # AGI