비주류 기술 경로의 선구자
간단하게 자기소개 부탁드립니다.
MiniMax의 수석 연구 이사 중이이란입니다. 주로 네트워크 아키텍처와 멀티모달 이해 대형 모델 설계를 감독합니다. MiniMax에서는 MiniMax-01 네트워크 구조 설계를 이끄는 것이 저의 주요 책임입니다.
이전에는 상하이 인공지능 연구소의 신규 아키텍처 탐색 그룹의 PI로 재직하면서 비-트랜스포머 아키텍처의 효율적인 훈련 모델링 방법과 시각-오디오-언어 멀티모달 융합 연구에 집중했습니다.
언제부터 선형 어텐션 연구를 시작했으며, 이 기술 경로를 선택한 이유는 무엇입니까?
2021년 7월경부터 선형 어텐션 연구를 시작했습니다. 이는 2020년에 박사 과정에서 작업했던 논문인 ‘Invertible Attention’에서 비롯되었습니다. 당시에는 가역적 신경망과 어텐션 메커니즘 모두 상당히 인기가 있어서 연구에서 이를 결합했습니다.
나중에 팀원 중 일부가 수학에 큰 관심을 갖게 되었습니다. 선형 어텐션과 같은 효율적인 시퀀스 모델링 방법은 강력한 수학적 기반이 필요하고 수많은 공식 유도를 포함하는데, 이는 팀의 관심사와 완벽하게 일치하여 이 방향을 선택했습니다.
당시 업계에서 선형 어텐션의 현황은 어떠했습니까?
매우 비주류였으며, 이에 대한 연구를 진행하는 사람은 거의 없었습니다. 대부분의 연구자들은 트랜스포머에 집중하고 있었는데, 이는 본질적으로 NLP에서 지배적인 세력이 되었습니다.
우리는 트랜스포머 연구를 하는 또 다른 평범한 사람이 되는 대신 다른 것을 해야 한다고 생각했습니다.
선형 어텐션 경로의 기술적 잠재력을 어떻게 평가했습니까?
우리의 초기 동기는 간단했습니다. 트랜스포머의 이차 계산 복잡성을 해결하는 것입니다. 스파스 트랜스포머와 선형 어텐션을 포함한 다양한 방법을 테스트했습니다.
스파스 트랜스포머가 작동하여 트랜스포머에 비해 더 빠른 속도와 낮은 메모리 사용량을 제공한다는 것을 알았습니다. 그러나 선형 어텐션은 성능이 좋지 않았고 속도도 느렸습니다. 그럼에도 불구하고 우리는 선형 어텐션을 추구하기로 선택했습니다.
한 가지 이유는 수학적 매력이었습니다. 우리는 성능이 더 좋을 것이라고 믿었습니다. 다른 하나는 스파스 어텐션의 상한선이 완전 어텐션이라고 느꼈기 때문에 능가하기가 어려웠습니다. 반면에 선형 어텐션은 그것을 능가할 잠재력이 있었습니다.
선형 어텐션이 무엇인지 설명해 주시겠습니까?
선형 어텐션은 본질적으로 커널 트릭입니다. 트랜스포머에서 Q, K, V 행렬을 곱하는 것은 차원에 따라 QK를 먼저 곱하는지 KV를 먼저 곱하는지에 따라 계산 복잡성이 달라집니다.
KV를 먼저 곱하면 계산 복잡성을 선형으로 줄일 수 있습니다. 그러나 문제는 QK 곱셈 다음에 소프트맥스 연산이 뒤따르는데, 이는 교환 법칙을 만족하지 않으며 KVfirst를 곱하는 것으로 쉽게 분할할 수 없다는 것입니다. 따라서 선형 어텐션의 첫 번째 단계는 소프트맥스를 제거하는 것입니다.
그러나 소프트맥스를 제거하면 결과에 영향을 미칩니다. 후속 작업은 소프트맥스 없이 결과의 일관성을 유지하는 것인데, 이것이 선형 어텐션이 목표로 하는 것입니다.
선형 어텐션, 스파스 어텐션 및 선형 RNN 아키텍처 간의 근본적인 차이점은 무엇입니까?
스파스 어텐션은 여전히 본질적으로 소프트맥스 어텐션입니다. 단순히 밀도 어텐션 행렬보다 더 적은 점을 계산합니다. 예를 들어, 슬라이딩 윈도우 어텐션은 윈도우 내에서만 어텐션 점수를 계산하여 계산량을 줄여 가속을 달성합니다.
선형 RNN과 선형 어텐션은 본질적으로 동일한 것이며, 일부에서는 RNN이라고 부르고 다른 사람들은 어텐션이라고 부릅니다.
모든 것을 RNN 형태로 작성할 수 있습니다. 예를 들어, 라이트닝 어텐션은 RWKV-4에 해당하고 RWKV-7은 게이트 델타 넷의 개선된 버전입니다. 본질적으로는 유사하지만 구현 세부 사항은 다릅니다.
선형 어텐션 메커니즘 연구의 주요 이정표는 무엇입니까?
2018-19년경에 트랜스포머 소프트맥스 어텐션의 이론적 계산 복잡성을 커널 트릭을 사용하여 줄일 수 있지만 결과가 좋지 않고 효율성이 낮다는 연구 결과가 나왔습니다.
2019-20년에 스파스 어텐션이 우세했으며, Google과 같은 회사에서 많은 스파스 어텐션 변형을 제안했습니다. 나중에 선형 어텐션이 등장하기 시작했지만 성능이 좋지 않고 속도가 느리다는 문제에 직면했습니다.
연구자들은 주로 두 가지 접근 방식을 채택하여 개선했습니다. 하나는 소프트맥스 함수를 근사화하여 분포가 소프트맥스에 따르도록 하는 것이었고, 다른 하나는 우리가 선택한 완전히 다른 방법을 사용하여 모델링하는 것으로 소프트맥스를 근사화하는 데 신경 쓰지 않았습니다.
우리는 2021년 10월에 첫 번째 논문인 ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’을 발표했는데, 이는 소프트맥스 연산을 코사인 함수로 대체하여 계산을 분할할 수 있도록 했습니다.
2022년 상반기에 우리는 두 번째 논문인 ‘The Devil in Linear Transformer’를 발표했는데, 이는 선형 어텐션의 성능 저하 이유를 분석하고 솔루션을 제공했습니다. 이것이 라이트닝 어텐션의 전신이었습니다.
나중에 우리는 선형 어텐션과 긴 컨볼루션을 위해 특별히 위치 인코딩을 연구하여 TNN인 ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’을 발표했는데, 이는 S4(Mamba의 전신)와 유사한 방법입니다.
마지막으로 우리는 개선된 감쇠 방법과 네트워크 구조를 통해 트랜스포머의 성능과 일치하는 라이트닝 어텐션을 출시했습니다. 또한 타일링 기술을 사용하여 속도를 높였습니다.
현재 비-트랜스포머 아키텍처 기술 경로에 대한 생각은 어떻습니까?
선형 어텐션은 실제로 비-트랜스포머 방법입니다. 현재 RNN과 같은 접근 방식을 제외하고 다른 비-트랜스포머 아키텍처는 감소하고 있습니다.
예를 들어, 긴 컨볼루션 및 대형 커널 컨볼루션과 같은 CNN은 성능이 좋지 않아 점차 제거된 것처럼 느껴지지만 실제로는 특정 측면에서 상당히 강력하여 이상 감지 작업과 같은 시퀀스 모델링에 여전히 어느 정도 영향을 미칩니다.
실제로 비-트랜스포머 아키텍처는 선형 어텐션, 긴 컨볼루션, 선형 RNN의 세 가지뿐입니다.
그러나 실제로 이 세 가지는 하나로 통합될 수 있는데, 이를 선형 복잡성 모델이라고 합니다. 우리는 이 세 가지를 모두 포함하는 기사를 작성했습니다.
라이트닝 어텐션과 Mamba 및 RWKV의 핵심 차이점은 무엇입니까?
가장 핵심적인 차이점은 라이트닝 어텐션이 가장 간단한 선형 어텐션이라는 것입니다. Mamba와 RWKV는 모두 데이터 종속 감쇠를 사용하는 반면 라이트닝 어텐션은 속도를 위해 수작업 감쇠를 사용합니다.
학습 가능한 감쇠가 더 나은 결과를 얻을 수 있지만 속도를 희생합니다. 예를 들어, RWKV-7은 게이팅 델타 넷보다 10-15% 느리고 게이팅 델타 넷은 라이트닝 어텐션 속도의 약 절반입니다.
RWKV의 모델링 효과는 실제로 라이트닝 어텐션보다 낫지만 속도가 느리고 아직 검색 문제를 해결하지 못했습니다.
이제 선형 어텐션이 높고 실현 가능한 상한선을 가지고 있다는 것이 업계의 합의입니까?
아니요, 합의였다면 모든 사람들이 선형 어텐션 모델을 확장하고 있을 것입니다. 그리고 지금도 합의가 아닙니다. 그랬다면 모든 사람이 선형 어텐션을 사용하고 있겠지만 아시다시피 그렇지 않습니다.
그러나 우리에게는 이미 2023년 하반기에 이를 확인했습니다. 당시에 많은 사람들에게 물어보고 많은 사람들과 이야기를 나눴는데, 그들이 제기한 가장 일반적인 요점은 선형 어텐션이 소규모에서는 작동한다는 것을 알고 있지만 확장하면 실패할 것이라고 느꼈다는 것입니다.
당시에 나는 모든 사람이 볼 수 있도록 확장할 것이라고 생각했습니다. 이제 MiniMax-01이 출시되었으므로 대규모 선형 어텐션의 능력에 대해 의심하는 사람은 없습니다.
소규모 실험에서 대규모 구현으로
선형 어텐션의 상한선이 완전 어텐션을 능가할 수 있다고 생각하십니까?
이제 하이브리드 아키텍처가 순수 트랜스포머보다 낫다는 것을 알 수 있습니다. 그러나 순수 선형 어텐션의 가장 큰 문제는 검색 능력인데, 이는 학계에서 해결하기 어려운 문제입니다.
기존 방법은 복잡하고 느리지만 여전히 완전히 해결할 수 없기 때문에 하이브리드 아키텍처로 이동해야 합니다.
연구실에서 나오기로 결정한 노드는 언제 관찰했습니까?
2023년 5월-6월에 우리는 이미 내부적으로 라이트닝 어텐션 2를 가지고 있었는데, 이는 Flash 어텐션보다 빠른 세계 최초의 선형 어텐션 구현이었습니다.
우리는 그것이 산업적 레드 라인을 넘었고 기술적 성숙도가 매우 높고 확장할 수 있다고 믿습니다.
이 산업적 레드 라인을 어떻게 정의합니까?
첫째, 효과가 트랜스포머보다 낫고 둘째, 속도가 트랜스포머보다 빠릅니다. 이것은 트랜스포머를 대체할 수 있는 능력을 제공합니다. 우리는 당시 15B 규모의 조밀한 모델에서 이를 검증했습니다.
연구실에서 나온 노드에서 궁극적으로 MiniMax와 함께하게 된 이유는 무엇입니까?
사실, 나는 당시에 일부 대기업들과 이야기를 나눴습니다. 그러나 결국 MiniMax와 함께 이 일을 성사시켰습니다.
우선, cosformer는 내가 Junjie와 공동으로 작업한 기사입니다. 우리는 협력의 기반을 가지고 있습니다. Junjie는 SenseTime에 있을 때 나의 상사였습니다. 23년 말에 Junjie가 저녁 식사에 초대했습니다. 그는 이러한 최첨단 기술의 가능성에 더 자신감을 가지고 있습니다. 제가 이해한 바로는 그는 당시 기술적 돌파구를 찾고 있었습니다.
당시에 MiniMax는 Moe에 대한 연구를 완료했고 다음 단계에 대한 기술적 돌파구가 실제로 거의 없었습니다. 당시에 라이트닝 어텐션이 출시되었고 mamba도 인기가 있었으므로 그의 눈에는 그것이 실현 가능한 방향이었습니다.
이것은 MiniMax의 대화형 동반자 제품과 관련이 있습니까?
연결이 없습니다. Yan Junjie는 모델의 상한선과 이 천장을 더 뚫는 방법에 더 관심을 가지고 있습니다.
선형 어텐션은 천장을 뚫기보다는 효율성을 뚫는 방향일 수 있습니다.
여기서 요점은 우선 각 제조업체의 컴퓨팅 성능이 일정하다는 것입니다. 모델을 더 빠르게 가속할수록 더 많은 데이터를 먹을 수 있고 더 나은 모델이 생성됩니다. 컴퓨팅 성능이 일정하면 모델이 더 빠를수록 더 좋습니다.
데이터가 최고조에 달한 상황을 관찰했습니까?
아직 없죠? 데이터는 여전히 지속적으로 확장되는 단계에 있지만 23년만큼 공격적이지 않을 수 있습니다.
데이터는 항상 증가하고 매일 새로운 데이터가 나오기 때문입니다. 모델의 경우 매일 처리할 새로운 데이터가 있습니다. 인터넷에서 매일 생성되는 데이터가 너무 많습니다. 정리를 통해 우리는 여전히 새로운 데이터를 얻을 수 있습니다.
인류 발달의 수년 동안 존재해 온 데이터에 비해 데이터 증가율이 둔화되었습니까?
실제로 반드시 그렇지는 않습니다. 중국 역사의 5천 년을 살펴보면 소수의 책만 축적되었습니다. 그러나 인터넷의 발달로 데이터 볼륨의 증가는 매우 가파른 곡선입니다. 인터넷 이전의 전체 생성된 데이터는 이후 1년 동안 생성된 데이터만큼 많지 않을 수 있습니다.
확대 과정에서 라이트닝 어텐션은 어떤 문제에 직면했습니까?
확장성을 검증하기 위해 먼저 스케일링 법칙 실험을 수행하여 작은 모델에서 7B, 9B로 점차 확장하고 마지막으로 400B 이상의 모델로 확장했습니다.
그리고 우리는 선형의 용량이 트랜스포머보다 크다는 것을 이론적으로 증명했습니다.
우리는 용량을 RNN의 현재 상태 크기로 정의합니다. 트랜스포머의 경우 용량 크기는 O(d)이고, 여기서 d는 크기입니다. 선형 어텐션의 경우 용량 크기는 d²/h입니다. d가 h보다 훨씬 크기 때문에 용량이 더 큽니다.
결국 우리는 하이브리드 모델이 순수 트랜스포머보다 낫다는 것도 검증했습니다.
4M 길이 시퀀스 윈도우는 어떻게 달성됩니까?
라이트닝의 경우 훈련 길이는 임의적일 수 있습니다. 컴퓨팅 성능이 완전히 활용되는 한 8K, 32K 또는 128K 훈련 속도는 동일하고 TGS(GPU당 토큰/초)는 동일합니다.
트랜스포머는 n² 계산 복잡성이기 때문에 시퀀스가 길수록 계산 복잡성이 더 빠르게 증가하고 대기 시간이 이차 곡선으로 증가합니다. 1M 길이에서 소프트맥스 어텐션의 대기 시간은 라이트닝 어텐션의 2,700배입니다.
미래에 무한 컨텍스트 윈도우를 달성하기 위해 여전히 해결해야 할 기술적 과제는 무엇입니까?
현재 하이브리드 아키텍처에는 여전히 1/8의 소프트맥스 어텐션이 있습니다. 이것은 1M 길이에서 병목 현상입니다. 이 1/8에서 발생하는 대기 시간은 나머지 7/8의 선형 어텐션보다 훨씬 높습니다.
긴 텍스트를 최적화하려면 소프트맥스 어텐션 부분을 최적화해야 합니다. 스파스 어텐션 방법을 통해 더 빠르고 가볍게 만들 수 있습니다.
또한 소프트맥스와 선형 어텐션의 혼합 비율을 더 극단적으로 만들어 더 이상 1/8이 아닌 1/16 또는 1/32로 만드는 것을 고려하고 있습니다. 가장 급진적인 해결책은 전체 모델에 소프트맥스 레이어를 하나만 넣는 것이지만 보험을 위해 채택하지 않았는데, 이는 주로 검색 능력에 미치는 영향을 고려했기 때문입니다.
검색 능력이 모델에 중요한 이유는 무엇입니까?
검색은 컨텍스트 내 학습의 기초이며 필요한 조건입니다.
컨텍스트 내 학습을 하려면 컨텍스트의 정보를 기억해야 하며, 컨텍스트 내 학습은 CoT(Chain of Thought)와 같은 현재 대형 모델의 모든 고급 기능, 특히 긴 CoT의 기초이며 모두 검색 능력에 의존합니다.
결정적인 새로운 아키텍처
FFN과 업계의 어텐션의 최신 아키텍처 개선에 주목했습니까?
FFN의 개선은 Moe입니다. Byte의 Ultra Mem에도 주목했지만 손실 압축인 손실된 것이라고 생각합니다. 앞으로 확장하면 문제가 발생할 수 있지만 확장하지 않았으므로 문제가 발생할 수 있다고만 말할 수 있습니다.
FFN은 기본적으로 이것들이기 때문입니다. Moe 영역의 개선은 이전의 큰 전문가에서 현재의 작은 전문가 모드로 변경하여 더 희소하게 만들고 가속을 수행하는 것 외에는 없습니다.
더 최적화하려면 FFN은 행렬 곱셈이므로 최적화는 Nvidia에서 CUDA 수준에서만 수행할 수 있으며 행렬 곱셈의 최하위 수준 최적화를 수행할 수 있습니다.
업계의 어텐션 아키텍처의 개선에 주목했습니까?
어텐션에 대한 개선은 기본적으로 선형입니다. 우리는 또한 앞으로 더 강력한 선형을 만들고 현재 기반에서 선형 어텐션을 더 가속할지 고려하고 있습니다.
개선할 방법은 많습니다. 하나는 감쇠를 변경하는 것이고 다른 하나는 내부의 작은 트릭을 변경하는 것입니다. 우리의 새로운 논문을 기대할 수 있습니다.
컨텍스트 길이와 추론 비용의 현재 비율이 비교적 고급입니까?
일단 시퀀스 길이를 늘리는 것과 관련되면 컴퓨팅 성능 비용 이점이 매우 뚜렷합니다. 길수록 비용 이점이 더 뚜렷하며 추론이든 훈련이든 마찬가지입니다.
예를 들어, 1M에서 선형 어텐션에서 소비하는 컴퓨팅 성능은 완전 어텐션의 1/2700입니다. 비교해 보면 여전히 1/8의 완전 어텐션을 가지고 있기 때문에 기본적으로 트랜스포머 아키텍처의 1/8입니다. 선형 어텐션은 기본적으로 비용으로 간주되지 않기 때문입니다.
계산 비용이 매우 낮다면 계산 병목 현상을 달성할 수 있습니까?
이제 실제로 메모리 액세스 병목 현상입니다. 디코딩은 계산 병목 현상이 아니라 메모리 액세스 병목 현상입니다. 라이트닝이 매우 빠르기 때문에 메모리 액세스가 계산만큼 적은 리소스를 차지할 수 있기 때문입니다. 이는 주로 실제 응용 프로그램의 시퀀스 길이가 충분히 길지 않기 때문입니다.
앞으로 계산 병목 현상을 만드는 방법은 메모리 액세스를 최적화하는 방법에 달려 있습니다. 이것들은 엔지니어링 부서에서 책임을 져야 할 것입니다.
선형 아키텍처가 차세대 주류 아키텍처가 된다면 어떤 하드웨어 적응 개선이 더 적합할까요?
여기서 매우 까다로운 점은 시퀀스 길이를 고려해야 한다는 것입니다. 시퀀스 길이가 8K 또는 32K에 집중되어 있다면 어텐션은 10%를 조금 넘게 차지하고 나머지 80%는 FFN 부분입니다.
어텐션을 극한으로 최적화하더라도 0으로 만들어도 대기 시간의 10%를 조금 넘게 최적화한 것입니다. 그러나 시퀀스 길이를 늘리면 어텐션의 비율이 점점 더 커집니다. 이는 완전 어텐션에 비해 그렇지만 선형 어텐션의 경우 비율은 변경되지 않습니다.
FFN도 선형이고 선형 어텐션도 선형이기 때문에 비율은 약 10%로 1M의 경우에도 거의 변경되지 않습니다.
그러나 완전 어텐션인 경우 어텐션 계산이 99%를 차지하고 다음 FFN은 1%만 차지할 수 있습니다. 따라서 선형 어텐션은 긴 텍스트에서만 장점이 있습니다.
선형 아키텍처가 주류가 되면 추구하는 것은 저에너지 하드웨어일 수 있으며 에너지 소비만 줄입니다. 스파이킹 신경망(SNN) 칩을 포함하여 더 적합할 수 있으며 실제로 일부 사람들은 그렇게 하고 있습니다.
AGI로 가는 길을 기대하며
모델 오픈 소스 효과에 대한 기대는 무엇입니까?
첫 번째는 홍보 효과입니다. 개인적으로 생각하기에 오픈 소스의 가장 중요한 것은 근육을 과시하는 것 외에도 앞으로 모든 사람이 어떻게 사용할 수 있는지를 보는 것이라고 생각합니다. 소규모 모델 오픈 소스가 앞으로 우리가 고려하고 있는 것일 수 있다고 생각합니다.
그리고 모든 사람이 미세 조정할 수 있도록 일부 인프라를 만드는 방법도 고려해야 할 수 있습니다. 오픈 소스는 앞으로 우리에게 장기적인 일이며 주력 모델은 계속 오픈 소스화해야 합니다.
하이브리드가 아닌 순수 혈통 아키텍처가 앞으로 실행될 가능성이 있습니까?
현재 하이브리드보다 더 잘할 수 있는 방법은 없으며 특히 속도면에서 그렇습니다. 소프트맥스 어텐션을 조금 추가하면 시퀀스 길이가 특히 길지 않을 때 속도 이점이 매우 뚜렷하며 특히 플래시 어텐션이 등장한 후에는 더욱 그렇습니다.
순수 혈통 아키텍처에 대한 연구는 여전히 진행 중이지만 매우 어렵고 더 이상 낮은 과일이 없습니다. 우리는 몇 가지 기술적 솔루션을 가지고 있지만 구현이 간단하지 않으며 궁극적으로 달성해야 하는 시퀀스 길이에 따라 달라집니다.
또 다른 질문은 초장문 텍스트에 대한 강력한 요구가 있습니까? Claude와 같은 모델이 200K 컨텍스트에 도달했지만 사용자는 현재 길이에 매우 만족하는 것 같습니다. 에이전트 응용 프로그램은 앞으로 초장문 시퀀스에 대한 요구를 가져올 수 있지만 아직 성숙한 벤치마크는 없습니다.
하지만 이 문제는 Nvidia가 필요하지 않더라도 미래 게임을 위해 고급 성능 그래픽 카드를 개발하는 것과 같다고 생각합니다.
예를 들어, 심층 연구에서는 모델이 수십 개의 웹사이트 내용을 읽어야 하며 처리 시간은 수십 분 단위로 소요되므로 긴 텍스트의 응용 프로그램 방향일 수 있습니다.
CoT 다음의 다음 큰 것은 무엇이라고 생각하십니까?
우리는 이것에 대해 생각해 왔습니다. 우선, 현재 추론 모델은 비교적 인기가 있으며 올해의 주류는 여전히 추론 부분일 것입니다. 그 후에는 순수 언어 모델의 미래에 대한 특별히 큰 변화를 생각하기 어렵습니다.
나는 또한 다른 선생님들과 이야기를 나눴는데, 그들의 느낌은 모든 사람이 모델 비용을 다시 줄여 추론 속도가 점점 빨라지고 가격이 점점 낮아지고 효과를 유지하면서 비용을 줄인다는 것입니다.
천장이 빠르게 다가오고 있기 때문에 대다수의 경우는 대형 모델의 기능을 확인하고 격차를 메우는 것입니다. 그러나 훨씬 더 큰 기술적 돌파구가 있다면 단기적으로는 비교적 드물 수 있으며 아직 보지 못했습니다.
MiniMax가 선형 어텐션을 탐색한 후 다음 탐색 방향은 무엇일까요?
다음은 멀티모달 아키텍처, 특히 기본 생성 및 이해 통합 대형 모델 아키텍처를 수행할지 여부를 탐색하는 것일 수 있습니다.
AGI를 최종 지점으로 삼아 O(n²) 또는 O(n)의 계산 복잡도를 가진 모델 중 어떤 것이 더 나은 답일까요?
물론 O(n)입니다. 인류학적 관점에서 보면 사람은 O(n) 복잡도여야 합니다. 예를 들어, 사람의 복잡도가 O(n²)이면 내가 당신에게 말하는 속도가 점점 느려질 것입니다.
트랜스포머의 경우 추론 복잡도가 O(n²) 계산 복잡도이기 때문에 첫 번째 토큰을 내뱉는 대기 시간과 100번째 토큰을 내뱉는 대기 시간이 다릅니다.
우리 인간은 그런 것을 상상할 수 없습니다. 왜냐하면 사람은 태어난 이후로 다시 시작한 적이 없고 계속해서 뭔가를 내뱉고 있기 때문에 사람의 계산 복잡도는 일정합니다.
인간이 반드시 지능에 대한 최적의 해결책일까요?
지금은 그렇게 생각할 수밖에 없습니다. 생체 지능 경로를 수행하는 사람들도 있지만 우리는 그 방향에 너무 많은 관심을 기울이지 않았습니다.
AGI를 최종 게임으로 삼아 모델 개선의 어떤 영역이 가장 중요할까요?
언어 모델링 외에도 학습 방법의 문제도 있습니다. 학습 방법, 환경에서 학습, 환경과의 상호 작용에서 학습하는 것이 매우 중요합니다. 결국 현재 멀티모달 이해는 여전히 데이터가 매우 부족합니다.
그리고 기계의 소수 학습조차 현재는 레이블이 지정되어 있지만 인간 학습은 레이블이 지정되지 않았습니다. 따라서 자체 구성된 프레임워크에서 모든 것을 통합하는 방법도 문제입니다.