MiniMax Cược Lớn vào Linear Attention | vi

Người Tiên Phong trên Con Đường Kỹ Thuật Không Chính Thống

Bạn có thể giới thiệu ngắn gọn về bản thân không?

Tôi là Zhong Yiran, Giám đốc Nghiên cứu Cấp cao tại MiniMax, nơi tôi chủ yếu giám sát việc thiết kế kiến trúc mạng và các mô hình lớn hiểu đa phương thức. Tại MiniMax, trách nhiệm chính của tôi là dẫn dắt việc thiết kế cấu trúc mạng MiniMax-01.

Trước đây, tôi từng là PI cho Nhóm Khám phá Kiến trúc Mới tại Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải, tập trung vào các phương pháp mô hình hóa đào tạo hiệu quả cho các kiến trúc không phải transformer và nghiên cứu về hợp nhất đa phương thức hình ảnh-âm thanh-ngôn ngữ.

Bạn bắt đầu nghiên cứu linear attention khi nào và tại sao bạn chọn con đường kỹ thuật này?

Tôi bắt đầu nghiên cứu linear attention vào khoảng tháng 7 năm 2021. Điều này xuất phát từ một bài báo tôi đã thực hiện cho luận án tiến sĩ của mình vào năm 2020, ‘Invertible Attention’. Vào thời điểm đó, cả mạng nơ-ron có thể đảo ngược và cơ chế attention đều khá phổ biến, vì vậy chúng tôi đã kết hợp chúng trong nghiên cứu của mình.

Sau đó, một số thành viên trong nhóm của chúng tôi rất quan tâm đến toán học. Các phương pháp mô hình hóa chuỗi hiệu quả như linear attention đòi hỏi một nền tảng toán học vững chắc và liên quan đến nhiều suy luận công thức, điều này hoàn toàn phù hợp với sở thích của nhóm, vì vậy chúng tôi đã chọn hướng đi này.

Tình trạng của linear attention trong ngành vào thời điểm đó như thế nào?

Nó rất không chính thống, có rất ít người làm việc trên nó. Hầu hết các nhà nghiên cứu đều tập trung vào transformer, về cơ bản đã trở thànhlực lượng thống trị trong NLP.

Chúng tôi nghĩ rằng thay vì chỉ là một khuôn mặt khác trong đám đông thực hiện nghiên cứu về transformer, chúng tôi nên làm điều gì đó khác biệt.

Bạn đánh giá tiềm năng kỹ thuật của tuyến đường linear attention như thế nào?

Động lực ban đầu của chúng tôi rất đơn giản: giải quyết độ phức tạp tính toán bậc hai của transformer. Chúng tôi đã thử nghiệm nhiều phương pháp khác nhau, bao gồm sparse transformer và linear attention.

Chúng tôi thấy rằng sparse transformer thực sự hoạt động, mang lại tốc độ nhanh hơn và sử dụng ít bộ nhớ hơn so với transformer. Tuy nhiên, linear attention hoạt động kém và cũng chậm. Mặc dù vậy, chúng tôi vẫn chọn theo đuổi linear attention.

Một lý do là sự hấp dẫn về mặt toán học của nó - chúng tôi tin rằng hiệu suất của nó sẽ tốt hơn. Lý do khác là chúng tôi cảm thấy giới hạn trên của sparse attention là full attention, gây khó khăn cho việc vượt qua. Mặt khác, linear attention có tiềm năng vượt qua nó.

Bạn có thể giải thích linear attention là gì không?

Linear attention về cơ bản là một thủ thuật kernel. Trong transformer, việc nhân các ma trận Q, K và V liên quan đến các độ phức tạp tính toán khác nhau tùy thuộc vào việc bạn nhân QK trước hay KV trước, do các chiều khác nhau.

Nhân KV trước có thể giảm độ phức tạp tính toán thành tuyến tính. Tuy nhiên, vấn đề là phép nhân QK được theo sau bởi một phép toán softmax, không đáp ứng tính chất giao hoán và không thể dễ dàng chia thành phép nhân KV trước. Do đó, bước đầu tiên trong linear attention là loại bỏ softmax.

Nhưng việc loại bỏ softmax ảnh hưởng đến kết quả. Nhiệm vụ tiếp theo là duy trì tính nhất quán trong kết quả mà không cần softmax, đó là những gì linear attention hướng đến.

Sự khác biệt cơ bản giữa linear attention, sparse attention và kiến trúc linear RNN là gì?

Sparse attention về cơ bản vẫn là một softmax attention. Nó chỉ đơn giản là tính toán ít điểm hơn so với ma trận attention dày đặc. Ví dụ: sliding window attention chỉ tính toán điểm attention trong một cửa sổ, đạt được gia tốc bằng cách giảm lượng tính toán.

Linear RNN và linear attention về cơ bản là giống nhau, chỉ là một số người gọi là RNN và những người khác gọi là attention.

Mọi thứ đều có thể được viết ở dạng RNN. Ví dụ: lightning attention tương ứng với RWKV-4, trong khi RWKV-7 là một phiên bản cải tiến của gated delta net. Mặc dù chúng tương tự nhau về bản chất, nhưng các chi tiết triển khai của chúng khác nhau.

Những cột mốc quan trọng trong nghiên cứu về cơ chế linear attention là gì?

Khoảng năm 2018-19, nghiên cứu cho thấy rằng độ phức tạp tính toán lý thuyết của transformer softmax attention có thể được giảm bằng cách sử dụng các thủ thuật kernel, nhưng kết quả kém và hiệu quả thấp.

Trong giai đoạn 2019-20, sparse attention chiếm ưu thế, với các công ty như Google đề xuất nhiều biến thể sparse attention. Sau đó, linear attention bắt đầu xuất hiện, nhưng nó phải đối mặt với thách thức về hiệu suất kém và tốc độ chậm.

Các nhà nghiên cứu chủ yếu áp dụng hai phương pháp để cải thiện: một là xấp xỉ hàm softmax, làm cho phân phối phù hợp với softmax; phương pháp còn lại, mà chúng tôi đã chọn, là mô hình hóa bằng các phương pháp hoàn toàn khác nhau, không quan tâm đến việc xấp xỉ softmax.

Chúng tôi đã xuất bản bài báo đầu tiên của mình, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, vào tháng 10 năm 2021, thay thế phép toán softmax bằng hàm cosine, cho phép tính toán được chia nhỏ.

Trong nửa đầu năm 2022, chúng tôi đã xuất bản một bài báo thứ hai, ‘The Devil in Linear Transformer’, phân tích các lý do khiến hiệu suất của linear attention giảm sút và đưa ra các giải pháp. Đây là tiền thân của lightning attention.

Sau đó, chúng tôi cũng nghiên cứu mã hóa vị trí đặc biệt cho linear attention và long convolution, xuất bản TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, một phương pháp tương tự như S4 (tiền thân của Mamba).

Cuối cùng, chúng tôi đã ra mắt lightning attention, phù hợp với hiệu suất của transformer thông qua các phương pháp phân rã và cấu trúc mạng được cải thiện. Chúng tôi cũng sử dụng kỹ thuật tiling để làm cho nó nhanh hơn.

Bạn nghĩ gì về các tuyến kỹ thuật kiến trúc không phải transformer hiện tại?

Linear attention thực sự là một phương pháp không phải transformer. Hiện tại, bên cạnh các phương pháp giống RNN, các kiến trúc không phải transformer khác đang suy giảm.

Ví dụ: CNN như long convolution và large kernel convolution, có cảm giác như chúng đã dần bị loại bỏ do hiệu suất kém, nhưng chúng thực sự khá mạnh ở một số khía cạnh, vẫn có một số tác dụng trong mô hình hóa chuỗi, chẳng hạn như các tác vụ phát hiện dị thường.

Trên thực tế, chỉ có ba kiến trúc không phải transformer: linear attention, long convolution và linear RNN.

Nhưng trên thực tế, ba kiến trúc này có thể được hợp nhất thành một, mà chúng tôi gọi là mô hình độ phức tạp tuyến tính. Chúng tôi đã viết một bài báo bao gồm cả ba.

Sự khác biệt cốt lõi giữa lightning attention và Mamba và RWKV là gì?

Sự khác biệt cốt lõi nhất là lightning attention là linear attention đơn giản nhất. Mamba và RWKV đều sử dụng data-dependent decay, trong khi lightning attention sử dụng handcrafted decay để tăng tốc.

Mặc dù learnable decay có thể đạt được kết quả tốt hơn, nhưng nó hy sinh tốc độ. Ví dụ: RWKV-7 chậm hơn 10-15% so với gating delta net, trong khi gated delta net có tốc độ bằng khoảng một nửa lightning attention.

Hiệu ứng mô hình hóa của RWKV thực sự tốt hơn lightning attention, nhưng nó chậm hơn và vẫn chưa giải quyết được vấn đề truy xuất.

Bây giờ có phải là sự đồng thuận của ngành rằng linear attention có giới hạn trên cao và khả thi không?

Không, nếu đó là sự đồng thuận, mọi người sẽ mở rộng quy mô các mô hình linear attention. Và bây giờ cũng không phải là sự đồng thuận. Nếu đúng như vậy, mọi người sẽ làm tuyến tính, nhưng như bạn thấy, không phải vậy.

Nhưng đối với chúng tôi, chúng tôi đã thấy điều này vào nửa cuối năm 2023. Vào thời điểm đó, tôi đã hỏi nhiều người và nói chuyện với nhiều người, và điểm chung nhất mà họ đưa ra là họ biết linear attention hoạt động trên quy mô nhỏ, nhưng họ cảm thấy nó sẽ thất bại khi mở rộng quy mô.

Vào thời điểm đó, tôi nghĩ rằng tôi sẽ mở rộng quy mô để mọi người xem. Bây giờ MiniMax-01 đã ra mắt, không ai nghi ngờ khả năng của linear attention trên quy mô lớn.

Từ Các Thí Nghiệm Nhỏ đến Triển Khai Quy Mô Lớn

Bạn có nghĩ rằng giới hạn trên của linear attention có thể vượt qua full attention không?

Bây giờ chúng ta có thể thấy rằng kiến trúc lai tốt hơn transformer thuần túy. Nhưng vấn đề lớn nhất với linear attention thuần túy là khả năng truy xuất, đây là một vấn đề khó khăn để giới học thuật giải quyết.

Các phương pháp hiện có, mặc dù phức tạp và chậm, nhưng vẫn không thể giải quyết hoàn toàn nó, đó là lý do tại sao cần phải chuyển sang kiến trúc lai.

Bạn đã quan sát nút nào khiến bạn quyết định ra khỏi phòng thí nghiệm?

Vào tháng 5-6 năm 2023, chúng tôi đã có lightning attention 2 nội bộ, đây là triển khai linear attention đầu tiên trên thế giới nhanh hơn Flash attention.

Chúng tôi tin rằng nó đã vượt qua lằn ranh đỏ công nghiệp và độ chín của công nghệ rất cao và có thể được mở rộng quy mô.

Bạn định nghĩa lằn ranh đỏ công nghiệp này như thế nào?

Đầu tiên, hiệu quả tốt hơn transformer và thứ hai, nó nhanh hơn transformer. Điều này mang lại cho nó khả năng thay thế transformer. Chúng tôi đã xác minh điều này trên mô hình dày đặc quy mô 15B vào thời điểm đó.

Tại nút khi bạn ra khỏi phòng thí nghiệm, tại sao cuối cùng bạn lại đến với MiniMax?

Trên thực tế, tôi đã nói chuyện với một số công ty lớn vào thời điểm đó. Nhưng cuối cùng, tôi vẫn thực hiện điều này với MiniMax.

Trước hết, cosformer là một bài báo tôi đã hợp tác với Junjie. Chúng tôi có nền tảng để hợp tác. Junjie là ông chủ của tôi khi anh ấy ở SenseTime. Vào cuối năm 23, Junjie đã mời tôi đi ăn tối. Anh ấy tự tin hơn vào khả năng của những công nghệ tiên tiến này. Tôi hiểu rằng anh ấy cũng đang tìm kiếm một đột phá kỹ thuật vào thời điểm đó.

Vào thời điểm đó, MiniMax đã hoàn thành nghiên cứu về Moe và thực sự có rất ít điểm đột phá kỹ thuật cho bước tiếp theo. Vào thời điểm đó, lightning attention đã được phát hành và mamba cũng phổ biến, vì vậy trong mắt anh ấy, đó là một hướng đi khả thi.

Điều này có liên quan đến sản phẩm đồng hành tương tác của MiniMax không?

Không có kết nối. Yan Junjie quan tâm nhiều hơn đến giới hạn trên của mô hình và làm thế nào để tiếp tục phá vỡ giới hạn này.

Linear attention có thể là một hướng đi để phá vỡ hiệu quảtrong mắt công chúng, thay vì phá vỡ giới hạn.

Điểm ở đây là, trước hết, sức mạnh tính toán của mỗi nhà sản xuất là không đổi. Mô hình càng có thể được tăng tốc nhanh hơn, nó càng có thể ăn nhiều dữ liệu hơn và mô hình được tạo ra càng tốt hơn. Khi sức mạnh tính toán là không đổi, mô hình càng nhanh thì càng tốt.

Bạn có quan sát thấy tình huống dữ liệu đã đạt đến đỉnh điểm không?

Vẫn chưa, phải không? Dữ liệu vẫn đang trong giai đoạn mở rộng quy mô liên tục, nhưng nó có thể không mạnh mẽ như năm 23.

Bởi vì dữ liệu luôn tăng lên và dữ liệu mới xuất hiện mỗi ngày. Đối với mô hình, nó có dữ liệu mới để xử lý mỗi ngày. Dữ liệu được tạo ra bởi Internet mỗi ngày là rất nhiều. Thông qua làm sạch, chúng ta vẫn có thể lấy dữ liệu mới ra.

So với dữ liệu đã tồn tại trong rất nhiều năm phát triển của con người, tốc độ tăng trưởng dữ liệu có chậm lại không?

Trên thực tế, không nhất thiết. Hãy nhìn vào năm nghìn năm lịch sử của Trung Quốc, và chỉ có một vài cuốn sách đó đã được tích lũy. Nhưng với sự phát triển của Internet, sự gia tăng về khối lượng dữ liệu là một đường cong rất dốc. Tổng lượng dữ liệu được tạo ra trước Internet có thể không nhiều bằng dữ liệu được tạo ra trong một năm sau đó.

Trong quá trình mở rộng quy mô, lightning attention phải đối mặt với những thách thức nào?

Để xác minh khả năng mở rộng của nó, trước tiên chúng tôi đã thực hiện các thí nghiệm về quy luật mở rộng quy mô, dần dần mở rộng từ các mô hình nhỏ đến 7B, 9B và cuối cùng mở rộng đến các mô hình có hơn 400B.

Và chúng tôi đã chứng minh về mặt lý thuyết rằng dung lượng của linear lớn hơn transformer.

Chúng tôi định nghĩa dung lượng là kích thước của các trạng thái hiện tại của RNN. Đối với transformer, kích thước dung lượng là O(d), trong đó d là kích thước; đối với linear attention, kích thước dung lượng là d²/h. Vì d lớn hơn nhiều so với h, nên dung lượng lớn hơn.

Cuối cùng, chúng tôi cũng đã xác minh rằng mô hình lai tốt hơn transformer thuần túy.

Độ dài cửa sổ chuỗi 4M được thực hiện như thế nào?

Đối với lightning, độ dài đào tạo có thể tùy ý. Miễn là sức mạnh tính toán được sử dụng đầy đủ, tốc độ đào tạo 8K, 32K hoặc 128K là như nhau và TGS (token trên mỗi GPU trên mỗi giây) là như nhau.

Bởi vì transformer là độ phức tạp tính toán n², chuỗi càng dài, độ phức tạp tính toán càng tăng nhanh và độ trễ tăng theo đường cong bậc hai. Ở độ dài 1M, độ trễ của softmax attention gấp 2.700 lần so với lightning attention.

Những thách thức kỹ thuật nào vẫn cần được giải quyết để đạt được cửa sổ ngữ cảnh vô hạn trong tương lai?

Trong kiến trúc lai hiện tại của chúng tôi, vẫn còn 1/8 softmax attention. Đây là một nút thắt ở độ dài 1M. Độ trễ do 1/8 này mang lại cao hơn nhiều so với 7/8 còn lại của linear attention.

Nếu chúng ta muốn tối ưu hóa văn bản dài, chúng ta phải xem xét tối ưu hóa phần softmax attention. Chúng ta có thể học hỏi từ các phương pháp sparse attention để làm cho nó nhanh hơn và nhẹ hơn.

Ngoài ra, chúng tôi cũng đang xem xét làm cho tỷ lệ trộn giữa softmax và linear attention trở nên cực đoan hơn, không còn 1/8, mà có thể là 1/16 hoặc 1/32. Giải pháp triệt để nhất là chỉ đặt một lớp softmax trong toàn bộ mô hình, nhưng để đảm bảo, chúng tôi đã không áp dụng nó, chủ yếu xem xét tác động đến khả năng truy xuất.

Tại sao khả năng truy xuất lại quan trọng đối với mô hình?

Truy xuất là cơ sở của in-context learning và là một điều kiện cần thiết.

Bạn phải nhớ thông tin trong ngữ cảnh để thực hiện in-context learning, và in-context learning là cơ sở của tất cả các khả năng nâng cao của các mô hình lớn hiện tại, chẳng hạn như CoT (Chain of Thought), đặc biệt là CoT dài, tất cả đều dựa vào khả năng truy xuất.

Kiến Trúc Mới Quyết Định

Bạn có chú ý đến những cải tiến kiến trúc mới nhất trong FFN và attention trong ngành không?

Sự cải tiến của FFN là Moe. Tôi cũng chú ý đến Ultra Mem của Byte, nhưng tôi nghĩ đó là một thứ mất mát, một sự nén mất mát. Có thể có vấn đề nếu nó được mở rộng quy mô trong tương lai, nhưng chúng tôi chưa mở rộng quy mô, vì vậy tôi chỉ có thể nói rằng có thể có vấn đề.

Bởi vì FFN về cơ bản là những thứ này. Những cải tiến của chúng tôi trong khu vực Moe không có gì khác hơn là thay đổi từ chế độ chuyên gia lớn trước đây sang chế độ chuyên gia nhỏ hiện tại, làm cho nó thưa thớt hơn và sau đó thực hiện một số tăng tốc, điều này đòi hỏi nghiên cứu thêm.

Nếu bạn muốn tối ưu hóa nó hơn nữa, bởi vì FFN là phép nhân ma trận, thì việc tối ưu hóa chỉ có thể được thực hiện trên cấp độ CUDA bởi Nvidia, thực hiện một số tối ưu hóa cấp thấp của phép nhân ma trận.

Bạn có chú ý đến những cải tiến trong kiến trúc attention trong ngành không?

Những cải tiến trên attention về cơ bản là tuyến tính. Chúng tôi cũng đang xem xét liệu có nên tạo ra một Linear mạnh hơn trong tương lai hay không và tiếp tục tăng tốc Linear attention trên cơ sở hiện tại.

Có nhiều cách để cải thiện, một là thay đổi sự phân rã và hai là thay đổi một số thủ thuật nhỏ bên trong. Bạn có thể mong đợi bài báo mới của chúng tôi.

Tỷ lệ độ dài ngữ cảnh và chi phí suy luận hiện tại của chúng tôi có tương đối tiên tiến không?

Khi nói đến việc kéo dài độ dài chuỗi, chúng tôi có một lợi thế về chi phí sức mạnh tính toán rất rõ ràng. Nó càng dài, lợi thế về chi phí sẽ càng rõ ràng, cho dù đó là suy luận hay đào tạo.

Ví dụ: trên 1M, sức mạnh tính toán mà linear attention tiêu thụ là 1/2700 của full attention. So sánh, bởi vì chúng tôi vẫn có 1/8 full attention, nó về cơ bản là 1/8 kiến trúc transformer, bởi vì linear attention về cơ bản không được tính là một chi phí.

Nếu chi phí tính toán thấp như vậy, nó có thể đạt được nút thắt tính toán không?

Bây giờ nó thực sự là một nút thắt truy cập bộ nhớ. Giải mã là một nút thắt truy cập bộ nhớ, không phải là một nút thắt tính toán. Bởi vì lightning rất nhanh, nó quá nhanh để cho phép truy cập bộ nhớ chiếm ít tài nguyên như tính toán. Điều này chủ yếu là do độ dài chuỗi trong các ứng dụng thực tế không đủ dài.

Làm thế nào để làm cho nó trở thành một nút thắt tính toán trong tương lai phụ thuộc vào cách tối ưu hóa truy cập bộ nhớ. Đây sẽ là những điều mà bộ phận kỹ thuật cần chịu trách nhiệm.

Nếu kiến trúc tuyến tính trở thành kiến trúc chủ đạo của thế hệ tiếp theo, những cải tiến thích ứng phần cứng nào sẽ phù hợp hơn cho nó?

Một điều rất khó ở đây là chúng ta cần xem xét độ dài chuỗi. Nếu độ dài chuỗi của bạn tập trung vào 8K hoặc 32K, thì attention chỉ chiếm hơn mười phần trăm và tám mươi phần trăm còn lại là phần FFN.

Ngay cả khi bạn tối ưu hóa attention đến cực điểm, đến 0, bạn chỉ tối ưu hóa hơn mười phần trăm độ trễ. Nhưng nếu bạn kéo dài độ dài chuỗi, tỷ lệ của attention sẽ trở nên lớn hơn và lớn hơn. Điều này so với full attention, nhưng đối với linear attention, tỷ lệ của nó không thay đổi.

Bởi vì FFN cũng là tuyến tính và linear attention cũng là tuyến tính, tỷ lệ của nó là khoảng 10%, gần như không thay đổi, ngay cả trong trường hợp 1M.

Nhưng nếu đó là full attention, tính toán attention có thể chiếm 99% và FFN sau đây chỉ chiếm 1%. Vì vậy, linear attention chỉ có lợi thế trong văn bản dài.

Nếu kiến trúc tuyến tính trở thành chủ đạo, thì mục tiêu có thể là phần cứng tiêu thụ ít năng lượng, chỉ giảm mức tiêu thụ năng lượng. Bao gồm cả chip Spiking Neural Network (SNN) có thể phù hợp hơn và một số người thực sự đang làm điều đó.

Mong Chờ Con Đường Đến AGI

Bạn mong đợi gì về hiệu ứng mã nguồn mở của mô hình?

Đầu tiên là hiệu ứng quảng cáo. Cá nhân tôi nghĩ rằng ngoài việc thể hiện một số cơ bắp, điều quan trọng nhất đối với mã nguồn mở là xem mọi người có thể sử dụng nó như thế nào trong tương lai. Tôi nghĩ rằng mã nguồn mở mô hình nhỏ có thể là điều mà chúng ta đang xem xét thực hiện nhiều hơn trong tương lai.

Và làm thế nào để tạo ra một số cơ sở hạ tầng cho mọi người để tinh chỉnh cũng có thể cần được xem xét. Mã nguồn mở là một điều dài hạn đối với chúng ta trong tương lai và các mô hình hàng đầu nên tiếp tục được mã nguồn mở.

Liệu có thể có một kiến trúc thuần chủng không phải là lai sẽ chạy ra ngoài trong tương lai không?

Hiện tại, không có phương pháp nào có thể làm tốt hơn lai, đặc biệt là về tốc độ. Thêm một phần nhỏ softmax attention, lợi thế về tốc độ rất rõ ràng khi độ dài chuỗi không đặc biệt dài, đặc biệt là sau sự xuất hiện của flash attention.

Nghiên cứu về kiến trúc thuần chủng vẫn đang được tiến hành, nhưng rất khó và không còn nhiều quả thấp nữa. Chúng tôi có một số giải pháp kỹ thuật, nhưng việc triển khai không đơn giản và cuối cùng phụ thuộc vào độ dài chuỗi mà chúng ta cần đạt được.

Một câu hỏi khác là, có nhu cầu mạnh mẽ đối với văn bản siêu dài không? Mặc dù các mô hình như Claude đã đạt đến ngữ cảnh 200K, nhưng người dùng dường như rất hài lòng với độ dài hiện tại. Các ứng dụng Agent có thể mang lại nhu cầu về chuỗi siêu dài trong tương lai, nhưng chưa có chuẩn mực trưởng thành.

Nhưng tôi nghĩ vấn đề này giống như Nvidia phát triển card đồ họa hiệu suất tiên tiến cho các trò chơi trong tương lai, mặc dù chúng không cần thiết ngay bây giờ, nhưng đó là công nghệ cho tương lai.

Ví dụ: nghiên cứu sâu đòi hỏi mô hình phải đọc nội dung của hàng chục trang web và thời gian xử lý theo thứ tự hàng chục phút, đây có thể là một hướng ứng dụng cho văn bản dài.

Bạn nghĩ gì về điều lớn tiếp theo sau CoT có thể là gì?

Chúng tôi đã nghĩ về điều này. Trước hết, mô hình suy luận hiện tại tương đối phổ biến và dòng chính trong năm nay vẫn sẽ là phần suy luận. Sau đó, chúng ta khó có thể nghĩ ra bất kỳ thay đổi đặc biệt lớn nào trong tương lai của các mô hình ngôn ngữ thuần túy.

Tôi cũng đã nói chuyện với các giáo viên khác và cảm giác của họ là mọi người sẽ giảm chi phí của mô hình, để tốc độ suy luận ngày càng nhanh hơn và giá của nó ngày càng thấp hơn, và chi phí được giảm trong khi vẫn duy trì hiệu ứng.

Bởi vì giới hạn đang đến gần nhanh chóng, phần lớn các trường hợp đang kiểm tra và lấp đầy các khoảng trống trong khả năng của các mô hình lớn. Nhưng nếu có những đột phá công nghệ thậm chí còn lớn hơn, chúng có thể tương đối hiếm trong thời gian ngắn và chúng ta chưa thấy chúng.

Sau khi MiniMax khám phá linear attention, hướng đi tiếp theo để khám phá có thể là gì?

Điều tiếp theo có thể là khám phá kiến trúc đa phương thức, cụ thể là liệu chúng ta có muốn thực hiện kiến trúc mô hình lớn thống nhất tạo và hiểu gốc này hay không.

Với AGI là điểm cuối, mô hình có độ phức tạp tính toán là O(n²) hay O(n) sẽ là câu trả lời tốt hơn?

Tất nhiên, đó là O(n). Từ góc độ nhân hình, con người phải là độ phức tạp O(n). Ví dụ: nếu độ phức tạp của một người là O(n²), thì tốc độ tôi nói chuyện với bạn sẽ ngày càng chậm hơn.

Bởi vì đối với transformer, độ phức tạp suy luận của nó là độ phức tạp tính toán O(n²), tức là độ trễ của việc nhổ ra token đầu tiên và nhổ ra token thứ 100 là khác nhau.

Chúng ta, con người, không thể tưởng tượng ra một điều như vậy, bởi vì con người chưa bao giờ khởi động lại kể từ khi sinh ra và luôn nhổ ra mọi thứ, vì vậy độ phức tạp tính toán của con người là không đổi.

Liệu con người có nhất thiết là giải pháp tối ưu cho trí thông minh không?

Chúng ta chỉ có thể nghĩ như vậy vào lúc này. Cũng có một số người đang thực hiện tuyến đường trí thông minh sinh học, nhưng chúng tôi chưa chú ý quá nhiều đến những hướng đó.

Với AGI là trò chơi cuối cùng, những lĩnh vực cải thiện mô hình nào là những điều quan trọng nhất?

Ngoài mô hình ngôn ngữ, còn có vấn đề về phương pháp học tập. Cách bạn học và học hỏi từ môi trường, học hỏi từ sự tương tác với môi trường là rất quan trọng. Xét cho cùng, sự hiểu biết đa phương thức hiện tại vẫn còn rất thiếu dữ liệu.

Và ngay cả few-shot learning của máy móc hiện đang được gắn nhãn, nhưng human learning thì không được gắn nhãn. Vì vậy, làm thế nào để thống nhất mọi thứ theo một khuôn khổ tự xây dựng cũng là một vấn đề.

cập nhật lúc 2025-04-19

# LLM # AGI # MiniMax