FFN Fusion của NVIDIA: Tăng tốc Mô hình Ngôn ngữ Lớn

Thách thức Tính toán của AI Hiện đại

Các mô hình ngôn ngữ lớn (LLMs) đứng vững như những trụ cột của trí tuệ nhân tạo đương đại, thể hiện những khả năng đáng chú ý đang định hình lại các ngành công nghiệp và khám phá khoa học. Sự thành thạo của chúng trong việc tạo ra văn bản giống con người, cung cấp năng lượng cho các tác nhân hội thoại tinh vi, và thậm chí hỗ trợ các nhiệm vụ nghiên cứu phức tạp đã khiến chúng trở thành những công cụ không thể thiếu. Trung tâm của những mô hình mạnh mẽ này là kiến trúc transformer, một thiết kế đặc trưng bởi các lớp xen kẽ của nó. Dữ liệu đầu vào, được chia thành các token, chảy qua một chuỗi các cơ chế chú ý (attention mechanisms), đánh giá tầm quan trọng của các token khác nhau, tiếp theo là các mạng truyền thẳng (feed-forward networks - FFNs), xử lý thông tin thu thập được. Quá trình xử lý tuần tự, theo lớp này là nền tảng cho cách transformer học và tạo ra đầu ra.

Tuy nhiên, chính kiến trúc này, mặc dù hiệu quả, lại đặt ra một thách thức ngày càng tăng khi các mô hình phình to về kích thước và độ phức tạp. Bản chất tuần tự có nghĩa là mỗi lớp thường phải đợi lớp trước đó hoàn thành tính toán trước khi nó có thể bắt đầu. Quá trình xử lý từng bước này tạo ra một nút thắt cổ chai cố hữu, đặc biệt là trong giai đoạn suy luận (inference) – giai đoạn mà một mô hình đã được huấn luyện thực sự được sử dụng để tạo ra dự đoán hoặc văn bản. Khi các mô hình như những mô hình cung cấp năng lượng cho các trợ lý AI tiên tiến tích hợp hàng trăm tỷ, hoặc thậm chí hàng nghìn tỷ tham số, tài nguyên tính toán và thời gian cần thiết cho suy luận tăng lên đáng kể. Nhu cầu leo thang này chuyển thành độ trễ đáng kể (độ trễ trong phản hồi), giảm thông lượng (số lượng yêu cầu được xử lý theo thời gian) và chi phí vận hành ngày càng tăng, cản trở việc triển khai rộng rãi và ứng dụng thời gian thực của các LLM mạnh mẽ nhất. Do đó, việc nâng cao hiệu quả suy luận đã trở thành mối quan tâm hàng đầu trong cộng đồng nghiên cứu AI, thúc đẩy một cuộc tìm kiếm các chiến lược đổi mới có thể hợp lý hóa tính toán mà không ảnh hưởng đến hiệu suất đáng kể mà các mô hình này mang lại. Thách thức trung tâm nằm ở việc giảm thiểu các ràng buộc do thực thi tuần tự áp đặt, đặc biệt là trong môi trường phân tán nơi các tính toán trải dài trên nhiều GPU, làm tăng thêm chi phí giao tiếp vào thời gian xử lý.

Khám phá Bối cảnh Tối ưu hóa: Công cụ Hiện có và Giới hạn

Trong nỗ lực không ngừng nhằm làm cho LLMs gọn nhẹ và nhanh hơn, các nhà nghiên cứu đã phát triển một bộ công cụ gồm các kỹ thuật tối ưu hóa. Mỗi kỹ thuật cung cấp một con đường dẫn đến hiệu quả, nhưng thường đi kèm với những thỏa hiệp riêng, ngăn cản bất kỳ phương pháp đơn lẻ nào trở thành giải pháp phổ quát. Hiểu được những đánh đổi này là rất quan trọng để đánh giá cao sự cần thiết của các phương pháp tiếp cận mới lạ như FFN Fusion.

Một kỹ thuật nổi bật là lượng tử hóa (quantization). Kỹ thuật này liên quan đến việc giảm độ chính xác số học được sử dụng để biểu diễn trọng số và kích hoạt của mô hình. Thay vì sử dụng số dấu phẩy động 32-bit tiêu chuẩn, các mô hình có thể sử dụng biểu diễn 16-bit, 8-bit hoặc thậm chí thấp hơn. Điều này trực tiếp thu nhỏ dấu chân bộ nhớ của mô hình và có thể tăng tốc đáng kể các phép tính, vì các hoạt động trên các số có độ chính xác thấp hơn thường nhanh hơn và cần ít năng lượng hơn. Tuy nhiên, lượng tử hóa không phải là không có rủi ro. Giảm độ chính xác có thể dẫn đến mất thông tin, có khả năng làm suy giảm độ chính xác của mô hình. Rủi ro này trở nên rõ rệt hơn ở các độ rộng bit rất thấp, đòi hỏi phải triển khai cẩn thận và đôi khi phải huấn luyện lại để giảm thiểu sự sụt giảm độ chính xác. Thách thức nằm ở việc tìm ra điểm tối ưu giúp tối đa hóa lợi ích hiệu quả trong khi vẫn giữ sự suy giảm hiệu suất trong giới hạn chấp nhận được.

Một chiến lược phổ biến khác là cắt tỉa (pruning). Kỹ thuật này hoạt động dựa trên nguyên tắc rằng nhiều tham số trong một mạng nơ-ron lớn có thể dư thừa hoặc đóng góp tối thiểu vào đầu ra cuối cùng. Các thuật toán cắt tỉa xác định và loại bỏ các kết nối hoặc nơ-ron kém quan trọng này, dẫn đến một mô hình nhỏ hơn, thưa thớt hơn. Giống như lượng tử hóa, cắt tỉa làm giảm yêu cầu bộ nhớ và tải tính toán. Tuy nhiên, việc xác định chính xác tham số nào là ‘an toàn’ để loại bỏ là rất phức tạp. Cắt tỉa quá mạnh có thể vô tình loại bỏ các thành phần quan trọng, dẫn đến mất độ chính xác đáng kể. Tinh chỉnh mô hình sau khi cắt tỉa thường là cần thiết để phục hồi hiệu suất, làm tăng thêm độ phức tạp cho quy trình làm việc. Việc hiệu chỉnh cẩn thận là điều cần thiết để đảm bảo rằng mô hình đã cắt tỉa vẫn hiệu quả.

Một phương pháp tiếp cận khác biệt hơn về mặt kiến trúc là mô hình Mixture-of-Experts (MoE). Thay vì xử lý mọi đầu vào thông qua toàn bộ mạng, các mô hình MoE bao gồm nhiều mạng con ‘chuyên gia’ (thường là FFNs). Đối với mỗi token đầu vào, một cơ chế cổng (gating mechanism) sẽ tự động chọn một tập hợp con nhỏ các chuyên gia này để thực hiện tính toán. Tính toán có điều kiện này có nghĩa là chỉ một phần nhỏ trong tổng số tham số của mô hình được kích hoạt cho bất kỳ đầu vào nào, dẫn đến tiết kiệm tính toán đáng kể, đặc biệt là trong quá trình huấn luyện và suy luận trên các mô hình rất lớn. Các mô hình MoE có thể mở rộng quy mô lên hàng nghìn tỷ tham số trong khi vẫn duy trì chi phí tính toán hợp lý. Tuy nhiên, hiệu quả của chúng phụ thuộc nhiều vào khối lượng công việc. Chúng vượt trội trong việc xử lý các kích thước lô (batch size) rất lớn nơi mô hình kích hoạt chọn lọc dẫn đến việc sử dụng phần cứng tốt. Ở các kích thước lô nhỏ hơn hoặc trung bình, các mô hình MoE có thể bị thiếu sử dụng tài nguyên tính toán, vì phần cứng song song có thể không được các chuyên gia được kích hoạt thưa thớt giữ bận rộn một cách nhất quán. Hơn nữa, việc triển khai và cân bằng tải các mô hình MoE có thể phức tạp hơn so với việc triển khai các kiến trúc ‘dày đặc’ (dense) tiêu chuẩn.

Mặc dù lượng tử hóa, cắt tỉa và mô hình MoE đại diện cho những tiến bộ có giá trị trong tối ưu hóa LLM, những hạn chế cố hữu của chúng nhấn mạnh sự cần thiết của các chiến lược thay thế hoặc bổ sung. Cuộc tìm kiếm vẫn tiếp tục cho các phương pháp có thể mang lại những cải tiến hiệu quả rộng rãi trên nhiều tình huống khác nhau, lý tưởng nhất là với ít sự thỏa hiệp hơn về độ chính xác hoặc độ phức tạp triển khai, đặc biệt đối với các kiến trúc mô hình dày đặc vẫn phổ biến do sự đơn giản tương đối của chúng trong huấn luyện và triển khai.

FFN Fusion: Tư duy lại Tính song song trong Transformer

Giữa bối cảnh các kỹ thuật tối ưu hóa này, các nhà nghiên cứu tại NVIDIA đã giới thiệu một phương pháp tiếp cận mới hấp dẫn được gọi là FFN Fusion. Kỹ thuật này trực tiếp đối mặt với nút thắt cổ chai tuần tự cố hữu trong kiến trúc transformer, không phải bằng cách thay đổi tham số hoặc kích hoạt có chọn lọc các bộ phận, mà bằng cách tư duy lại một cách cơ bản cách các chuỗi tính toán có thể được song song hóa. Sự đổi mới bắt nguồn từ một quan sát quan trọng về hành vi của các lớp FFN trong các mô hình transformer sâu.

Sử dụng một công cụ chẩn đoán có tên là Puzzle, các nhà nghiên cứu đã phân tích hoạt động bên trong của các mô hình lớn. Khi họ thử nghiệm loại bỏ các lớp chú ý, họ nhận thấy rằng các mô hình thường giữ lại các chuỗi đáng ngạc nhiên các lớp FFN liên tiếp. Quan trọng hơn, phân tích cho thấy rằng các tính toán được thực hiện bởi các FFN liền kề này thường thể hiện sự phụ thuộc lẫn nhau tối thiểu. Về bản chất, đầu ra của một FFN trong chuỗi thường không làm thay đổi đáng kể đường dẫn định hướng hoặc thông tin cốt lõi cần thiết cho FFN ngay sau đó. Điều này cho thấy rằng các FFN này, theo truyền thống được thực thi lần lượt, có thể sở hữu tiềm năng thực thi đồng thời, song song mà không làm gián đoạn đáng kể chức năng tổng thể của mô hình.

Hiểu biết này đã hình thành nền tảng của FFN Fusion. Ý tưởng cốt lõi đơn giản một cách thanh lịch nhưng mạnh mẽ: xác định các chuỗi lớp FFN liên tiếp có độ phụ thuộc tính toán thấp và hợp nhất chúng thành một lớp FFN duy nhất, rộng hơn, thực hiện phép tính tương đương song song. Thay vì một chuỗi như Đầu vào -> FFN1 -> FFN2 -> FFN3 -> Đầu ra, cấu trúc hợp nhất trở thành Đầu vào -> Fused_FFN (Tương đương FFN1+FFN2+FFN3 song song) -> Đầu ra. Sự chuyển đổi kiến trúc này rút ngắn hiệu quả độ sâu tuần tự của mạng, thay thế nhiều bước bằng một bước tính toán duy nhất, rộng hơn. Bằng cách nhắm mục tiêu vào các chuỗi FFN có độ phụ thuộc thấp này, FFN Fusion nhằm mục đích giảm độ trễ và chi phí tính toán trong khi vẫn bảo tồn sức mạnh biểu diễn và độ chính xác của mô hình. Việc phát triển Ultra-253B-Base từ Llama-3.1-405B-Instruct đóng vai trò là một minh chứng hàng đầu về tiềm năng của kỹ thuật này.

Giả kim Thuật Kiến trúc: Cách FFN Fusion Hoạt động

Phép màu đằng sau FFN Fusion nằm ở việc thao tác khéo léo cấu trúc toán học cơ bản của các mạng truyền thẳng. Nó không chỉ đơn thuần là chạy các lớp hiện có song song; nó liên quan đến việc tạo ra một lớp mới, thống nhất, sao chép hành vi tập thể của chuỗi ban đầu nhưng thực hiện điều đó đồng thời.

Hãy xem xét một chuỗi gồm k lớp FFN liên tiếp. Trong một transformer tiêu chuẩn, đầu vào x đi qua FFN1, đầu ra của nó trở thành đầu vào cho FFN2, và cứ thế cho đến FFNk. Mỗi bước phụ thuộc rõ ràng vào việc hoàn thành bước trước đó. FFN Fusion phá vỡ chuỗi phụ thuộc này. Về mặt toán học, một FFN thường bao gồm hai phép biến đổi tuyến tính với một hàm kích hoạt phi tuyến (như GeLU hoặc SwiGLU) ở giữa: FFN(x) = W_out * Activation(W_in * x). FFN Fusion tận dụng thực tế là các phép biến đổi tuyến tính thường có thể được kết hợp.

Quá trình hợp nhất hoạt động bằng cách nối các trọng số của các lớp FFN riêng lẻ. Cụ thể, các ma trận trọng số đầu vào (W_in) của các FFN liên tiếp được kết hợp (ví dụ: theo đường chéo khối) thành một ma trận trọng số đầu vào duy nhất, lớn hơn cho lớp hợp nhất. Tương tự, các ma trận trọng số đầu ra (W_out) được nối lại để tạo thành một ma trận trọng số đầu ra duy nhất, rộng hơn. Hàm kích hoạt được áp dụng theo từng phần tử trong cấu trúc lớn hơn này. Cấu trúc này đảm bảo rằng FFN hợp nhất hoạt động trên đầu vào x ban đầu đồng thời trên các đường dẫn song song tương ứng với các FFN ban đầu. Các đầu ra từ các đường dẫn song song này sau đó được tổng hợp ngầm bởi cấu trúc của các trọng số đầu ra được nối.

Nền tảng lý thuyết xác nhận rằng cấu trúc hợp nhất này có thể duy trì cùng khả năng biểu diễn như chuỗi FFN ban đầu, miễn là sự phụ thuộc giữa các lớp ban đầu thực sự thấp. Điều quan trọng là xác định chuỗi nào phù hợp để hợp nhất. Để làm điều này một cách có hệ thống, các nhà nghiên cứu của NVIDIA đã sử dụng một kỹ thuật phân tích sự phụ thuộc. Họ đã đo khoảng cách cosine giữa các trạng thái ẩn đầu ra của các lớp FFN liên tiếp đối với một tập hợp đại diện các token đầu vào. Khoảng cách cosine nhỏ cho thấy vectơ đầu ra của một FFN chỉ theo hướng rất giống với vectơ đầu ra của FFN tiếp theo trong chuỗi. Sự tương đồng này cho thấy sự phụ thuộc chức năng thấp – FFN thứ hai không thay đổi đáng kể biểu diễn thông tin được thiết lập bởi FFN đầu tiên. Các chuỗi FFN thể hiện khoảng cách cosine thấp nhất quán giữa các lớp được xác định là ứng cử viên hàng đầu cho việc hợp nhất, vì việc hợp nhất chúng ít có khả năng làm gián đoạn các biểu diễn đã học của mô hình và hiệu suất tổng thể. Phương pháp tiếp cận dựa trên dữ liệu này cho phép áp dụng FFN Fusion có mục tiêu vào các phần của mô hình nơi nó sẽ hiệu quả nhất và ít gây gián đoạn nhất.

Từ Khổng lồ đến Nhanh nhẹn: Chuyển đổi Ultra-253B-Base

Sức mạnh thực tế của FFN Fusion đã được chứng minh một cách sinh động thông qua việc áp dụng nó vào một trong những mô hình lớn nhất được biết đến công khai vào thời điểm đó, Llama-3.1-405B-Instruct. Mô hình này, tự hào với 405 tỷ tham số, đại diện cho một nỗ lực tính toán đáng kể cho việc suy luận. Các nhà nghiên cứu đã bắt tay vào một quá trình tinh chỉnh kiến trúc, kết hợp FFN Fusion với cắt tỉa chiến lược, để tạo ra một mô hình mới, hiệu quả hơn được đặt tên là Ultra-253B-Base.

Quá trình chuyển đổi bao gồm một số bước:

  1. Phân tích: Sử dụng các công cụ phân tích sự phụ thuộc của họ (đo khoảng cách cosine), các nhà nghiên cứu đã xác định các chuỗi lớp FFN liên tiếp trong kiến trúc Llama-405B thể hiện sự phụ thuộc giữa các lớp thấp.
  2. Hợp nhất (Fusion): Các chuỗi FFN được xác định này sau đó được hợp nhất thành các lớp FFN duy nhất, rộng hơn như đã mô tả trước đó (nối các trọng số). Điều này trực tiếp làm giảm số lượng các bước tuần tự trong mạng.
  3. Cắt tỉa (Pruning): Đồng thời hoặc sau đó, các tham số được coi là ít quan trọng hơn (có khả năng được xác định thông qua các kỹ thuật cắt tỉa tiêu chuẩn hoặc được thông báo bởi quá trình hợp nhất) đã bị loại bỏ khỏi mô hình.

Phương pháp kết hợp này đã tạo ra Ultra-253B-Base, một mô hình với 253 tỷ tham số. Con số này thể hiện sự giảm đáng kể – ít hơn 37% tham số so với mô hình 405B ban đầu. Những thay đổi về kiến trúc đạt được thông qua hợp nhất là chìa khóa để cho phép giảm kích thước đáng kể như vậy trong khi vẫn hướng tới việc duy trì hiệu suất. Mục tiêu không chỉ là một mô hình nhỏ hơn, mà còn là một mô hình nhanh hơn và tiết kiệm chi phí tính toán hơn về cơ bản, nhờ vào tính song song tăng cường được mở khóa bởi FFN Fusion. Nghiên cứu điển hình này đóng vai trò là bằng chứng khái niệm quan trọng, cho thấy các mô hình quy mô lớn có thể được tái cấu trúc đáng kể để đạt hiệu quả.

Đo lường Lợi ích: Hiệu suất, Tốc độ và Tiết kiệm Tài nguyên

Bài kiểm tra thực sự của bất kỳ kỹ thuật tối ưu hóa nào nằm ở tác động có thể đo lường được của nó. Đối với Ultra-253B-Base, kết quả thu được từ việc áp dụng FFN Fusion và cắt tỉa cho cơ sở Llama-405B rất thuyết phục, cho thấy những cải tiến đáng kể trên nhiều phương diện mà không có sự thỏa hiệp đáng kể về khả năng.

Tốc độ và Chi phí Suy luận: Lợi ích nổi bật nhất được quan sát thấy ở hiệu quả suy luận. So với mô hình 405 tỷ tham số ban đầu, Ultra-253B-Base đã đạt được:

  • Cải thiện 1.71 lần về độ trễ suy luận. Điều này có nghĩa là mô hình có thể tạo ra phản hồi nhanh hơn đáng kể, rất quan trọng cho các ứng dụng thời gian thực.
  • Giảm 35 lần chi phí tính toán trên mỗi token khi đo ở kích thước lô là 32. Sự giảm đáng kể này trong các hoạt động tính toán (FLOPs) trên mỗi token chuyển trực tiếp thành mức tiêu thụ năng lượng thấp hơn và yêu cầu phần cứng giảm để phục vụ mô hình.

Điểm chuẩn Hiệu suất Mô hình: Quan trọng là, những cải tiến hiệu quả này không phải trả giá bằng trí thông minh hoặc khả năng của mô hình. Ultra-253B-Base đã được đánh giá nghiêm ngặt trên một bộ các điểm chuẩn LLM tiêu chuẩn, đạt được điểm số cạnh tranh cao và trong một số trường hợp còn vượt trội so với mô hình gốc, lớn hơn nhiều:

  • MMLU (Massive Multitask Language Understanding): 85.17%
  • MMLU-Pro (Phiên bản thử thách hơn): 72.25%
  • Arena Hard (Đánh giá ưu tiên của con người đối với các lời nhắc khó): 84.92%
  • HumanEval (Khả năng tạo mã): 86.58%
  • MT-Bench (Chất lượng hội thoại nhiều lượt): 9.19

Những điểm số này cho thấy mô hình được hợp nhất và cắt tỉa vẫn giữ được mức độ hiểu biết, lý luận, khả năng viết mã và chất lượng hội thoại rất cao, tương đương với tiền thân 405 tỷ tham số của nó mặc dù chỉ có 253 tỷ tham số.

Hiệu quả Bộ nhớ: Ngoài tốc độ và chi phí tính toán, FFN Fusion còn góp phần tiết kiệm bộ nhớ. Những thay đổi về kiến trúc, có thể kết hợp với các tối ưu hóa khác được kích hoạt bởi việc hợp nhất, đã dẫn đến việc giảm 2 lần kích thước của bộ đệm khóa-giá trị (KV cache) cần thiết trong quá trình suy luận. KV cache lưu trữ các kích hoạt trung gian (khóa và giá trị chú ý) và có thể tiêu tốn bộ nhớ GPU đáng kể, đặc biệt đối với các chuỗi đầu vào dài. Việc giảm một nửa yêu cầu này giúp có thể chạy mô hình trên phần cứng ít tốn bộ nhớ hơn hoặc xử lý các ngữ cảnh dài hơn trong cùng một giới hạn bộ nhớ.

Những kết quả định lượng này nhấn mạnh tính hiệu quả của FFN Fusion. Nó cho phép tạo ra một mô hình không chỉ nhỏ hơn mà còn hiệu quả hơn về cơ bản về tốc độ, hoạt động tính toán và sử dụng bộ nhớ, tất cả trong khi vẫn duy trì hiệu suất hàng đầu trên các điểm chuẩn đầy thách thức.

Bảo tồn Tri thức: Vai trò Quan trọng của Huấn luyện và Tinh chỉnh

Việc sửa đổi kiến trúc của một mô hình ngôn ngữ lớn, đã được huấn luyện trước như Llama-405B thông qua các kỹ thuật như FFN Fusion và cắt tỉa chắc chắn sẽ phá vỡ sự cân bằng tinh tế của các tham số đã học của nó. Mặc dù sự tương đương toán học nhằm mục đích bảo tồn chức năng cục bộ, hành vi toàn cục của mạng có thể thay đổi. Để đảm bảo rằng mô hình Ultra-253B-Base kết quả không chỉ trở nên hiệu quả hơn mà còn giữ được mức hiệu suất cao, một quy trình huấn luyện sau sửa đổi được dàn dựng cẩn thận là điều cần thiết.

Quá trình này bao gồm hai giai đoạn chính:

  1. Chưng cất Tri thức (Knowledge Distillation): Bước đầu tiên là chuyển giao kiến thức từ mô hình gốc, lớn hơn (hoặc một mô hình thầy phù hợp) trở lại vào kiến trúc đã sửa đổi. Điều này đạt được thông qua chưng cất, trong đó mô hình Ultra-253B-Base được huấn luyện để bắt chước đầu ra hoặc biểu diễn nội bộ của mô hình thầy. Giai đoạn này sử dụng một tập dữ liệu đáng kể, cụ thể là 54 tỷ token, được xử lý với cửa sổ ngữ cảnh 8k. Chưng cất giúp mô hình được hợp nhất và cắt tỉa nắm bắt lại các sắc thái và khả năng có thể đã bị xáo trộn nhẹ trong quá trình thay đổi kiến trúc.

  2. Tinh chỉnh theo Giai đoạn (Staged Fine-Tuning): Sau khi chưng cất, mô hình đã trải qua một loạt các giai đoạn tinh chỉnh được thiết kế đặc biệt để thích ứng với việc xử lý các độ dài ngữ cảnh ngày càng tăng. Điều này rất quan trọng đối với các LLM hiện đại, thường được kỳ vọng sẽ xử lý và tạo văn bản dựa trên đầu vào mở rộng. Việc tinh chỉnh diễn ra theo các giai đoạn:

    • Tinh chỉnh ở cửa sổ ngữ cảnh 16k.
    • Tinh chỉnh thêm ở cửa sổ ngữ cảnh 32k.
    • Giai đoạn tinh chỉnh cuối cùng ở cửa sổ ngữ cảnh 128k.

Phương pháp tiếp cận theo giai đoạn này cho phép mô hình điều chỉnh dần các tham số của nó, bao gồm các lớp FFN hợp nhất mới hình thành và các cơ chế KV cache được tối ưu hóa, để quản lý hiệu quả sự phụ thuộc và luồng thông tin qua các chuỗi rất dài. Mỗi giai đoạn xây dựng dựa trên giai đoạn trước, đảm bảo sự ổn định và hiệu suất mạnh mẽ trên các kích thước ngữ cảnh khác nhau.

Chế độ huấn luyện tỉ mỉ này, kết hợp chưng cất quy mô lớn với tinh chỉnh theo giai đoạn, ngữ cảnh dài, là công cụ để thu hẹp khoảng cách giữa hiệu quả kiến trúc và hiệu suất trung thực cao. Nó đảm bảo rằng các lợi ích về tốc độ, chi phí và bộ nhớ do FFN Fusion mang lại không làm ảnh hưởng đến độ chính xác và khả năng của mô hình trên các điểm chuẩn đòi hỏi khắt khe.

Chân trời Rộng mở: Khả năng Tổng quát hóa và Hướng đi Tương lai

Sự chuyển đổi thành công của Llama-405B thành Ultra-253B-Base cung cấp bằng chứng mạnh mẽ về tiềm năng của FFN Fusion, nhưng giá trị thực sự của nó nằm ở khả năng ứng dụng rộng rãi hơn và những hiểu biết mà nó mang lại cho thiết kế LLM trong tương lai. Nghiên cứu đã chứng minh rằng đây không chỉ đơn thuần là một thủ thuật chỉ áp dụng được cho các mô hình khổng lồ.

Xác thực trên các Quy mô Khác nhau: Các nhà nghiên cứu của NVIDIA đã thử nghiệm rõ ràng phương pháp FFN Fusion trên các mô hình có kích thước khác nhau. Họ đã áp dụng thành công kỹ thuật này cho các mô hình 70 tỷ tham số, đạt được lợi ích hiệu quả tương tự so với các mô hình gốc tương ứng. Họ cũng báo cáo việc xác thực trên quy mô 49B, củng cố thêm ý tưởng rằng tính độc lập của FFN và tiềm năng hợp nhất không phải là đặc điểm độc quyền của các mô hình lớn nhất mà có thể là một thuộc tính tổng quát hơn của kiến trúc transformer, có khả năng trở nên rõ rệt hơn ở các quy mô lớn hơn nơi các chuỗi FFN sâu hơn xuất hiện tự nhiên. Điều này cho thấy FFN Fusion có thể trở thành một công cụ tiêu chuẩn trong kho vũ khí tối ưu hóa LLM, áp dụng được trên nhiều kích thước mô hình.

FFN so với Hợp nhất Toàn bộ Khối: Nghiên cứu cũng làm sáng tỏ vai trò cụ thể của các lớp FFN so với các lớp chú ý trong khối transformer. Trong khi các lớp FFN liên tiếp thường cho thấy sự phụ thuộc thấp, khiến chúng trở nên lý tưởng cho việc hợp nhất, thì những nỗ lực song song hóa toàn bộ các khối transformer (bao gồm cả lớp chú ý và FFN) tỏ ra khó khăn hơn. Phân tích chỉ ra sự phụ thuộc lẫn nhau mạnh mẽ hơn liên quan đến các cơ chế chú ý. Việc hợp nhất toàn bộ các khối đồng thời dẫn đến sự suy giảm hiệu suất đáng kể hơn, cho thấy rằng các lớp chú ý đóng một vai trò quan trọng hơn, phụ thuộc tuần tự trong việc tích hợp thông tin giữa các token. Phát hiện này giúp phân định ranh giới của việc song song hóa hiệu quả – các chuỗi FFN là mảnh đất màu mỡ, trong khi các cơ chế chú ý có thể yêu cầu các chiến lược tối ưu hóa khác nhau.

Hàm ý đối với Kiến trúc LLM: FFN Fusion cung cấp nhiều hơn là chỉ một kỹ thuật tối ưu hóa sau khi thực hiện; nó cung cấp những hiểu biết có giá trị để thiết kế các LLM trong tương lai. Việc phát hiện ra rằng các chuỗi FFN thường có thể được coi là các đơn vị có thể song song hóa thách thức giả định tuần tự nghiêm ngặt thường làm nền tảng cho thiết kế transformer. Điều này có thể truyền cảm hứng cho các kiến trúc mới vốn đã thân thiện với song song hơn ngay từ đầu. Các mô hình trong tương lai có thể được thiết kế với các cấu trúc FFN được dự định rõ ràng cho việc hợp nhất hoặc thực thi song song, có khả năng dẫn đến đồng thiết kế phần cứng-phần mềm nơi kiến trúc GPU được tối ưu hóa hơn nữa để khai thác loại song song này. Phương pháp có hệ thống sử dụng khoảng cách cosine để định lượng sự phụ thuộc giữa các lớp cũng cung cấp một công cụ phân tích có giá trị để hiểu và thiết kế lại các cấu trúc mạng nơ-ron. Bằng cách chứng minh rằng có thể đạt được lợi ích hiệu quả đáng kể thông qua việc thiết kế lại kiến trúc một cách chu đáo tập trung vào việc song song hóa các thành phần hiện có, FFN Fusion mở đường cho việc phát triển các LLM vừa mạnh mẽ vừa bền vững hơn về mặt tính toán. Nó nêu bật một con đường hướng tới việc giảm thiểu nhu cầu tài nguyên ngày càng tăng của AI tiên tiến.