Microsoft: LLM 1-Bit cho GenAI hiệu quả trên CPU

Trong bối cảnh trí tuệ nhân tạo (AI) đang phát triển mạnh mẽ, một bước đột phá từ Microsoft Research hứa hẹn sẽ định nghĩa lại khả năng tiếp cận và hiệu quả của AI tạo sinh (GenAI). Nghiên cứu gần đây của họ giới thiệu BitNet b1.58 2B4T, một mô hình ngôn ngữ lớn (LLM) tiên phong, nổi bật với khả năng huấn luyện tự nhiên bằng trọng số ‘1-bit’, hay chính xác hơn là trọng số 1-trit. Cách tiếp cận sáng tạo này đánh dấu sự khác biệt so với các phương pháp truyền thống dựa vào việc lượng tử hóa các mô hình được huấn luyện ban đầu với độ chính xác đầy đủ.

Vượt qua những hạn chế của LLM truyền thống

LLM truyền thống, mặc dù có hiệu suất đáng kể, vẫn phải đối mặt với những rào cản lớn cản trở việc áp dụng rộng rãi. Những hạn chế này chủ yếu xuất phát từ dung lượng bộ nhớ lớn, mức tiêu thụ năng lượng đáng kể và độ trễ suy luận đáng kể. Do đó, việc triển khai các mô hình này trên các thiết bị biên, trong môi trường bị hạn chế về tài nguyên và cho các ứng dụng thời gian thực trở nên không thực tế.

Để giảm thiểu những thách thức này, cộng đồng AI ngày càng tập trung vào việc khám phá các mô hình lượng tử hóa. Các mô hình này có nguồn gốc từ các mô hình đối ứng có độ chính xác đầy đủ bằng cách chuyển đổi trọng số của chúng sang định dạng bit thấp hơn. Mặc dù lượng tử hóa cung cấp một con đường để giảm kích thước mô hình và nhu cầu tính toán, nhưng nó thường phải trả giá bằng việc mất độ chính xác, có khả năng ảnh hưởng đến độ chính xác và hiệu suất tổng thể của mô hình.

Kiến trúc BitNet b1.58 2B4T

BitNet b1.58 2B4T đại diện cho một sự thay đổi mô hình trong thiết kế LLM, tránh được việc mất độ chính xác liên quan đến lượng tử hóa bằng cách huấn luyện mô hình từ đầu bằng trọng số 1-bit. Cách tiếp cận này cho phép mô hình giữ lại những lợi thế của trọng số nhỏ hơn, bao gồm giảm dung lượng bộ nhớ và giảm chi phí tính toán.

Các nhà nghiên cứu của Microsoft đã bắt tay vào nỗ lực đầy tham vọng này bằng cách huấn luyện BitNet b1.58 2B4T trên một kho dữ liệu khổng lồ gồm 4 nghìn tỷ token. Tập dữ liệu huấn luyện mở rộng này đảm bảo rằng mô hình có thể học hiệu quả các mẫu ngôn ngữ phức tạp và phát triển sự hiểu biết toàn diện về các sắc thái của giao tiếp giữa con người.

Đánh giá hiệu suất và điểm chuẩn

Để đánh giá hiệu quả của BitNet b1.58 2B4T, Microsoft đã tiến hành các điểm chuẩn nghiêm ngặt, so sánh hiệu suất của nó với các mô hình có độ chính xác đầy đủ, trọng số mở hàng đầu có kích thước tương tự. Kết quả cho thấy mô hình mới hoạt động tương đương trên một loạt các tác vụ, bao gồm hiểu và suy luận ngôn ngữ, kiến thức thế giới, đọc hiểu, toán học và mã, đồng thời tuân theo hướng dẫn và hội thoại.

Những phát hiện này nhấn mạnh tiềm năng của LLM 1-bit để đạt được hiệu suất tương đương với các mô hình đối ứng có độ chính xác đầy đủ của chúng, đồng thời mang lại những lợi thế đáng kể về hiệu quả và sử dụng tài nguyên.

Các cải tiến kiến trúc chính

Trọng tâm của BitNet b1.58 2B4T nằm ở kiến trúc sáng tạo của nó, thay thế các lớp tuyến tính có độ chính xác đầy đủ tiêu chuẩn bằng các lớp BitLinear tùy chỉnh. Các lớp này sử dụng biểu diễn 1,58-bit để mã hóa trọng số dưới dạng các giá trị bậc ba (trits) trong quá trình chuyển tiếp.

Việc sử dụng các giá trị bậc ba, được biểu thị là {-1, 0, +1}, cho phép giảm đáng kể kích thước mô hình và tạo điều kiện cho các phép toán hiệu quả. Điều này đạt được thông qua sơ đồ lượng tử hóa giá trị trung bình tuyệt đối (absmean), ánh xạ trọng số tới các giá trị bậc ba này.

Ngoài các lớp BitLinear, BitNet b1.58 2B4T còn kết hợp một số kỹ thuật LLM đã được thiết lập, chẳng hạn như các hàm kích hoạt ReLU bình phương, nhúng vị trí quay vòng và loại bỏ các số hạng thiên vị. Những kỹ thuật này tiếp tục góp phần làm giảm kích thước của mô hình và cải thiện tính ổn định trong quá trình huấn luyện.

Nâng cao tính ổn định và hiệu quả trong quá trình huấn luyện

Hai kỹ thuật bổ sung được sử dụng trong các lớp BitLinear—lượng tử hóa kích hoạt và chuẩn hóa—đóng vai trò quan trọng trong việc giảm kích thước của mô hình và nâng cao tính ổn định trong quá trình huấn luyện. Lượng tử hóa kích hoạt làm giảm độ chính xác của các kích hoạt, trong khi các kỹ thuật chuẩn hóa giúp ngăn chặn các kích hoạt trở nên quá lớn hoặc quá nhỏ.

Những kỹ thuật này, kết hợp với việc sử dụng trọng số 1-bit, cho phép BitNet b1.58 2B4T được huấn luyện hiệu quả và hiệu quả hơn, ngay cả trên các tập dữ liệu lớn.

Phương pháp huấn luyện

Để huấn luyện, BitNet b1.58 2B4T tận dụng ba kỹ thuật chính: huấn luyện trước quy mô lớn, tinh chỉnh có giám sát và tối ưu hóa ưu tiên trực tiếp.

Huấn luyện trước quy mô lớn

Giai đoạn ban đầu này bao gồm việc huấn luyện mô hình trên một tập dữ liệu khổng lồ gồm văn bản và mã, cho phép nó học các mẫu ngôn ngữ chung và phát triển sự hiểu biết rộng rãi về thế giới.

Tinh chỉnh có giám sát

Trong giai đoạn này, mô hình được tinh chỉnh trên một tập dữ liệu nhỏ hơn, cụ thể hơn, phù hợp với một tác vụ hoặc miền cụ thể. Điều này cho phép mô hình điều chỉnh kiến thức và kỹ năng của mình cho các yêu cầu cụ thể của tác vụ.

Tối ưu hóa ưu tiên trực tiếp

Kỹ thuật này bao gồm việc huấn luyện mô hình để trực tiếp tối ưu hóa cho các ưu tiên của con người, được thể hiện thông qua phản hồi hoặc xếp hạng. Điều này giúp đảm bảo rằng đầu ra của mô hình phù hợp với các giá trị và kỳ vọng của con người.

Các nhà nghiên cứu lưu ý rằng các kỹ thuật nâng cao hơn, chẳng hạn như Proximal Policy Optimization hoặc Group Relative Policy Optimization, sẽ được khám phá trong tương lai để nâng cao khả năng toán học và lý luận theo chuỗi tư duy.

Thư viện suy luận Bitnet.cpp

Do sơ đồ lượng tử hóa độc đáo của BitNet b1.58 2B4T, mô hình không thể được sử dụng với các thư viện học sâu tiêu chuẩn như llama.cpp và yêu cầu một hạt nhân chuyên dụng. Để giải quyết thách thức này, Microsoft đã phát triển một thư viện suy luận chuyên dụng mã nguồn mở, bitnet.cpp.

bitnet.cpp đóng vai trò là khung suy luận chính thức cho LLM 1-bit, chẳng hạn như BitNet b1.58. Nó cung cấp một bộ hạt nhân được tối ưu hóa hỗ trợ suy luận nhanh và không mất dữ liệu của các mô hình 1,58-bit trên CPU, với kế hoạch mở rộng hỗ trợ cho NPU và GPU trong tương lai.

Thư viện suy luận này rất quan trọng để cho phép triển khai BitNet b1.58 2B4T trên nhiều loại thiết bị và nền tảng hơn, giúp các nhà phát triển và nhà nghiên cứu dễ dàng tiếp cận hơn.

Các hướng nghiên cứu trong tương lai

Các nhà nghiên cứu thừa nhận rằng phần cứng GPU hiện tại không được tối ưu hóa cho các mô hình 1-bit và có thể đạt được hiệu suất cao hơn nữa bằng cách kết hợp logic chuyên dụng cho các hoạt động bit thấp. Điều này cho thấy rằng các kiến trúc phần cứng trong tương lai có thể được thiết kế đặc biệt để hỗ trợ LLM 1-bit, dẫn đến hiệu quả và hiệu suất thậm chí còn cao hơn.

Ngoài việc tối ưu hóa phần cứng, các hướng nghiên cứu trong tương lai bao gồm huấn luyện các mô hình lớn hơn, thêm khả năng đa ngôn ngữ và tích hợp đa phương thức, đồng thời mở rộng độ dài cửa sổ ngữ cảnh. Những tiến bộ này sẽ tiếp tục nâng cao khả năng và tính linh hoạt của BitNet b1.58 2B4T và các LLM 1-bit khác.

Hàm ý và tác động tiềm năng

Sự phát triển của BitNet b1.58 2B4T có ý nghĩa quan trọng đối với tương lai của AI, đặc biệt là trong lĩnh vực AI tạo sinh. Bằng cách chứng minh rằng có thể huấn luyện LLM hiệu suất cao chỉ bằng trọng số 1-bit, Microsoft đã mở ra những khả năng mới để tạo ra các hệ thống AI hiệu quả và dễ tiếp cận hơn.

Bước đột phá này có thể dẫn đến việc triển khai các mô hình AI trên nhiều loại thiết bị hơn, bao gồm điện thoại thông minh, thiết bị IoT và các nền tảng bị hạn chế về tài nguyên khác. Nó cũng có thể cho phép phát triển các hệ thống AI tiết kiệm năng lượng hơn, giảm tác động đến môi trường.

Hơn nữa, khả năng huấn luyện LLM bằng trọng số 1-bit có thể giúp bạn dễ dàng tùy chỉnh và cá nhân hóa các mô hình AI cho các ứng dụng cụ thể. Điều này có thể dẫn đến việc phát triển các hệ thống AI hiệu quả và thân thiện với người dùng hơn, phù hợp với nhu cầu riêng của từng người dùng và tổ chức.

Kết luận

BitNet b1.58 2B4T của Microsoft thể hiện một bước tiến quan trọng trong hành trình tìm kiếm AI hiệu quả và dễ tiếp cận hơn. Bằng cách chứng minh rằng có thể huấn luyện LLM hiệu suất cao chỉ bằng trọng số 1-bit, Microsoft đã thách thức trí tuệ thông thường và mở ra những khả năng mới cho tương lai của AI.

Khi nghiên cứu trong lĩnh vực này tiếp tục, chúng ta có thể mong đợi sẽ thấy nhiều ứng dụng sáng tạo hơn nữa của LLM 1-bit, dẫn đến một tương lai nơi AI trở nên phổ biến, hiệu quả và mang lại lợi ích cho toàn xã hội hơn.