Đột phá của NVIDIA: Llama Nemotron Ultra & Parakeet

Trong một cuộc trò chuyện tiết lộ nhiều điều, Joey Conway từ NVIDIA đã cung cấp một cái nhìn sâu sắc về những tiến bộ mới nhất của công ty trong các mô hình ngôn ngữ lớn nguồn mở (LLM) và nhận dạng giọng nói tự động (ASR). Cuộc thảo luận tập trung vào Llama Nemotron Ultra và Parakeet, hai dự án đột phá thể hiện cam kết của NVIDIA trong việc thúc đẩy các ranh giới của công nghệ AI.

Chiến lược nguồn mở của NVIDIA

NVIDIA đang nhanh chóng nổi lên như một thế lực đáng kể trong lĩnh vực AI nguồn mở. Việc phát hành các mô hình tiên tiến như Llama Nemotron Ultra và Parakeet TDT thể hiện một động thái chiến lược nhằm dân chủ hóa công nghệ AI và thúc đẩy sự đổi mới trong cộng đồng. Bằng cách cung cấp các công cụ tiên tiến này, NVIDIA đặt mục tiêu đẩy nhanh quá trình nghiên cứu, phát triển và triển khai các giải pháp AI trên nhiều ngành khác nhau.

Llama Nemotron Ultra: Định nghĩa lại hiệu quả và hiệu suất

Llama Nemotron Ultra, một mô hình tham số 253 tỷ, là minh chứng cho sức mạnh kỹ thuật của NVIDIA. Điều khiến nó trở nên khác biệt là khả năng mang lại hiệu suất tương đương với các mô hình có kích thước gấp đôi, chẳng hạn như Llama 405B và DeepSeek R1. Thành tích đáng chú ý này cho phép nó được triển khai trên một nút 8x H100 duy nhất, giúp nó có thể truy cập được cho nhiều người dùng hơn.

Bí mật: FFN Fusion

Hiệu quả ấn tượng của Llama Nemotron Ultra phần lớn là nhờ một kỹ thuật sáng tạo gọi là FFN (Feed-Forward Network) fusion. Chiến lược tối ưu hóa này, được phát hiện thông qua tìm kiếm kiến trúc thần kinh Puzzle của NVIDIA, hợp lý hóa kiến trúc của mô hình bằng cách giảm các lớp chú ý dư thừa.

Bằng cách căn chỉnh các lớp FFN theo trình tự, kỹ thuật này cho phép tính toánsong song lớn hơn trên GPU. Việc hợp nhất hoặc kết hợp các lớp còn lại tối đa hóa hiệu quả, đặc biệt có lợi cho các mô hình lớn hơn dựa trên Meta’s Llama 3.1 - 405B. Lợi ích của FFN fusion là gấp đôi: nó cải thiện đáng kể thông lượng, đạt được tốc độ tăng tốc trong khoảng từ 3 đến 5 lần và giảm dấu chân bộ nhớ của mô hình. Kích thước giảm cho phép sử dụng bộ nhớ cache KV lớn hơn, cho phép mô hình xử lý độ dài ngữ cảnh lớn hơn.

Lý luận theo yêu cầu: Một tính năng thay đổi cuộc chơi

Một trong những tính năng độc đáo và giá trị nhất của Llama Nemotron Ultra là khả năng “bật/tắt lý luận”. Điều này cho phép kiểm soát chưa từng có đối với quá trình lý luận của mô hình, mang lại những lợi thế đáng kể cho việc triển khai sản xuất và tối ưu hóa chi phí.

Khả năng bật và tắt lý luận thông qua lời nhắc hệ thống mang lại cho các doanh nghiệp sự linh hoạt để cân bằng độ chính xác với độ trễ và chi phí. Lý luận, mặc dù rất quan trọng để giải quyết các vấn đề phức tạp, tạo ra nhiều mã thông báo hơn, dẫn đến độ trễ và chi phí cao hơn. Bằng cách cung cấp quyền kiểm soát rõ ràng, NVIDIA trao quyền cho người dùng đưa ra các quyết định sáng suốt về thời điểm sử dụng lý luận, do đó tối ưu hóa hiệu suất và sử dụng tài nguyên.

Để triển khai tính năng này, NVIDIA đã dạy rõ ràng cho mô hình khi nào nên suy luận và khi nào không trong giai đoạn tinh chỉnh có giám sát. Điều này liên quan đến việc trình bày cùng một câu hỏi với hai câu trả lời khác nhau: một câu trả lời có suy luận chi tiết và một câu trả lời không có, về cơ bản là tăng gấp đôi bộ dữ liệu cho mục đích cụ thể này. Kết quả là một mô hình duy nhất, nơi người dùng có thể kiểm soát quá trình suy luận bằng cách chỉ cần bao gồm “sử dụng tư duy chi tiết bật” hoặc “sử dụng tư duy chi tiết tắt” trong lời nhắc.

Cách mạng hóa khả năng nhận dạng giọng nói với Parakeet TDT

Parakeet TDT, mô hình ASR hiện đại của NVIDIA, đã định nghĩa lại các tiêu chuẩn về tốc độ và độ chính xác trong nhận dạng giọng nói. Nó có thể phiên âm một giờ âm thanh chỉ trong một giây với tỷ lệ lỗi từ chỉ 6% - nhanh hơn 50 lần so với các lựa chọn thay thế nguồn mở khác.

Đổi mới kiến trúc: “Cách” hoạt động của Parakeet

Hiệu suất ấn tượng của Parakeet TDT là kết quả của sự kết hợp giữa các lựa chọn kiến trúc và các tối ưu hóa cụ thể. Nó dựa trên kiến trúc Fast Conformer, được tăng cường bằng các kỹ thuật như giảm mẫu tích chập có thể phân tách theo chiều sâu và chú ý theo ngữ cảnh giới hạn.

Việc giảm mẫu tích chập có thể phân tách theo chiều sâu ở giai đoạn đầu vào giúp giảm đáng kể chi phí tính toán và yêu cầu bộ nhớ để xử lý. Chú ý theo ngữ cảnh giới hạn, bằng cách tập trung vào các đoạn âm thanh nhỏ hơn, chồng chéo, duy trì độ chính xác đồng thời đạt được tốc độ xử lý nhanh hơn. Ở phía bộ mã hóa, một kỹ thuật chú ý cửa sổ trượt cho phép mô hình xử lý các tệp âm thanh dài hơn mà không cần chia chúng thành các phân đoạn ngắn hơn, điều này rất quan trọng để xử lý âm thanh dạng dài.

Token Duration Transducer (TDT): Chìa khóa cho tốc độ

Ngoài kiến trúc Conformer, Parakeet TDT còn kết hợp Token and Duration Transducer (TDT). Công nghệ bộ chuyển đổi Mạng thần kinh tái phát (RNN) truyền thống xử lý âm thanh từng khung hình. TDT cho phép mô hình dự đoán cả mã thông báo và thời lượng dự kiến của các mã thông báo đó, cho phép nó bỏ qua các khung dư thừa và tăng tốc đáng kể quá trình phiên âm.

Sự đổi mới TDT này một mình đã đóng góp vào tốc độ tăng tốc khoảng 1,5 đến 2 lần. Ngoài ra, một thuật toán lặp nhãn cho phép tiến trình độc lập của các mã thông báo cho các mẫu khác nhau trong quá trình suy luận hàng loạt, giúp tăng tốc hơn nữa quá trình giải mã. Việc di chuyển một số phép tính ở phía bộ giải mã vào đồ thị CUDA cung cấp thêm tốc độ tăng 3 lần. Những đổi mới này cho phép Parakeet TDT đạt được tốc độ tương đương với bộ giải mã Connectionist Temporal Classification (CTC), vốn nổi tiếng về tốc độ, đồng thời duy trì độ chính xác cao.

Dân chủ hóa AI bằng dữ liệu mở

Cam kết của NVIDIA đối với cộng đồng nguồn mở vượt ra ngoài việc phát hành mô hình để bao gồm việc chia sẻ các bộ dữ liệu chất lượng cao, khổng lồ cho cả ngôn ngữ và giọng nói. Cách tiếp cận của công ty đối với việc quản lý nội dung dữ liệu nhấn mạnh tính minh bạch và cởi mở, với mục tiêu chia sẻ càng nhiều càng tốt về dữ liệu, kỹ thuật và công cụ của mình để cộng đồng có thể hiểu và sử dụng chúng.

Quản lý nội dung dữ liệu cho Llama Nemotron Ultra

Mục tiêu chính của việc quản lý dữ liệu cho Llama Nemotron Ultra là cải thiện độ chính xác trên một số lĩnh vực chính, bao gồm các tác vụ lý luận như toán học và mã hóa, cũng như các tác vụ không lý luận như gọi công cụ, tuân theo hướng dẫn và trò chuyện.

Chiến lược này bao gồm việc quản lý các bộ dữ liệu cụ thể để nâng cao hiệu suất trong các lĩnh vực này. Trong quy trình tinh chỉnh có giám sát, NVIDIA đã phân biệt giữa các kịch bản “bật lý luận” và “tắt lý luận”. Các mô hình chất lượng cao từ cộng đồng đã được tận dụng làm “chuyên gia” trong các lĩnh vực cụ thể. Ví dụ: DeepSeek R-1 đã được sử dụng rộng rãi cho các tác vụ toán học và mã hóa chuyên sâu về lý luận, trong khi các mô hình như Llama và Qwen được sử dụng cho các tác vụ phi lý luận như toán học cơ bản, mã hóa, trò chuyện và gọi công cụ. Bộ dữ liệu được quản lý này, bao gồm khoảng 30 triệu cặp câu hỏi-câu trả lời, đã được công khai trên Hugging Face.

Đảm bảo chất lượng dữ liệu: Phương pháp tiếp cận đa lớp

Với việc một phần đáng kể dữ liệu được tạo bằng các mô hình khác, NVIDIA đã triển khai quy trình đảm bảo chất lượng đa lớp nghiêm ngặt. Điều này bao gồm:

  • Tạo nhiều phản hồi ứng viên cho cùng một lời nhắc bằng mỗi mô hình chuyên gia.
  • Sử dụng một tập hợp riêng biệt các mô hình “phê bình” để đánh giá các ứng viên này dựa trên tính chính xác, mạch lạc và tuân thủ lời nhắc.
  • Triển khai cơ chế tính điểm, trong đó mỗi cặp câu hỏi-câu trả lời được tạo sẽ nhận được điểm chất lượng dựa trên đánh giá của mô hình phê bình, với ngưỡng cao được đặt cho việc chấp nhận.
  • Tích hợp đánh giá của con người ở nhiều giai đoạn khác nhau, với các nhà khoa học dữ liệu và kỹ sư kiểm tra thủ công các mẫu dữ liệu được tạo để xác định mọi lỗi hệ thống, sai lệch hoặc trường hợp ảo giác.
  • Tập trung vào sự đa dạng của dữ liệu được tạo để đảm bảo một loạt các ví dụ rộng rãi trong mỗi miền.
  • Tiến hành đánh giá trên diện rộng đối với các bộ dữ liệu chuẩn và trong các trường hợp sử dụng thực tế sau khi đào tạo Llama Nemotron Ultra trên dữ liệu được quản lý này.

Nguồn mở bộ dữ liệu giọng nói cho Parakeet TDT

NVIDIA có kế hoạch cung cấp nguồn mở một bộ dữ liệu giọng nói đáng kể, khoảng 100.000 giờ, được quản lý tỉ mỉ để phản ánh sự đa dạng trong thế giới thực. Bộ dữ liệu này sẽ bao gồm các biến thể về mức âm thanh, tỷ lệ tín hiệu trên tạp âm, các loại tạp âm nền và thậm chí cả các định dạng âm thanh điện thoại có liên quan đến các trung tâm cuộc gọi. Mục tiêu là cung cấp cho cộng đồng dữ liệu đa dạng, chất lượng cao, cho phép các mô hình hoạt động tốt trong một loạt các tình huống thực tế.

Các hướng đi trong tương lai: Các mô hình nhỏ hơn, hỗ trợ đa ngôn ngữ và phát trực tuyến theo thời gian thực

Tầm nhìn của NVIDIA cho tương lai bao gồm những tiến bộ hơn nữa trong hỗ trợ đa ngôn ngữ, thậm chí các mô hình được tối ưu hóa cho cạnh nhỏ hơn và những cải tiến trong phát trực tuyến theo thời gian thực để nhận dạng giọng nói.

Khả năng đa ngôn ngữ

Hỗ trợ nhiều ngôn ngữ là rất quan trọng đối với các doanh nghiệp lớn. NVIDIA đặt mục tiêu tập trung vào một vài ngôn ngữ chính và đảm bảo độ chính xác đẳng cấp thế giới cho lý luận, gọi công cụ và trò chuyện trong những ngôn ngữ đó. Đây có thể là lĩnh vực mở rộng lớn tiếp theo.

Các mô hình được tối ưu hóa cho cạnh

NVIDIA đang xem xét các mô hình xuống khoảng 50 triệu tham số để giải quyết các trường hợp sử dụng ở rìa, nơi cần một dấu chân nhỏ hơn, chẳng hạn như cho phép xử lý âm thanh theo thời gian thực cho robot trong môi trường ồn ào.

Phát trực tuyến theo thời gian thực cho Parakeet TDT

Về mặt công nghệ, NVIDIA có kế hoạch làm việc trên các khả năng phát trực tuyến cho TDT để cho phép phiên âm trực tiếp, theo thời gian thực.

AI sẵn sàng cho sản xuất: Thiết kế để triển khai trong thế giới thực

Cả Llama Nemotron Ultra và Parakeet TDT đều được thiết kế với những thách thức triển khai trong thế giới thực, tập trung vào độ chính xác, hiệu quả và hiệu quả chi phí.

Bật/tắt lý luận để mở rộng quy mô và hiệu quả chi phí

Lý luận quá mức có thể dẫn đến các vấn đề về khả năng mở rộng và tăng độ trễ trong môi trường sản xuất. Tính năng bật/tắt lý luận được giới thiệu trong Llama Nemotron Ultra cung cấp sự linh hoạt để kiểm soát lý luận trên cơ sở mỗi truy vấn, cho phép nhiều trường hợp sử dụng sản xuất.

Cân bằng độ chính xác và hiệu quả

Cân bằng độ chính xác và hiệu quả là một thách thức không ngừng. Cách tiếp cận của NVIDIA bao gồm việc xem xét cẩn thận số lượng kỷ nguyên cho mỗi kỹ năng trong quá trình đào tạo và liên tục đo lường độ chính xác. Mục tiêu là cải thiện hiệu suất trên tất cả các lĩnh vực chính.

Vai trò của các mô hình của NVIDIA trong hệ sinh thái nguồn mở

NVIDIA xem vai trò của Llama Nemotron Ultra và Parakeet TDT trong hệ sinh thái LLM và nguồn mở rộng lớn hơn là xây dựng dựa trên các nền tảng hiện có và tập trung hẹp vào các lĩnh vực cụ thể để tăng thêm giá trị đáng kể. Công ty đặt mục tiêu tiếp tục xác định các lĩnh vực cụ thể nơi mình có thể đóng góp, trong khi những người khác tiếp tục xây dựng các mô hình đa năng tuyệt vời phù hợp cho sản xuất doanh nghiệp.

Những điểm chính: Mã nguồn mở, nhanh, thông lượng cao, hiệu quả chi phí

Những điểm chính từ công việc của NVIDIA trên Llama Nemotron Ultra và Parakeet TDT là cam kết cung cấp mọi thứ dưới dạng nguồn mở, đạt được độ chính xác hiện đại, tối ưu hóa dấu chân để sử dụng GPU hiệu quả về độ trễ và thông lượng, đồng thời trao quyền cho cộng đồng.

Tất cả các mô hình và bộ dữ liệu đều có sẵn trên Hugging Face. Ngăn xếp phần mềm để chạy chúng đến từ NVIDIA và có sẵn trên NGC, kho lưu trữ nội dung của nó. Phần lớn phần mềm cơ bản cũng là nguồn mở và có thể được tìm thấy trên GitHub. Khung Nemo là trung tâm chính cho phần lớn ngăn xếp phần mềm này.