Meta ra mắt Llama 4: Thế hệ mô hình AI mới

Meta Platforms, gã khổng lồ công nghệ đứng sau Facebook, Instagram và WhatsApp, đã nâng cao đáng kể vị thế của mình trong lĩnh vực trí tuệ nhân tạo với việc giới thiệu dòng Llama 4. Sự ra mắt này đánh dấu thế hệ tiếp theo của dòng mô hình mở Llama có ảnh hưởng của công ty, báo hiệu cam kết tiếp tục cạnh tranh ở vị trí hàng đầu trong phát triển AI và có khả năng định hình lại động lực cạnh tranh trong ngành. Bản phát hành giới thiệu bộ ba mô hình riêng biệt, mỗi mô hình được thiết kế với các khả năng và kiến trúc tính toán cụ thể, nhằm phục vụ nhiều ứng dụng đa dạng từ chức năng trò chuyện chung đến các tác vụ xử lý dữ liệu phức tạp.

Giới thiệu Gia đình Llama 4: Scout, Maverick và Behemoth

Đợt triển khai ban đầu của thế hệ Llama 4 bao gồm ba mô hình được đặt tên cụ thể: Llama 4 Scout, Llama 4 MaverickLlama 4 Behemoth vẫn đang trong quá trình phát triển. Meta đã chỉ ra rằng nền tảng cho các mô hình này dựa trên các bộ dữ liệu huấn luyện mở rộng bao gồm số lượng lớn văn bản, hình ảnh và nội dung video không được gắn nhãn. Cách tiếp cận huấn luyện đa phương thức này nhằm mục đích trang bị cho các mô hình khả năng ‘hiểu biết thị giác rộng rãi’ và tinh vi, mở rộng khả năng của chúng vượt ra ngoài các tương tác thuần túy dựa trên văn bản.

Quỹ đạo phát triển của Llama 4 dường như bị ảnh hưởng bởi áp lực cạnh tranh trong lĩnh vực AI đang phát triển nhanh chóng. Các báo cáo cho thấy sự xuất hiện và hiệu quả đáng chú ý của các mô hình mở từ các phòng thí nghiệm AI quốc tế, đặc biệt là phòng thí nghiệm DeepSeek của Trung Quốc, đã thúc đẩy Meta đẩy nhanh nỗ lực phát triển của chính mình. Được biết, Meta đã dành nguồn lực đáng kể, có khả năng thành lập các nhóm chuyên trách hoặc ‘phòng chiến lược’ (war rooms), để phân tích và hiểu các phương pháp luận được sử dụng bởi các đối thủ cạnh tranh như DeepSeek, đặc biệt tập trung vào các kỹ thuật đã giảm thành công chi phí tính toán liên quan đến việc chạy và triển khai các mô hình AI tiên tiến. Dòng chảy ngầm cạnh tranh này nhấn mạnh cuộc đua khốc liệt giữa các công ty công nghệ lớn và các tổ chức nghiên cứu để đạt được những đột phá về cả hiệu suất AI và hiệu quả hoạt động.

Khả năng tiếp cận khác nhau giữa các dòng Llama 4 mới. ScoutMaverick đang được cung cấp công khai cho cộng đồng nhà phát triển và công chúng thông qua các kênh đã được thiết lập, bao gồm cổng thông tin Llama.com của Meta và các nền tảng đối tác như trung tâm phát triển AI được sử dụng rộng rãi, Hugging Face. Tính sẵn có mở này nhấn mạnh chiến lược của Meta nhằm thúc đẩy một hệ sinh thái rộng lớn hơn xung quanh các mô hình Llama của mình. Tuy nhiên, Behemoth, được định vị là mô hình mạnh nhất trong loạt hiện tại, vẫn đang được phát triển và chưa được phát hành để sử dụng chung. Đồng thời, Meta đang tích hợp các khả năng mới này vào các sản phẩm hướng tới người dùng của mình. Công ty đã thông báo rằng trợ lý AI độc quyền của mình, Meta AI, hoạt động trên bộ ứng dụng như WhatsApp, Messenger và Instagram, đã được nâng cấp để tận dụng sức mạnh của Llama 4. Việc tích hợp này đang được triển khai trên bốn mươi quốc gia, mặc dù các tính năng đa phương thức tiên tiến (kết hợp văn bản, hình ảnh và có thể các loại dữ liệu khác) ban đầu bị giới hạn cho người dùng nói tiếng Anh tại Hoa Kỳ.

Điều hướng Bối cảnh Cấp phép

Mặc dù nhấn mạnh tính mở đối với một số mô hình, việc triển khai và sử dụng Llama 4 được điều chỉnh bởi các điều khoản cấp phép cụ thể có thể gây trở ngại cho một số nhà phát triển và tổ chức nhất định. Một hạn chế đáng chú ý nghiêm cấm người dùng và các công ty có trụ sở hoặc địa điểm kinh doanh chính tại Liên minh Châu Âu (European Union) sử dụng hoặc phân phối các mô hình Llama 4. Hạn chế về mặt địa lý này có thể là hậu quả trực tiếp của các yêu cầu quản trị nghiêm ngặt được quy định bởi Đạo luật AI (AI Act) toàn diện của EU và các quy định về quyền riêng tư dữ liệu hiện hành như GDPR. Việc điều hướng các khung pháp lý phức tạp này dường như là một yếu tố quan trọng định hình chiến lược triển khai của Meta trong khu vực.

Hơn nữa, lặp lại cấu trúc cấp phép của các phiên bản Llama trước đó, Meta áp đặt một điều kiện đối với các doanh nghiệp quy mô lớn. Các công ty có cơ sở người dùng vượt quá 700 triệu người dùng hoạt động hàng tháng phải chính thức yêu cầu giấy phép đặc biệt trực tiếp từ Meta. Điều quan trọng là quyết định cấp hay từ chối giấy phép này hoàn toàn thuộc ‘quyền quyết định duy nhất’ của Meta. Điều khoản này thực sự cho phép Meta kiểm soát cách các mô hình tiên tiến nhất của mình được tận dụng bởi các công ty công nghệ lớn có khả năng cạnh tranh, duy trì mức độ giám sát chiến lược bất chấp bản chất ‘mở’ của một phần hệ sinh thái Llama. Những sắc thái cấp phép này nhấn mạnh sự tương tác phức tạp giữa việc thúc đẩy đổi mới mở và duy trì quyền kiểm soát chiến lược trong lĩnh vực AI đầy cạnh tranh.

Trong các thông báo chính thức đi kèm với buổi ra mắt, Meta đã định khung việc phát hành Llama 4 là một thời điểm then chốt. “Những mô hình Llama 4 này đánh dấu sự khởi đầu của một kỷ nguyên mới cho hệ sinh thái Llama,” công ty tuyên bố trong một bài đăng trên blog, và nói thêm, “Đây mới chỉ là khởi đầu cho bộ sưu tập Llama 4.” Tuyên bố hướng tới tương lai này gợi ý một lộ trình cho sự phát triển và mở rộng liên tục trong thế hệ Llama 4, định vị lần ra mắt này không phải là đích đến cuối cùng mà là một cột mốc quan trọng trong hành trình không ngừng tiến bộ của AI.

Đổi mới Kiến trúc: Phương pháp Hỗn hợp Chuyên gia (MoE)

Một đặc điểm kỹ thuật chính phân biệt dòng Llama 4 là việc áp dụng kiến trúc Mixture of Experts (MoE). Meta nhấn mạnh rằng đây là nhóm đầu tiên trong gia đình Llama sử dụng mô hình thiết kế cụ thể này. Phương pháp MoE đại diện cho một sự thay đổi đáng kể trong cách các mô hình ngôn ngữ lớn được cấu trúc và huấn luyện, mang lại những lợi thế đáng kể về hiệu quả tính toán, cả trong giai đoạn huấn luyện tốn nhiều tài nguyên và trong giai đoạn hoạt động khi phản hồi các truy vấn của người dùng.

Về cốt lõi, kiến trúc MoE hoạt động bằng cách phân tách các tác vụ xử lý dữ liệu phức tạp thành các tác vụ phụ nhỏ hơn, dễ quản lý hơn. Các tác vụ phụ này sau đó được định tuyến hoặc ủy quyền một cách thông minh cho một tập hợp các thành phần mạng nơ-ron nhỏ hơn, chuyên biệt hóa, được gọi là ‘chuyên gia’. Mỗi chuyên gia thường được huấn luyện để xuất sắc trong các loại dữ liệu hoặc tác vụ cụ thể. Một cơ chế cổng (gating mechanism) trong kiến trúc sẽ xác định chuyên gia hoặc sự kết hợp các chuyên gia nào phù hợp nhất để xử lý một phần cụ thể của dữ liệu đầu vào hoặc truy vấn. Điều này trái ngược với các kiến trúc mô hình dày đặc (dense model) truyền thống nơi toàn bộ mô hình xử lý mọi phần của đầu vào.

Lợi ích về hiệu quả bắt nguồn từ thực tế là chỉ một tập hợp con các tham số tổng thể của mô hình (các tham số ‘hoạt động’ thuộc về các chuyên gia được chọn) được tham gia cho bất kỳ tác vụ nào. Việc kích hoạt có chọn lọc này làm giảm đáng kể tải tính toán so với việc kích hoạt toàn bộ một mô hình dày đặc, khổng lồ.

Meta đã cung cấp các chi tiết cụ thể minh họa kiến trúc này đang hoạt động:

  • Maverick: Mô hình này sở hữu tổng số tham số đáng kể là 400 tỷ. Tuy nhiên, nhờ thiết kế MoE kết hợp 128 ‘chuyên gia’ riêng biệt, chỉ có 17 tỷ tham số được kích hoạt tích cực tại bất kỳ thời điểm nào trong quá trình xử lý. Tham số thường được coi là một đại diện gần đúng cho khả năng học hỏi và độ phức tạp giải quyết vấn đề của mô hình.
  • Scout: Có cấu trúc tương tự, Scout có 109 tỷ tham số tổng cộng được phân bổ trên 16 ‘chuyên gia’, dẫn đến cùng 17 tỷ tham số hoạt động như Maverick.

Lựa chọn kiến trúc này cho phép Meta xây dựng các mô hình có dung lượng tổng thể lớn (số lượng tham số tổng cộng cao) trong khi vẫn duy trì nhu cầu tính toán có thể quản lý được cho việc suy luận (xử lý truy vấn), khiến chúng có khả năng thực tế hơn để triển khai và vận hành ở quy mô lớn.

Điểm chuẩn Hiệu năng và Chuyên môn hóa Mô hình

Meta đã định vị các mô hình mới của mình một cách cạnh tranh, công bố kết quả điểm chuẩn nội bộ so sánh Llama 4 với các mô hình nổi bật từ các đối thủ như OpenAI, Google và Anthropic.

Maverick, được Meta chỉ định là tối ưu cho các ứng dụng ‘trợ lý chung và trò chuyện’, bao gồm các tác vụ như viết sáng tạo và tạo mã, được báo cáo là thể hiện hiệu suất vượt trội so với các mô hình như GPT-4o của OpenAI và Gemini 2.0 của Google trên các điểm chuẩn cụ thể. Các điểm chuẩn này bao gồm các lĩnh vực như thành thạo mã hóa, lập luận logic, khả năng đa ngôn ngữ, xử lý chuỗi văn bản dài (long-context) và hiểu biết hình ảnh. Tuy nhiên, dữ liệu của chính Meta chỉ ra rằng Maverick không nhất quán vượt qua khả năng của các mô hình mới nhất và mạnh nhất hiện có, chẳng hạn như Gemini 2.5 Pro của Google, Claude 3.7 Sonnet của Anthropic hoặc GPT-4.5 được mong đợi của OpenAI. Điều này cho thấy Maverick nhắm đến một vị trí vững chắc trong phân khúc hiệu suất cao nhưng có thể không giành được vị trí dẫn đầu tuyệt đối trên tất cả các chỉ số so với các mô hình hàng đầu mới nhất từ các đối thủ cạnh tranh.

Scout, mặt khác, được điều chỉnh cho các thế mạnh khác nhau. Khả năng của nó được làm nổi bật trong các tác vụ liên quan đến việc tóm tắt các tài liệu mở rộng và lập luận trên các cơ sở mã lớn, phức tạp. Một tính năng đặc biệt độc đáo và xác định của Scout là cửa sổ ngữ cảnh (context window) đặc biệt lớn, có khả năng xử lý lên đến 10 triệu token. Token là các đơn vị cơ bản của văn bản hoặc mã mà các mô hình ngôn ngữ xử lý (ví dụ: một từ có thể được chia thành nhiềutokennhư ‘hiểu-biết’). Một cửa sổ ngữ cảnh 10 triệu token, về mặt thực tế, chuyển thành khả năng tiếp nhận và xử lý một lượng thông tin khổng lồ đồng thời – có khả năng tương đương với hàng triệu từ hoặc toàn bộ thư viện mã. Điều này cho phép Scout duy trì sự mạch lạc và hiểu biết trên các tài liệu cực kỳ dài hoặc các dự án lập trình phức tạp, một kỳ công đầy thách thức đối với các mô hình có cửa sổ ngữ cảnh nhỏ hơn. Nó cũng có thể xử lý hình ảnh cùng với đầu vào văn bản khổng lồ này.

Yêu cầu phần cứng để chạy các mô hình này phản ánh quy mô và kiến trúc của chúng. Theo ước tính của Meta:

  • Scout tương đối hiệu quả, có khả năng chạy trên một GPU Nvidia H100 cao cấp duy nhất.
  • Maverick, với tổng số tham số lớn hơn mặc dù có hiệu quả MoE, đòi hỏi tài nguyên đáng kể hơn, yêu cầu hệ thống Nvidia H100 DGX (thường chứa nhiều GPU H100) hoặc sức mạnh tính toán tương đương.

Mô hình Behemoth sắp tới dự kiến sẽ yêu cầu cơ sở hạ tầng phần cứng thậm chí còn ghê gớm hơn. Meta tiết lộ rằng Behemoth được thiết kế với 288 tỷ tham số hoạt động (trong số gần hai nghìn tỷ tham số tổng cộng, trải rộng trên 16 chuyên gia). Các điểm chuẩn nội bộ sơ bộ định vị Behemoth vượt trội hơn các mô hình như GPT-4.5, Claude 3.7 Sonnet và Gemini 2.0 Pro (mặc dù đáng chú ý là không phải Gemini 2.5 Pro tiên tiến hơn) trên một số đánh giá tập trung vào các kỹ năng STEM (Khoa học, Công nghệ, Kỹ thuật và Toán học), đặc biệt là trong các lĩnh vực như giải quyết vấn đề toán học phức tạp.

Tuy nhiên, điều đáng chú ý là không có mô hình Llama 4 nào được công bố hiện tại được thiết kế rõ ràng như các mô hình ‘lập luận’ theo kiểu các khái niệm đang phát triển o1 và o3-mini của OpenAI. Các mô hình lập luận chuyên biệt này thường kết hợp các cơ chế kiểm tra sự thật nội bộ và tinh chỉnh lặp đi lặp lại các câu trả lời của chúng, dẫn đến các phản hồi có khả năng đáng tin cậy và chính xác hơn, đặc biệt đối với các truy vấn thực tế. Sự đánh đổi thường là độ trễ tăng lên, nghĩa là chúng mất nhiều thời gian hơn để tạo ra phản hồi so với các mô hình ngôn ngữ lớn truyền thống hơn như các mô hình trong gia đình Llama 4, vốn ưu tiên tạo ra nhanh hơn.

Điều chỉnh Ranh giới Hội thoại: Các Chủ đề Gây tranh cãi

Một khía cạnh hấp dẫn của việc ra mắt Llama 4 liên quan đến việc Meta cố tình điều chỉnh hành vi phản hồi của các mô hình, đặc biệt là liên quan đến các chủ đề nhạy cảm hoặc gây tranh cãi. Công ty đã tuyên bố rõ ràng rằng họ đã điều chỉnh các mô hình Llama 4 để ít có khả năng từ chối trả lời các câu hỏi ‘gây tranh cãi’ hơn so với các phiên bản tiền nhiệm trong gia đình Llama 3.

Theo Meta, Llama 4 hiện có xu hướng tham gia nhiều hơn vào các chủ đề chính trị và xã hội ‘đang tranh luận’ mà các phiên bản trước đó có thể đã từ chối hoặc đưa ra lời từ chối chung chung. Hơn nữa, công ty tuyên bố rằng Llama 4 thể hiện một cách tiếp cận ‘cân bằng hơn đáng kể’ liên quan đến các loại lời nhắc (prompts) mà nó sẽ từ chối tham gia hoàn toàn. Mục tiêu đã nêu là cung cấp các phản hồi hữu ích và thực tế mà không áp đặt sự phán xét.

Một phát ngôn viên của Meta đã giải thích thêm về sự thay đổi này, nói với TechCrunch: ‘[B]ạn có thể tin tưởng vào [Llama 4] để cung cấp các phản hồi hữu ích, thực tế mà không phán xét… [C]húng tôi đang tiếp tục làm cho Llama phản hồi nhanh hơn để nó trả lời nhiều câu hỏi hơn, có thể phản hồi nhiều quan điểm khác nhau […] và không thiên vị một số quan điểm hơn những quan điểm khác.’

Sự điều chỉnh này diễn ra trong bối cảnh cuộc tranh luận công khai và chính trị đang diễn ra xung quanh những thành kiến được nhận thức trong các hệ thống trí tuệ nhân tạo. Một số phe phái chính trị và nhà bình luận, bao gồm các nhân vật nổi tiếng liên quan đến chính quyền Trump như Elon Musk và nhà đầu tư mạo hiểm David Sacks, đã lên tiếng cáo buộc rằng các chatbot AI phổ biến thể hiện sự thiên vị chính trị, thường được mô tả là ‘woke’, bị cáo buộc kiểm duyệt các quan điểm bảo thủ hoặc trình bày thông tin nghiêng về góc nhìn tự do. Sacks, chẳng hạn, đã đặc biệt chỉ trích ChatGPT của OpenAI trong quá khứ, cho rằng nó đã được ‘lập trình để trở nên woke’ và không đáng tin cậy về các vấn đề chính trị.

Tuy nhiên, thách thức trong việc đạt được tính trung lập thực sự và loại bỏ thiên vị trong AI được cộng đồng kỹ thuật công nhận rộng rãi là một vấn đề cực kỳ phức tạp và dai dẳng (‘intractable’). Các mô hình AI học các mẫu và liên kết từ các bộ dữ liệu khổng lồ mà chúng được huấn luyện, và các bộ dữ liệu này chắc chắn phản ánh những thành kiến hiện có trong văn bản và hình ảnh do con người tạo ra mà chúng chứa đựng. Những nỗ lực tạo ra AI hoàn toàn không thiên vị hoặc trung lập về chính trị, ngay cả bởi các công ty đặt mục tiêu rõ ràng cho nó, đã được chứng minh là khó khăn. Liên doanh AI của chính Elon Musk, xAI, được báo cáo là đã phải đối mặt với những thách thức trong việc phát triển một chatbot tránh tán thành các lập trường chính trị nhất định hơn những lập trường khác.

Bất chấp những khó khăn kỹ thuật cố hữu, xu hướng giữa các nhà phát triển AI lớn, bao gồm Meta và OpenAI, dường như đang hướng tới việc điều chỉnh các mô hình để ít né tránh các chủ đề gây tranh cãi hơn. Điều này liên quan đến việc hiệu chỉnh cẩn thận các bộ lọc an toàn và nguyên tắc phản hồi để cho phép tương tác với một loạt các câu hỏi rộng hơn so với trước đây, trong khi vẫn cố gắng giảm thiểu việc tạo ra nội dung có hại hoặc thiên vị rõ ràng. Việc tinh chỉnh này phản ánh hành động cân bằng tinh tế mà các công ty AI phải thực hiện giữa việc thúc đẩy diễn ngôn mở, đảm bảo an toàn cho người dùng và điều hướng các kỳ vọng chính trị xã hội phức tạp xung quanh các công nghệ mạnh mẽ của họ. Việc phát hành Llama 4, với những điều chỉnh được nêu rõ ràng trong việc xử lý các truy vấn gây tranh cãi, đại diện cho bước đi mới nhất của Meta trong việc điều hướng bối cảnh phức tạp này.