Những Thất Vọng tại LlamaCon và Sự Thay Đổi Kỳ Vọng
Tại LlamaCon, hội nghị khai mạc của Meta dành riêng cho các LLM mã nguồn mở của mình, một cảm giác về những kỳ vọng không được đáp ứng đã lan tỏa bầu không khí. Một số nhà phát triển tham dự đã tâm sự rằng họ đã dự đoán sự ra mắt của một mô hình lý luận phức tạp, hoặc ít nhất là một mô hình truyền thống có khả năng vượt trội so với các đối thủ cạnh tranh như V3 của DeepSeek và Qwen, sau này là một bộ mô hình được phát triển bởi bộ phận điện toán đám mây của Alibaba.
Việc không có những thông báo như vậy đã làm dấy lên lo ngại rằng Llama đang mất dần vị thế trong cuộc đua giành quyền tối cao về AI. Chỉ một tháng trước hội nghị, Meta đã ra mắt thế hệ thứ tư của gia đình Llama, bao gồm các mô hình trọng lượng mở Llama 4 Scout và Llama 4 Maverick. Scout được thiết kế để có hiệu suất hiệu quả trên một GPU duy nhất, trong khi Maverick được thiết kế như một mô hình lớn hơn để cạnh tranh với các mô hình nền tảng khác.
Ngoài Scout và Maverick, Meta đã cung cấp một cái nhìn thoáng qua về Llama 4 Behemoth, một "mô hình giáo viên" lớn hơn đáng kể vẫn đang được đào tạo. Mục đích của Behemoth là tạo điều kiện thuận lợi cho quá trình chưng cất, một kỹ thuật để tạo ra các mô hình nhỏ hơn, chuyên biệt hơn từ một mô hình lớn hơn, tổng quát hơn.
Tuy nhiên, các báo cáo đã xuất hiện cho thấy sự chậm trễ trong việc phát hành Behemoth và những thách thức trong việc đạt được hiệu suất cạnh tranh với bộ Llama 4. Mặc dù Meta tuyên bố về các khả năng hiện đại, nhưng nhận thức của một số nhà phát triển là Llama không còn dẫn đầu.
Sự Trỗi Dậy của Các Đối Thủ Cạnh Tranh: Qwen và DeepSeek
Sự thất vọng xung quanh LlamaCon và các mô hình Llama 4 phản ánh một tình cảm rộng lớn hơn rằng các LLM mã nguồn mở của Meta đang mất đà về cả hiệu suất kỹ thuật và sự nhiệt tình của nhà phát triển. Mặc dù Meta nhấn mạnh cam kết của mình đối với các nguyên tắc nguồn mở, xây dựng hệ sinh thái và đổi mới, nhưng các đối thủ cạnh tranh như DeepSeek, Qwen và OpenAI đang nhanh chóng tiến bộ trong các lĩnh vực quan trọng như lý luận, sử dụng công cụ và triển khai thực tế.
Một nhà phát triển, Vineeth Sai Varikuntla, bày tỏ sự thất vọng của mình, nói rằng anh hy vọng Llama sẽ vượt qua Qwen và DeepSeek trong các trường hợp sử dụng nói chung và lý luận, nhưng thấy Qwen vượt trội hơn đáng kể.
Tình cảm này nhấn mạnh những thách thức mà Meta phải đối mặt trong việc duy trì vị thế của Llama như một LLM mã nguồn mở hàng đầu. Mặc dù các bản phát hành ban đầu của Llama đã thu hút được sự chú ý và khen ngợi đáng kể, nhưng sự xuất hiện của các lựa chọn thay thế ngày càng có khả năng đã làm tăng thêm bối cảnh cạnh tranh.
Một Khởi Đầu Đầy Hứa Hẹn: Tác Động của Llama 2
Để đánh giá đầy đủ câu chuyện hiện tại xung quanh Llama, điều cần thiết là phải nhớ về nguồn gốc của nó và sự phấn khích ban đầu mà nó tạo ra. Vào năm 2023, Giám đốc điều hành Nvidia Jensen Huang đã ca ngợi sự ra mắt của Llama 2 là "có lẽ là sự kiện lớn nhất trong AI" của năm đó. Đến tháng 7 năm 2024, việc phát hành Llama 3 được coi là một bước đột phá, đại diện cho LLM mở đầu tiên có khả năng thách thức sự thống trị của OpenAI.
Sự xuất hiện của Llama 3 đã gây ra sự tăng vọt ngay lập tức về nhu cầu điện toán, dẫn đến giá thuê GPU tăng lên, theo Dylan Patel, nhà phân tích trưởng tại SemiAnalysis. Các tìm kiếm trên Google cho "Meta" và "Llama" cũng đạt đỉnh trong giai đoạn này, cho thấy sự quan tâm rộng rãi đến mô hình mới.
Llama 3 được tôn vinh là một LLM do Mỹ sản xuất, mở và hàng đầu. Mặc dù nó không liên tục đứng đầu các tiêu chuẩn ngành, nhưng nó đã có ảnh hưởng và liên quan đáng kể trong cộng đồng AI. Tuy nhiên, động lực này đã dần thay đổi.
Các Thay Đổi Kiến Trúc và Chỉ Trích
Các mô hình Llama 4 giới thiệu kiến trúc "hỗn hợp các chuyên gia", một thiết kế được phổ biến bởi DeepSeek. Kiến trúc này cho phép mô hình chỉ kích hoạt chuyên môn phù hợp nhất cho một tác vụ cụ thể, do đó cải thiện hiệu quả.
Tuy nhiên, việc phát hành Llama 4 đã gặp phải sự chỉ trích khi các nhà phát triển phát hiện ra rằng phiên bản được sử dụng để đánh giá chuẩn công khai khác với phiên bản có sẵn để tải xuống và triển khai. Sự khác biệt này dẫn đến những cáo buộc "gian lận bảng xếp hạng", mà Meta đã phủ nhận, nói rằng biến thể được đề cập là thử nghiệm và việc đánh giá nhiều phiên bản của một mô hình là thông lệ tiêu chuẩn.
Bất chấp những lời giải thích của Meta, tranh cãi đã góp phần tạo ra nhận thức rằng Llama đang изо всех сил cố gắng duy trì lợi thế cạnh tranh của mình. Khi các mô hình cạnh tranh tiếp tục tiến bộ, Meta dường như thiếu một hướng đi rõ ràng.
Đo Lường Việc Áp Dụng của Nhà Phát Triển: Một Nhiệm Vụ Phức Tạp
Xác định họ LLM nào phổ biến nhất trong số các nhà phát triển là một nhiệm vụ đầy thách thức. Tuy nhiên, dữ liệu có sẵn cho thấy các mô hình mới nhất của Llama không nằm trong số những người dẫn đầu.
Qwen, đặc biệt, liên tục xếp hạng cao trên nhiều bảng xếp hạng trên internet. Theo Artificial Analysis, một trang web xếp hạng các mô hình dựa trên hiệu suất, Llama 4 Maverick và Scout được định vị ngay trên mô hình GPT-4 của OpenAI (phát hành vào cuối năm trước) và dưới Grok của xAI và Claude của Anthropic về mặt trí thông minh.
OpenRouter, một nền tảng cung cấp cho các nhà phát triển quyền truy cập vào các mô hình khác nhau và xuất bản bảng xếp hạng dựa trên việc sử dụng API, cho thấy Llama 3.3 nằm trong số 20 mô hình hàng đầu kể từ đầu tháng 5, nhưng không phải Llama 4.
Những điểm dữ liệu này, mặc dù không mang tính quyết định, cho thấy rằng các lần lặp lại mới nhất của Llama không gây được tiếng vang mạnh mẽ với các nhà phát triển như những người tiền nhiệm của chúng.
Vượt Ra Ngoài Các Tiêu Chuẩn: Sử Dụng Công Cụ và Lý Luận
Mặc dù các đánh giá tiêu chuẩn về Llama 4 có thể không ấn tượng, nhưng các chuyên gia cho rằng sự nhiệt tình bị tắt tiếng xuất phát từ các yếu tố vượt ra ngoài các số liệu hiệu suất thô.
AJ Kourabi, một nhà phân tích tại SemiAnalysis, nhấn mạnh tầm quan trọng của "gọi công cụ" và khả năng của mô hình để mở rộng vượt ra ngoài chức năng chatbot đơn giản. Gọi công cụ đề cập đến khả năng của mô hình để truy cập và hướng dẫn các ứng dụng khác trên internet hoặc trên thiết bị của người dùng, một tính năng quan trọng đối với AI đại lý, hứa hẹn sẽ tự động hóa các tác vụ như đặt vé du lịch và quản lý chi phí.
Meta đã tuyên bố rằng các mô hình Llama hỗ trợ gọi công cụ thông qua API của mình. Tuy nhiên, Theo Browne, một nhà phát triển và YouTuber, lập luận rằng gọi công cụ đã trở thành một điều cần thiết để có liên quan hàng đầu khi các công cụ đại lý ngày càng trở nên nổi bật.
Anthropic đã nổi lên như một người dẫn đầu ban đầu trong việc sử dụng công cụ và các mô hình độc quyền như OpenAI đang nhanh chóng bắt kịp. Khả năng gọi một cách đáng tin cậy công cụ phù hợp để tạo ra phản hồi chính xác là rất có giá trị và OpenAI đã chuyển trọng tâm của mình để ưu tiên khả năng này.
Kourabi lập luận rằng việc không có mô hình lý luận mạnh mẽ là một dấu hiệu quan trọng cho thấy Meta đã tụt lại phía sau. Lý luận được coi là một yếu tố cơ bản trong phương trình AI đại lý, cho phép các mô hình phân tích các tác vụ và xác định hành động phù hợp.
Thị Trường Ngách Của Llama: Ứng Dụng Thiết Thực và Ứng Dụng Doanh Nghiệp
Bất chấp những lo ngại về vị thế của mình ở vị trí hàng đầu trong nghiên cứu AI, Llama vẫn là một công cụ có giá trị cho nhiều nhà phát triển và tổ chức.
Nate Jones, người đứng đầu sản phẩm tại RockerBox, khuyên các nhà phát triển nên đưa Llama vào sơ yếu lý lịch của họ, vì sự quen thuộc với mô hình này có thể sẽ được tìm kiếm trong tương lai.
Paul Baier, Giám đốc điều hành và nhà phân tích chính tại GAI Insights, tin rằng Llama sẽ tiếp tục là một thành phần quan trọng trong các chiến lược AI cho nhiều công ty, đặc biệt là những công ty bên ngoài ngành công nghệ.
Các doanh nghiệp nhận ra tầm quan trọng của các mô hình mã nguồn mở, với Llama là một ví dụ nổi bật, để xử lý các tác vụ ít phức tạp hơn và kiểm soát chi phí. Nhiều tổ chức thích kết hợp các mô hình đóng và mở để đáp ứng các nhu cầu đa dạng của họ.
Baris Gultekin, người đứng đầu bộ phận AI tại Snowflake, lưu ý rằng khách hàng thường đánh giá các mô hình dựa trên các trường hợp sử dụng cụ thể của họ thay vì chỉ dựa vào các tiêu chuẩn. Với chi phí thấp, Llama thường chứng tỏ là đủ cho nhiều ứng dụng.
Tại Snowflake, Llama được sử dụng cho các tác vụ như tóm tắt bản ghi cuộc gọi bán hàng và trích xuất thông tin có cấu trúc từ đánh giá của khách hàng. Tại Dremio, Llama tạo mã SQL và viết email tiếp thị.
Tomer Shiran, đồng sáng lập và giám đốc sản phẩm của Dremio, cho rằng mô hình cụ thể có thể không quan trọng đối với 80% ứng dụng, vì hầu hết các mô hình hiện đều "đủ tốt" để đáp ứng các nhu cầu cơ bản.
Một Bối Cảnh Đa Dạng Hóa: Vai Trò Củng Cố Của Llama
Mặc dù Llama có thể đang chuyển khỏi cạnh tranh trực tiếp với các mô hình độc quyền trong một số lĩnh vực nhất định, nhưng bối cảnh AI tổng thể đang trở nên đa dạng hơn và vai trò của Llama đang được củng cố trong các thị trường ngách cụ thể.
Shiran nhấn mạnh rằng các tiêu chuẩn không phải là động lực chính của việc lựa chọn mô hình, vì người dùng ưu tiên kiểm tra các mô hình trên các trường hợp sử dụng của riêng họ. Hiệu suất của một mô hình trên dữ liệu của khách hàng là tối quan trọng và hiệu suất này có thể thay đổi theo thời gian.
Gultekin nói thêm rằng việc lựa chọn mô hình thường là một quyết định cụ thể theo trường hợp sử dụng hơn là một sự kiện một lần.
Llama có thể đang làm mất các nhà phát triển liên tục tìm kiếm những tiến bộ mới nhất, nhưng nó vẫn duy trì sự hỗ trợ của nhiều nhà phát triển tập trung vào việc xây dựng các công cụ hỗ trợ AI thiết thực.
Động lực này phù hợp với στρατηγική