Google Trỗi Dậy: Thay Đổi Quyền Lực LLM

Bối cảnh của các Mô hình Ngôn ngữ Lớn (LLM) đã chứng kiến một sự chuyển đổi đáng kể, với việc Google nổi lên như một người chơi nổi bật trong khi Meta và OpenAI phải đối mặt với những thách thức đáng chú ý. Ban đầu, OpenAI thống trị lĩnh vực này với các mô hình GPT đột phá của mình, thiết lập các chuẩn mực mới cho hiệu suất LLM. Meta cũng đảm bảo một vị trí đáng kể bằng cách cung cấp các mô hình trọng số mở, tự hào với các khả năng ấn tượng và cho phép sử dụng, sửa đổi và triển khai không hạn chế mã truy cập công khai của chúng.

Tuy nhiên, sự thống trị ban đầu này đã khiến các gã khổng lồ công nghệ khác, bao gồm cả Google, phải chạy theo. Mặc dù bài báo nghiên cứu quan trọng năm 2017 của Google về kiến trúc transformer làm nền tảng cho LLM, nhưng những nỗ lực ban đầu của công ty đã bị lu mờ bởi việc ra mắt Bard vào năm 2023, bị chỉ trích rộng rãi.

Gần đây, thủy triều đã thay đổi với sự ra mắt của các LLM mới mạnh mẽ từ Google, cùng với những thất bại mà Meta và OpenAI gặp phải. Sự thay đổi này đã làm thay đổi đáng kể động lực của bối cảnh LLM.

Meta’s Llama 4: Một Bước Đi Sai Lầm?

Việc Meta bất ngờ phát hành Llama 4 vào Thứ Bảy, ngày 5 tháng 4, đã khiến cả ngành phải ngạc nhiên.

Quyết định tung ra một mô hình lớn vào cuối tuần bị coi là không chính thống, dẫn đến sự đón nhận yếu ớt và che khuất thông báo giữa dòng tin tức của tuần sau đó.

Mặc dù Llama 4 sở hữu những điểm mạnh nhất định, bao gồm khả năng đa phương thức (xử lý hình ảnh, âm thanh và các phương thức khác) và tính khả dụng của nó trong ba phiên bản (Llama 4 Behemoth, Maverick và Scout) với kích thước và sức mạnh khác nhau, việc triển khai của nó đã vấp phải sự chỉ trích. Phiên bản Llama 4 Scout, đặc biệt, có một cửa sổ ngữ cảnh đáng kể lên đến 10 triệu token, cho phép mô hình xử lý và tạo ra một lượng lớn văn bản trong một phiên duy nhất.

Tuy nhiên, sự đón nhận của mô hình đã trở nên tồi tệ khi những điểm khác biệt xuất hiện liên quan đến phương pháp xếp hạng của Meta trên LMArena, một nền tảng xếp hạng LLM dựa trên phiếu bầu của người dùng. Người ta phát hiện ra rằng mô hình Llama 4 cụ thể được sử dụng để xếp hạng khác với mô hình được cung cấp cho công chúng. LMArena tuyên bố rằng Meta đã cung cấp ‘một mô hình tùy chỉnh để tối ưu hóa cho sở thích của con người.’

Hơn nữa, những tuyên bố của Meta liên quan đến cửa sổ ngữ cảnh 10 triệu token của Llama 4 Scout đã vấp phải sự hoài nghi. Mặc dù độ chính xác kỹ thuật của con số này, nhưng các tiêu chuẩn đã tiết lộ rằng Llama 4 tụt hậu so với các mô hình cạnh tranh về hiệu suất ngữ cảnh dài.

Thêm vào những lo ngại, Meta đã không phát hành một mô hình ‘lý luận’ hoặc ‘tư duy’ Llama 4 và giữ lại các biến thể nhỏ hơn, mặc dù công ty đã chỉ ra rằng một mô hình lý luận sắp ra mắt.

Ben Lorica, người sáng lập công ty tư vấn AI Gradient Flow, lưu ý rằng Meta đã đi chệch khỏi thông lệ tiêu chuẩn của một bản phát hành có hệ thống hơn, trong đó tất cả các thành phần đều được chuẩn bị đầy đủ. Điều này cho thấy rằng Meta có thể đã háo hức giới thiệu một mô hình mới, ngay cả khi nó thiếu các yếu tố cần thiết như mô hình lý luận và các phiên bản nhỏ hơn.

OpenAI’s GPT-4.5: Một Bước Lùi Sớm

OpenAI cũng phải đối mặt với những thách thức trong những tháng gần đây.

GPT-4.5, được công bố là bản xem trước nghiên cứu vào ngày 27 tháng 2, đã được quảng cáo là ‘mô hình lớn nhất và tốt nhất của công ty cho trò chuyện cho đến nay.’ Các tiêu chuẩn của OpenAI chỉ ra rằng GPT-4.5 thường vượt trội hơn so với người tiền nhiệm của nó, GPT-4o.

Tuy nhiên, cấu trúc định giá của mô hình đã gây ra sự chỉ trích. OpenAI đặt giá truy cập API ở mức 150 đô la Mỹ cho mỗi triệu token đầu ra, một mức tăng đáng kinh ngạc gấp 15 lần so với giá 10 đô la cho mỗi triệu token của GPT-4o. API cho phép các nhà phát triển tích hợp các mô hình OpenAI vào các ứng dụng và dịch vụ của họ.

Alan D. Thompson, một nhà tư vấn và phân tích AI tại Life Architect, ước tính rằng GPT-4.5 có khả năng là LLM truyền thống lớn nhất được phát hành trong quý đầu tiên của năm 2025, với khoảng 5,4 nghìn tỷ tham số. Ông lập luận rằng quy mô to lớn như vậy rất khó biện minh do những hạn chế phần cứng hiện tại và gây ra những thách thức đáng kể trong việc phục vụ một cơ sở người dùng lớn.

Vào ngày 14 tháng 4, OpenAI đã công bố quyết định ngừng truy cập GPT-4.5 thông qua API sau chưa đầy ba tháng. Mặc dù GPT-4.5 sẽ vẫn có thể truy cập được, nhưng nó sẽ bị giới hạn cho người dùng ChatGPT thông qua giao diện ChatGPT.

Thông báo này trùng hợp với việc giới thiệu GPT-4.1, một mô hình kinh tế hơn có giá 8 đô la cho mỗi triệu token. Các tiêu chuẩn của OpenAI chỉ ra rằng GPT-4.1 không hoàn toàn có khả năng như GPT-4.5 nói chung, mặc dù nó thể hiện hiệu suất vượt trội trong một số tiêu chuẩn mã hóa nhất định.

OpenAI cũng gần đây đã phát hành các mô hình lý luận mới, o3 và o4-mini, với mô hình o3 thể hiện hiệu suất tiêu chuẩn đặc biệt mạnh mẽ. Tuy nhiên, chi phí vẫn là một mối quan tâm, vì giá truy cập API vào o3 là 40 đô la cho mỗi triệu token đầu ra.

Google’s Ascendancy: Nắm Bắt Cơ Hội

Sự đón nhận hỗn hợp của Llama 4 và ChatGPT-4.5 đã tạo ra một cơ hội cho các đối thủ cạnh tranh tận dụng, và họ đã nắm bắt cơ hội này.

Việc ra mắt Llama 4 gặp khó khăn của Meta khó có khả năng ngăn cản các nhà phát triển áp dụng các giải pháp thay thế như DeepSeek-V3, Gemma của Google và Qwen2.5 của Alibaba. Các LLM này, được giới thiệu vào cuối năm 2024, đã trở thành các mô hình trọng số mở được ưa thích trên bảng xếp hạng LMArena và HuggingFace. Chúng cạnh tranh hoặc vượt qua Llama 4 trong các tiêu chuẩn phổ biến, cung cấp quyền truy cập API giá cả phải chăng và trong một số trường hợp, có sẵn để tải xuống và sử dụng trên phần cứng cấp tiêu dùng.

Tuy nhiên, chính LLM tiên tiến của Google, Gemini 2.5 Pro, mới thực sự thu hút sự chú ý.

Được ra mắt vào ngày 25 tháng 3, Google Gemini 2.5 Pro là một ‘mô hình tư duy’ tương tự như GPT-o1 và DeepSeek-R1, sử dụng tự động nhắc nhở để lý luận thông qua các tác vụ. Gemini 2.5 Pro là đa phương thức, có cửa sổ ngữ cảnh một triệu token và hỗ trợ nghiên cứu chuyên sâu.

Gemini 2.5 đã nhanh chóng đạt được những chiến thắng tiêu chuẩn, bao gồm vị trí hàng đầu trong SimpleBench (mặc dù nó đã nhường vị trí đó cho o3 của OpenAI vào ngày 16 tháng 4) và trên Chỉ số Trí tuệ Nhân tạo kết hợp của Artificial Analysis. Gemini 2.5 Pro hiện đang giữ vị trí hàng đầu trên LMArena. Tính đến ngày 14 tháng 4, các mô hình của Google chiếm 5 trong số 10 vị trí hàng đầu trên LMArena, bao gồm Gemini 2.5 Pro, ba biến thể của Gemini 2.0 và Gemma 3-27B.

Ngoài hiệu suất ấn tượng, Google còn là người dẫn đầu về giá. Google Gemini 2.5 hiện có sẵn để sử dụng miễn phí thông qua ứng dụng Gemini của Google và trang web AI Studio của Google. Giá API của Google cũng cạnh tranh, với Gemini 2.5 Pro có giá 10 đô la cho mỗi triệu token đầu ra và Gemini 2.0 Flash có giá chỉ 40 xu cho mỗi triệu token.

Lorica lưu ý rằng đối với các tác vụ lý luận khối lượng lớn, anh thường chọn DeepSeek-R1 hoặc Google Gemini, trong khi sử dụng các mô hình OpenAI đòi hỏi phải xem xét cẩn thận hơn về giá cả.

Mặc dù Meta và OpenAI không nhất thiết trên bờ vực sụp đổ, OpenAI được hưởng lợi từ sự phổ biến của ChatGPT, được báo cáo là có một tỷ người dùng. Tuy nhiên, thứ hạng mạnh mẽ và hiệu suất tiêu chuẩn của Gemini cho thấy một sự thay đổi trong bối cảnh LLM, hiện tại đang ủng hộ Google.