AI Dịch Chuyển: Tính Toán Suy Luận Là Cơn Sốt Vàng Mới?

Tốc độ đổi mới không ngừng trong lĩnh vực trí tuệ nhân tạo đảm bảo rằng sự tự mãn không bao giờ là một lựa chọn. Ngay khi các phương pháp luận đã được thiết lập dường như đã vững chắc, những phát triển mới lại xuất hiện để thách thức hiện trạng. Một ví dụ điển hình đến vào đầu năm 2025, khi DeepSeek, một phòng thí nghiệm AI ít được biết đến của Trung Quốc, đã phát hành một mô hình không chỉ gây chú ý—mà còn tạo ra những rung chấn rõ rệt trên thị trường tài chính. Thông báo này nhanh chóng kéo theo sự sụt giảm đáng kinh ngạc 17% giá cổ phiếu của Nvidia, kéo theo các công ty khác liên quan đến hệ sinh thái trung tâm dữ liệu AI đang phát triển mạnh mẽ. Các nhà bình luận thị trường nhanh chóng cho rằng phản ứng mạnh mẽ này là do khả năng đã được chứng minh của DeepSeek trong việc tạo ra các mô hình AI chất lượng cao dường như không cần đến ngân sách khổng lồ thường gắn liền với các phòng thí nghiệm nghiên cứu hàng đầu của Hoa Kỳ. Sự kiện này ngay lập tức làm dấy lên cuộc tranh luận gay gắt về kiến trúc và kinh tế tương lai của cơ sở hạ tầng AI.

Để nắm bắt đầy đủ sự gián đoạn tiềm tàng do sự xuất hiện của DeepSeek báo trước, điều quan trọng là phải đặt nó trong một bối cảnh rộng hơn: những hạn chế đang thay đổi mà quy trình phát triển AI phải đối mặt. Một yếu tố quan trọng ảnh hưởng đến quỹ đạo của ngành là sự khan hiếm ngày càng tăng của dữ liệu đào tạo mới, chất lượng cao. Các công ty lớn trong lĩnh vực AI, cho đến nay, đã thu thập một lượng lớn dữ liệu internet công khai để đào tạo các mô hình nền tảng của họ. Do đó, nguồn thông tin dễ tiếp cận đang bắt đầu cạn kiệt, khiến cho những bước nhảy vọt đáng kể hơn nữa về hiệu suất mô hình thông qua các phương pháp tiền huấn luyện truyền thống ngày càng trở nên khó khăn và tốn kém. Nút thắt cổ chai mới nổi này đang buộc phải có một sự xoay trục chiến lược. Các nhà phát triển mô hình đang ngày càng khám phá tiềm năng của “tính toán tại thời điểm kiểm tra” (TTC - test-time compute). Cách tiếp cận này nhấn mạnh việc tăng cường khả năng suy luận của mô hình trong giai đoạn suy luận—về cơ bản cho phép mô hình dành nhiều nỗ lực tính toán hơn để “suy nghĩ” và tinh chỉnh phản hồi của mình khi được đưa ra một truy vấn, thay vì chỉ dựa vào kiến thức đã được tiền huấn luyện. Có một niềm tin ngày càng tăng trong cộng đồng nghiên cứu rằng TTC có thể mở khóa một mô hình mở rộng quy mô mới, có khả năng phản ánh những lợi ích hiệu suất đáng kể đã đạt được trước đây thông qua việc mở rộng quy mô dữ liệu và tham số tiền huấn luyện. Sự tập trung vào xử lý tại thời điểm suy luận này rất có thể đại diện cho biên giới tiếp theo cho những tiến bộ mang tính chuyển đổi trong trí tuệ nhân tạo.

Những sự kiện gần đây báo hiệu hai sự chuyển đổi cơ bản đang diễn ra trong bối cảnh AI. Thứ nhất, ngày càng rõ ràng rằng các tổ chức hoạt động với nguồn lực tài chính tương đối nhỏ hơn, hoặc ít nhất là ít được công bố rộng rãi hơn, giờ đây có thể phát triển và triển khai các mô hình cạnh tranh với những mô hình tiên tiến nhất. Sân chơi, vốn thường bị thống trị bởi một vài gã khổng lồ được tài trợ mạnh mẽ, dường như đang trở nên cân bằng hơn. Thứ hai, trọng tâm chiến lược đang chuyển dịch một cách dứt khoát sang tối ưu hóa tính toán tại điểm suy luận (TTC) như là động cơ chính cho sự tiến bộ của AI trong tương lai. Hãy cùng tìm hiểu sâu hơn về cả hai xu hướng then chốt này và khám phá những phân nhánh tiềm tàng của chúng đối với cạnh tranh, động lực thị trường và các phân khúc khác nhau trong hệ sinh thái AI rộng lớn hơn.

Định hình lại Bối cảnh Phần cứng

Việc định hướng lại chiến lược sang tính toán tại thời điểm kiểm tra mang những hàm ý sâu sắc đối với phần cứng làm nền tảng cho cuộc cách mạng AI, có khả năng định hình lại các yêu cầu đối với GPUs, silicon chuyên dụng và cơ sở hạ tầng tính toán tổng thể. Chúng tôi tin rằng sự thay đổi này có thể biểu hiện theo một số cách chính:

  • Chuyển đổi từ các Trung tâm Đào tạo Chuyên dụng sang Sức mạnh Suy luận Động: Trọng tâm của ngành có thể dần chuyển từ việc xây dựng các cụm GPU nguyên khối ngày càng lớn hơn, chỉ dành riêng cho nhiệm vụ tiền huấn luyện mô hình đòi hỏi nhiều tính toán. Thay vào đó, các công ty AI có thể phân bổ lại đầu tư một cách chiến lược để tăng cường khả năng suy luận của họ. Điều này không nhất thiết có nghĩa là tổng số GPU ít hơn, mà là một cách tiếp cận khác đối với việc triển khai và quản lý chúng. Hỗ trợ nhu cầu ngày càng tăng của TTC đòi hỏi cơ sở hạ tầng suy luận mạnh mẽ, có khả năng xử lý khối lượng công việc động, thường không thể đoán trước. Mặc dù số lượng lớn GPU chắc chắn vẫn cần thiết cho suy luận, bản chất cơ bản của các tác vụ này khác biệt đáng kể so với đào tạo. Đào tạo thường liên quan đến các công việc xử lý hàng loạt lớn, có thể dự đoán được, chạy trong thời gian dài. Suy luận, đặc biệt là khi được tăng cường bởi TTC, có xu hướng “đột biến” và nhạy cảm với độ trễ hơn nhiều, đặc trưng bởi các mô hình nhu cầu biến động dựa trên tương tác người dùng thời gian thực. Sự không thể đoán trước vốn có này đưa ra những phức tạp mới vào việc lập kế hoạch năng lực và quản lý tài nguyên, đòi hỏi các giải pháp linh hoạt và có khả năng mở rộng hơn so với các thiết lập đào tạo theo lô truyền thống.

  • Sự trỗi dậy của Bộ tăng tốc Suy luận Chuyên dụng: Khi nút thắt cổ chai về hiệu suất ngày càng chuyển sang suy luận, chúng tôi dự đoán nhu cầu về phần cứng được tối ưu hóa đặc biệt cho tác vụ này sẽ tăng vọt. Việc nhấn mạnh vào tính toán độ trễ thấp, thông lượng cao trong giai đoạn suy luận tạo ra mảnh đất màu mỡ cho các kiến trúc thay thế ngoài GPU đa năng. Chúng ta có thể chứng kiến sự gia tăng đáng kể trong việc áp dụng Mạch tích hợp chuyên dụng cho ứng dụng (ASICs) được thiết kế tỉ mỉ cho khối lượng công việc suy luận, cùng với các loại bộ tăng tốc mới lạ khác. Các chip chuyên dụng này thường hứa hẹn hiệu suất trên mỗi watt vượt trội hoặc độ trễ thấp hơn cho các hoạt động suy luận cụ thể so với các GPU linh hoạt hơn. Nếu khả năng thực hiện hiệu quả các tác vụ suy luận phức tạp tại thời điểm suy luận (TTC) trở thành yếu tố khác biệt cạnh tranh quan trọng hơn so với năng lực đào tạo thô, sự thống trị hiện tại của GPU đa năng—được đánh giá cao vì tính linh hoạt của chúng trên cả đào tạo và suy luận—có thể bị xói mòn. Bối cảnh đang phát triển này có thể mang lại lợi ích đáng kể cho các công ty phát triển và sản xuất silicon suy luận chuyên dụng, có khả năng chiếm lĩnh thị phần đáng kể.

Nền tảng Đám mây: Chiến trường Mới về Chất lượng và Hiệu quả

Các nhà cung cấp đám mây siêu quy mô (như AWS, Azure và GCP) và các dịch vụ tính toán đám mây khác đang đứng ở giao điểm của sự chuyển đổi này. Sự chuyển dịch sang TTC và sự gia tăng của các mô hình suy luận mạnh mẽ có khả năng sẽ định hình lại kỳ vọng của khách hàng và động lực cạnh tranh trên thị trường đám mây:

  • Chất lượng Dịch vụ (QoS) như một Lợi thế Cạnh tranh Xác định: Một thách thức dai dẳng cản trở việc áp dụng rộng rãi hơn các mô hình AI phức tạp trong doanh nghiệp, ngoài những lo ngại cố hữu về độ chính xác và độ tin cậy, nằm ở hiệu suất thường không thể đoán trước của các API suy luận. Các doanh nghiệp dựa vào các API này thường xuyên gặp phải các vấn đề khó chịu như thời gian phản hồi rất thay đổi (độ trễ), việc giới hạn tốc độ bất ngờ làm giảm việc sử dụng của họ, khó khăn trong việc quản lý hiệu quả các yêu cầu người dùng đồng thời và chi phí vận hành để thích ứng với những thay đổi thường xuyên của điểm cuối API bởi các nhà cung cấp mô hình. Nhu cầu tính toán tăng lên liên quan đến các kỹ thuật TTC phức tạp có nguy cơ làm trầm trọng thêm những điểm yếu hiện có này. Trong môi trường này, một nền tảng đám mây không chỉ cung cấp quyền truy cập vào các mô hình mạnh mẽ mà còn đảm bảo Chất lượng Dịch vụ (QoS) mạnh mẽ—đảm bảo độ trễ thấp nhất quán, thông lượng có thể dự đoán, thời gian hoạt động đáng tin cậy và khả năng mở rộng liền mạch—sẽ sở hữu một lợi thế cạnh tranh hấp dẫn. Các doanh nghiệp tìm cách triển khai các ứng dụng AI quan trọng cho nhiệm vụ sẽ hướng tới các nhà cung cấp có thể mang lại hiệu suất đáng tin cậy trong các điều kiện thực tế đòi hỏi khắt khe.

  • Nghịch lý Hiệu quả: Thúc đẩy Tiêu thụ Đám mây Tăng lên? Có vẻ phản trực giác, nhưng sự ra đời của các phương pháp hiệu quả hơn về mặt tính toán cho cả việc đào tạo và, quan trọng là, suy luận các mô hình ngôn ngữ lớn (LLMs) có thể không dẫn đến việc giảm nhu cầu tổng thể về phần cứng AI và tài nguyên đám mây. Thay vào đó, chúng ta có thể chứng kiến một hiện tượng tương tự như Nghịch lý Jevons. Nguyên tắc kinh tế này, được quan sát trong lịch sử, cho rằng sự gia tăng hiệu quả sử dụng tài nguyên thường dẫn đến tỷ lệ tiêu thụ tổng thể cao hơn, vì chi phí thấp hơn hoặc dễ sử dụng hơn khuyến khích việc áp dụng rộng rãi hơn và các ứng dụng mới. Trong bối cảnh AI, các mô hình suy luận hiệu quả cao, có khả năng được kích hoạt bởi những đột phá TTC do các phòng thí nghiệm như DeepSeek tiên phong, có thể làm giảm đáng kể chi phí cho mỗi truy vấn hoặc mỗi tác vụ. Khả năng chi trả này, đến lượt nó, có thể khuyến khích một phạm vi rộng lớn hơn nhiều các nhà phát triển và tổ chức tích hợp khả năng suy luận phức tạp vào sản phẩm và quy trình làm việc của họ. Hiệu ứng ròng có thể là sự gia tăng đáng kể trong nhu cầu tổng hợp về tính toán AI dựa trên đám mây, bao gồm cả việc thực thi các mô hình suy luận hiệu quả này ở quy mô lớn và nhu cầu liên tục đào tạo các mô hình nhỏ hơn, chuyên biệt hơn phù hợp với các tác vụ hoặc lĩnh vực cụ thể. Do đó, những tiến bộ gần đây có thể nghịch lý thay lại thúc đẩy thay vì làm giảm chi tiêu tổng thể cho AI trên đám mây.

Mô hình Nền tảng: Một Con hào Đang Thay đổi

Đấu trường cạnh tranh cho các nhà cung cấp mô hình nền tảng—một không gian hiện đang bị thống trị bởi những cái tên như OpenAI, Anthropic, Cohere, Google và Meta, giờ đây có thêm những người chơi mới nổi như DeepSeek và Mistral—cũng sẵn sàng cho những thay đổi đáng kể:

  • Suy nghĩ lại về Khả năng Phòng thủ của Tiền huấn luyện: Lợi thế cạnh tranh truyền thống, hay “con hào”, mà các phòng thí nghiệm AI hàng đầu được hưởng đã phụ thuộc rất nhiều vào khả năng tích lũy các bộ dữ liệu khổng lồ và triển khai các nguồn lực tính toán khổng lồ để tiền huấn luyện các mô hình ngày càng lớn hơn. Tuy nhiên, nếu những người chơi đột phá như DeepSeek có thể chứng minh được hiệu suất tương đương hoặc thậm chí ở cấp độ tiên phong với chi phí được báo cáo thấp hơn đáng kể, giá trị chiến lược của các mô hình tiền huấn luyện độc quyền như một yếu tố khác biệt duy nhất có thể giảm đi. Khả năng đào tạo các mô hình khổng lồ có thể trở nên ít lợi thế độc đáo hơn nếu các kỹ thuật đổi mới trong kiến trúc mô hình, phương pháp đào tạo, hoặc, quan trọng là, tối ưu hóa tính toán tại thời điểm kiểm tra cho phép những người khác đạt được mức hiệu suất tương tự một cách hiệu quả hơn. Chúng ta nên dự đoán sự đổi mới nhanh chóng liên tục trong việc tăng cường khả năng của mô hình transformer thông qua TTC, và như sự xuất hiện của DeepSeek minh họa, những đột phá này có thể bắt nguồn từ bên ngoài vòng tròn đã được thiết lập của những gã khổng lồ trong ngành. Điều này cho thấy tiềm năng dân chủ hóa sự phát triển AI tiên tiến, thúc đẩy một hệ sinh thái đa dạng và cạnh tranh hơn.

Áp dụng AI trong Doanh nghiệp và Lớp Ứng dụng

Hàm ý của những thay đổi này lan tỏa ra bối cảnh phần mềm doanh nghiệp và việc áp dụng AI rộng rãi hơn trong các doanh nghiệp, đặc biệt liên quan đến lớp ứng dụng Phần mềm dưới dạng Dịch vụ (SaaS):

  • Vượt qua Rào cản Bảo mật và Quyền riêng tư: Nguồn gốc địa chính trị của những người mới tham gia như DeepSeek chắc chắn sẽ gây ra những phức tạp, đặc biệt là liên quan đến bảo mật dữ liệu và quyền riêng tư. Với trụ sở của DeepSeek tại Trung Quốc, các dịch vụ của họ, đặc biệt là các dịch vụ API trực tiếp và ứng dụng chatbot, có khả năng phải đối mặt với sự giám sát chặt chẽ từ các khách hàng doanh nghiệp tiềm năng ở Bắc Mỹ, Châu Âu và các quốc gia phương Tây khác. Các báo cáo đã chỉ ra rằng nhiều tổ chức đang chủ động chặn quyền truy cập vào các dịch vụ của DeepSeek như một biện pháp phòng ngừa. Ngay cả khi các mô hình của DeepSeek được lưu trữ bởi các nhà cung cấp đám mây bên thứ ba trong các trung tâm dữ liệu phương Tây, những lo ngại kéo dài về quản trị dữ liệu, ảnh hưởng tiềm tàng của nhà nước và việc tuân thủ các quy định nghiêm ngặt về quyền riêng tư (như GDPR hoặc CCPA) có thể cản trở việc áp dụng rộng rãi trong doanh nghiệp. Hơn nữa, các nhà nghiên cứu đang tích cực điều tra và nêu bật các lỗ hổng tiềm ẩn liên quan đến bẻ khóa (jailbreaking - bỏ qua các kiểm soát an toàn), các thành kiến cố hữu trong đầu ra của mô hình và việc tạo ra nội dung có khả năng gây hại hoặc không phù hợp. Mặc dù việc thử nghiệm và đánh giá trong các nhóm R&D của doanh nghiệp có thể xảy ra do khả năng kỹ thuật của các mô hình, nhưng có vẻ khó có khả năng người mua doanh nghiệp sẽ nhanh chóng từ bỏ các nhà cung cấp đã được thiết lập, đáng tin cậy như OpenAI hoặc Anthropic chỉ dựa trên các dịch vụ hiện tại của DeepSeek, do những cân nhắc đáng kể về lòng tin và bảo mật này.

  • Chuyên môn hóa theo Ngành dọc Tìm thấy Nền tảng Vững chắc hơn: Trong lịch sử, các nhà phát triển xây dựng các ứng dụng hỗ trợ AI cho các ngành hoặc chức năng kinh doanh cụ thể (ứng dụng theo ngành dọc) chủ yếu tập trung vào việc tạo ra các quy trình làm việc phức tạp xung quanh các mô hình nền tảng đa năng hiệncó. Các kỹ thuật như Sinh tăng cường truy xuất (RAG - Retrieval-Augmented Generation) để đưa kiến thức chuyên ngành vào, định tuyến mô hình thông minh để chọn LLM tốt nhất cho một tác vụ nhất định, gọi hàm để tích hợp các công cụ bên ngoài và triển khai các rào chắn mạnh mẽ để đảm bảo đầu ra an toàn và phù hợp đã là trung tâm của việc điều chỉnh các mô hình mạnh mẽ nhưng tổng quát này cho các nhu cầu chuyên biệt. Những cách tiếp cận này đã mang lại thành công đáng kể. Tuy nhiên, một nỗi lo lắng dai dẳng đã phủ bóng lên lớp ứng dụng: nỗi sợ rằng một bước nhảy vọt đột ngột, đáng kể về khả năng của các mô hình nền tảng cơ bản có thể ngay lập tức làm cho những đổi mới dành riêng cho ứng dụng được chế tạo cẩn thận này trở nên lỗi thời—một kịch bản nổi tiếng được Sam Altman của OpenAI gọi là “steamrolling” (san phẳng).

    Tuy nhiên, nếu quỹ đạo tiến bộ của AI thực sự đang thay đổi, với những lợi ích đáng kể nhất hiện được dự đoán đến từ việc tối ưu hóa tính toán tại thời điểm kiểm tra thay vì những cải tiến theo cấp số nhân trong tiền huấn luyện, mối đe dọa hiện hữu đối với giá trị lớp ứng dụng sẽ giảm đi. Trong một bối cảnh mà những tiến bộ ngày càng bắt nguồn từ tối ưu hóa TTC, những con đường mới sẽ mở ra cho các công ty chuyên về các lĩnh vực cụ thể. Những đổi mới tập trung vào các thuật toán hậu huấn luyện dành riêng cho miền—chẳng hạn như phát triển các kỹ thuật gợi ý có cấu trúc được tối ưu hóa cho biệt ngữ của một ngành cụ thể, tạo ra các chiến lược suy luận nhận biết độ trễ cho các ứng dụng thời gian thực, hoặc thiết kế các phương pháp lấy mẫu hiệu quả cao phù hợp với các loại dữ liệu cụ thể—có thể mang lại lợi thế hiệu suất đáng kể trong các thị trường dọc được nhắm mục tiêu.

    Tiềm năng tối ưu hóa dành riêng cho miền này đặc biệt phù hợp với thế hệ mô hình tập trung vào suy luận mới, như GPT-4o của OpenAI hoặc dòng R của DeepSeek, mặc dù mạnh mẽ, nhưng thường thể hiện độ trễ đáng chú ý, đôi khi mất vài giây để tạo ra phản hồi. Trong các ứng dụng đòi hỏi tương tác gần như thời gian thực (ví dụ: bot dịch vụ khách hàng, công cụ phân tích dữ liệu tương tác), việc giảm độ trễ này đồng thời cải thiện chất lượng và mức độ liên quan của đầu ra suy luận trong một bối cảnh miền cụ thể đại diện cho một yếu tố khác biệt cạnh tranh đáng kể. Do đó, các công ty lớp ứng dụng sở hữu chuyên môn sâu về ngành dọc có thể thấy mình đóng một vai trò ngày càng quan trọng, không chỉ trong việc xây dựng quy trình làm việc, mà còn trong việc tích cực tối ưu hóa hiệu quả suy luận và tinh chỉnh hành vi mô hình cho thị trường ngách cụ thể của họ. Họ trở thành những đối tác không thể thiếu trong việc chuyển đổi sức mạnh AI thô thành giá trị kinh doanh hữu hình.

Sự xuất hiện của DeepSeek đóng vai trò như một minh chứng mạnh mẽ cho một xu hướng rộng lớn hơn: sự phụ thuộc ngày càng giảm vào quy mô tuyệt đối trong tiền huấn luyện như là con đường độc quyền để đạt được chất lượng mô hình vượt trội. Thay vào đó, thành công của nó nhấn mạnh tầm quan trọng ngày càng tăng của việc tối ưu hóa tính toán trong giai đoạn suy luận—kỷ nguyên của tính toán tại thời điểm kiểm tra. Mặc dù việc tiếp nhận trực tiếp các mô hình cụ thể của DeepSeek trong phần mềm doanh nghiệp phương Tây có thể vẫn bị hạn chế bởi sự giám sát liên tục về an ninh và địa chính trị, ảnh hưởng gián tiếp của chúng đã trở nên rõ ràng. Các kỹ thuật và khả năng mà họ đã chứng minh chắc chắn đang thúc đẩy các nỗ lực nghiên cứu và kỹ thuật trong các phòng thí nghiệm AI đã được thiết lập, buộc họ phải tích hợp các chiến lược tối ưu hóa TTC tương tự để bổ sung cho lợi thế hiện có của họ về quy mô và tài nguyên. Áp lực cạnh tranh này, như dự đoán, dường như sẵn sàng làm giảm chi phí hiệu quả của suy luận mô hình phức tạp, điều này, phù hợp với Nghịch lý Jevons, có khả năng góp phần vào việc thử nghiệm rộng rãi hơn và tăng cường sử dụng tổng thể các khả năng AI tiên tiến trên toàn nền kinh tế kỹ thuật số.