Khi trí tuệ nhân tạo tiếp tục phát triển và tích hợp vào nhiều ngành công nghiệp, các doanh nghiệp phải đối mặt với một thách thức quan trọng: tối đa hóa giá trị thu được từ các công nghệ mạnh mẽ này. Một khía cạnh quan trọng của thách thức này nằm ở việc hiểu kinh tế suy luận, quá trình sử dụng mô hình AI đã được đào tạo để tạo ra các dự đoán hoặc đầu ra từ dữ liệu mới.
Suy luận đưa ra một nhu cầu tính toán duy nhất so với đào tạo mô hình. Trong khi đào tạo đòi hỏi chi phí trả trước đáng kể để xử lý các tập dữ liệu lớn và xác định các mẫu, suy luận phát sinh chi phí liên tục với mỗi tương tác. Mỗi lời nhắc hoặc đầu vào được gửi đến mô hình sẽ kích hoạt việc tạo ra các token, các đơn vị dữ liệu cơ bản và mỗi token đều mang một chi phí tính toán.
Do đó, khi các mô hình AI trở nên tinh vi và được sử dụng rộng rãi hơn, khối lượng token được tạo ra tăng lên, dẫn đến chi phí tính toán cao hơn. Đối với các tổ chức đang tìm cách tận dụng AI một cách hiệu quả, mục tiêu là tạo ra một khối lượng token lớn với tốc độ, độ chính xác và chất lượng dịch vụ tối ưu trong khi vẫn kiểm soát chi phí tính toán.
Hệ sinh thái AI đã tích cực theo đuổi các chiến lược để giảm chi phí suy luận và cải thiện hiệu quả. Những tiến bộ trong tối ưu hóa mô hình, cùng với sự phát triển của cơ sở hạ tầng tính toán tăng tốc tiết kiệm năng lượng và các giải pháp toàn diện full-stack, đã góp phần vào xu hướng giảm chi phí suy luận trong năm qua.
Theo Báo cáo Chỉ số AI năm 2025 của Viện AI lấy con người làm trung tâm của Đại học Stanford, chi phí suy luận cho một hệ thống có hiệu suất cấp GPT-3.5 đã giảm đáng kể từ tháng 11 năm 2022 đến tháng 10 năm 2024. Chi phí phần cứng cũng giảm, với hiệu quả năng lượng được cải thiện hàng năm. Ngoài ra, các mô hình mã nguồn mở đang thu hẹp khoảng cách hiệu suất với các mô hình đóng, giảm thêm các rào cản đối với việc áp dụng AI tiên tiến.
Khi các mô hình tiến bộ và tạo ra nhiều nhu cầu hơn và tạo ra nhiều token hơn, các tổ chức phải mở rộng quy mô tài nguyên tính toán tăng tốc của họ để cung cấp thế hệ công cụ lý luận AI tiếp theo. Nếu không làm như vậy có thể dẫn đến tăng chi phí và tiêu thụ năng lượng.
Bài viết này cung cấp một sự hiểu biết cơ bản về kinh tế suy luận, trao quyền cho các tổ chức để phát triển các giải pháp AI hiệu quả, tiết kiệm chi phí và có khả năng mở rộng.
Các Khái Niệm Chính Trong Kinh Tế Suy Luận AI
Làm quen với các thuật ngữ thiết yếu của kinh tế suy luận AI là rất quan trọng để hiểu tầm quan trọng của nó.
Token: Các đơn vị dữ liệu cốt lõi trong một mô hình AI, có nguồn gốc từ văn bản, hình ảnh, âm thanh và video trong quá trình đào tạo. Mã hóa bao gồm việc chia nhỏ dữ liệu thành các đơn vị nhỏ hơn, dễ quản lý. Trong quá trình đào tạo, mô hình học các mối quan hệ giữa các token, cho phép nó thực hiện suy luận và tạo ra các đầu ra chính xác.
Thông lượng (Throughput): Lượng dữ liệu mà một mô hình có thể xử lý và xuất ra trong một khung thời gian cụ thể, thường được đo bằng token trên giây. Thông lượng cao hơn cho thấy việc sử dụng hiệu quả hơn các tài nguyên cơ sở hạ tầng.
Độ trễ (Latency): Độ trễ thời gian giữa việc nhập lời nhắc và nhận phản hồi của mô hình. Độ trễ thấp hơn chuyển thành phản hồi nhanh hơn và trải nghiệm người dùng tốt hơn. Các số liệu độ trễ chính bao gồm:
- Thời Gian Đến Token Đầu Tiên (Time to First Token - TTFT): Thời gian cần thiết để mô hình tạo ra token đầu ra đầu tiên sau khi nhận được lời nhắc của người dùng, phản ánh thời gian xử lý ban đầu.
- Thời Gian Trên Mỗi Token Đầu Ra (Time per Output Token - TPOT): Thời gian trung bình để tạo ra các token tiếp theo, còn được gọi là ‘độ trễ giữa các token’ hoặc ‘độ trễ token-to-token’.
Mặc dù TTFT và TPOT là các điểm chuẩn hữu ích, nhưng chỉ tập trung vào chúng có thể dẫn đến hiệu suất không tối ưu hoặc tăng chi phí.
Goodput: Một số liệu toàn diện đo thông lượng đạt được trong khi vẫn duy trì mức TTFT và TPOT mục tiêu. Goodput cung cấp một cái nhìn toàn diện hơn về hiệu suất hệ thống, đảm bảo sự phù hợp giữa thông lượng, độ trễ và chi phí để hỗ trợ hiệu quả hoạt động và trải nghiệm người dùng tích cực.
Hiệu Quả Năng Lượng: Một thước đo mức độ hiệu quả của một hệ thống AI chuyển đổi năng lượng thành đầu ra tính toán, được biểu thị bằng hiệu suất trên mỗi watt. Các nền tảng tính toán tăng tốc có thể giúp các tổ chức tối đa hóa token trên mỗi watt và giảm thiểu tiêu thụ năng lượng.
Các Định Luật Mở Rộng và Chi Phí Suy Luận
Ba định luật mở rộng AI cung cấp thêm thông tin chi tiết về kinh tế suy luận:
Mở Rộng Tiền Huấn Luyện (Pretraining Scaling): Định luật mở rộng ban đầu, chứng minh rằng việc tăng kích thước tập dữ liệu đào tạo, số lượng tham số mô hình và tài nguyên tính toán dẫn đến những cải tiến có thể dự đoán được về trí thông minh và độ chính xác của mô hình.
Hậu Huấn Luyện (Post-training): Một quy trình trong đó các mô hình được tinh chỉnh cho các tác vụ và ứng dụng cụ thể. Các kỹ thuật như tạo tăng cường truy xuất (retrieval-augmented generation - RAG) có thể nâng cao độ chính xác bằng cách truy xuất thông tin liên quan từ cơ sở dữ liệu doanh nghiệp.
Mở Rộng Thời Gian Kiểm Tra (Test-time Scaling): Còn được gọi là ‘tư duy dài hạn’ hoặc ‘lý luận’, kỹ thuật này bao gồm việc phân bổ thêm tài nguyên tính toán trong quá trình suy luận để đánh giá nhiều kết quả có thể xảy ra trước khi chọn câu trả lời tốt nhất.
Trong khi các kỹ thuật mở rộng hậu huấn luyện và thời gian kiểm tra ngày càng trở nên tinh vi, tiền huấn luyện vẫn là một khía cạnh quan trọng của việc mở rộng quy mô mô hình và hỗ trợ các kỹ thuật tiên tiến này.
Đạt Được AI Có Lợi Nhuận Với Cách Tiếp Cận Full-Stack
Các mô hình tận dụng mở rộng thời gian kiểm tra tạo ra nhiều token để giải quyết các vấn đề phức tạp, dẫn đến đầu ra chính xác và phù hợp hơn nhưng cũng có chi phí tính toán cao hơn so với các mô hình chỉ trải qua tiền huấn luyện và hậu huấn luyện.
Các giải pháp AI thông minh hơn đòi hỏi phải tạo ra nhiều token hơn để giải quyết các tác vụ phức tạp, trong khi trải nghiệm người dùng chất lượng cao đòi hỏi phải tạo ra các token này càng nhanh càng tốt. Mô hình AI càng thông minh và nhanh chóng, nó càng cung cấp nhiều giá trị hơn cho các doanh nghiệp và khách hàng.
Các tổ chức cần mở rộng quy mô tài nguyên tính toán tăng tốc của họ để cung cấp các công cụ lý luận AI có thể xử lý các vấn đề phức tạp, mã hóa và lập kế hoạch nhiều bước mà không phát sinh chi phí quá cao.
Điều này đòi hỏi cả phần cứng tiên tiến và một ngăn xếp phần mềm được tối ưu hóa hoàn toàn. Lộ trình sản phẩm AI factory của NVIDIA được thiết kế để đáp ứng những nhu cầu tính toán này và giải quyết sự phức tạp của suy luận đồng thời cải thiện hiệu quả.
Các AI factory tích hợp cơ sở hạ tầng AI hiệu suất cao, mạng tốc độ cao và phần mềm được tối ưu hóa để cho phép trí thông minh ở quy mô lớn. Các thành phần này được thiết kế để linh hoạt và có thể lập trình, cho phép các doanh nghiệp ưu tiên các lĩnh vực quan trọng đối với mô hình hoặc nhu cầu suy luận của họ.
Để hợp lý hóa các hoạt động khi triển khai các mô hình lý luận AI khổng lồ, các AI factory chạy trên một hệ thống quản lý suy luận hiệu suất cao, độ trễ thấp. Hệ thống này đảm bảo tốc độ và thông lượng cần thiết cho lý luận AI được đáp ứng với chi phí thấp nhất có thể, tối đa hóa doanh thu tạo token.
Bằng cách hiểu và giải quyết kinh tế suy luận, các tổ chức có thể khai thác toàn bộ tiềm năng của AI và đạt được lợi nhuận đáng kể từ các khoản đầu tư của họ. Một cách tiếp cận chiến lược xem xét các số liệu chính, các định luật mở rộng và tầm quan trọng của một giải pháp full-stack là rất cần thiết để xây dựng các ứng dụng AI hiệu quả, tiết kiệm chi phí và có lợi nhuận.