AI tạo sinh: Định giá cao ngất và mô hình chi phí thấp

Thế giới trí tuệ nhân tạo hiện tại là một sân khấu của những sự tương phản rõ rệt. Trên một sân khấu, những khoản tiền khổng lồ đang được đổ vào các công ty công nghệ lớn mạnh, nuôi dưỡng khát vọng về sức mạnh nhận thức chưa từng có và làm dấy lên các cuộc tranh luận về một bong bóng đầu tư sắp xảy ra. Định giá hàng tỷ đô la đang trở nên phổ biến, với những lời đồn đoán về các vòng tài trợ đạt đến con số thiên văn. Tuy nhiên, trên một sân khấu song song, yên tĩnh hơn, một cuộc cách mạng đang âm ỉ trong giới học thuật và cộng đồng nguồn mở. Tại đây, các nhà nghiên cứu đang thể hiện sự khéo léo đáng kể, tạo ra các mô hình AI tạo sinh có năng lực không phải bằng hàng tỷ đô la, mà đôi khi chỉ bằng tiền lẻ, thách thức cơ bản quan niệm phổ biến rằng lớn hơn luôn tốt hơn trong cuộc đua giành quyền tối cao về trí tuệ nhân tạo.

Sự phân kỳ này đang ngày càng trở nên rõ rệt. Hãy xem xét OpenAI, thế lực đằng sau ChatGPT, được cho là đang tìm kiếm thêm đầu tư có thể đẩy định giá của nó lên tới con số chóng mặt 300 tỷ đô la. Những con số như vậy, cùng với dự báo về doanh thu tăng nhanh chóng, vẽ nên một bức tranh về sự lạc quan không kiềm chế và tăng trưởng theo cấp số nhân. Tuy nhiên, đồng thời, những rung chấn thận trọng đang làm lung lay nền tảng của sự phấn khích AI này. Cái gọi là cổ phiếu công nghệ ‘Magnificent 7’, từ lâu đã là con cưng của thị trường phần lớn nhờ vào tiềm năng AI của chúng, đã trải qua những giai đoạn hoạt động kém hiệu quả đáng kể, cho thấy sự lo lắng của nhà đầu tư đang len lỏi vào. Sự bất an này được khuếch đại bởi những cảnh báo từ các chuyên gia kỳ cựu trong ngành, như người đồng sáng lập Alibaba, Joe Tsai, người gần đây đã chỉ ra những dấu hiệu đáng lo ngại về một bong bóng AI tiềm năng đang hình thành, đặc biệt là tại thị trường Mỹ. Quy mô đầu tư tuyệt đối cần thiết, đặc biệt là cho các trung tâm dữ liệu khổng lồ cung cấp năng lượng cho các mô hình phức tạp này, đang bị xem xét kỹ lưỡng. Liệu mức chi tiêu hiện tại có bền vững, hay chúng là dấu hiệu của một sự phấn khích phi lý trí, tách rời khỏi thực tế ngắn hạn?

Bóng ma Bong bóng AI Lấp ló

Những lo ngại về bong bóng AI không chỉ đơn thuần là những lo lắng tài chính trừu tượng; chúng phản ánh những câu hỏi sâu sắc hơn về tốc độ và hướng phát triển của chính AI. Câu chuyện phần lớn bị chi phối bởi một vài người chơi chính đầu tư hàng tỷ đô la để xây dựng các Mô hình Ngôn ngữ Lớn (LLMs) ngày càng lớn hơn. Điều này đã tạo ra một môi trường nơi vị trí dẫn đầu thị trường dường như được dựa trên việc có túi tiền sâu nhất và cơ sở hạ tầng máy tính rộng lớn nhất.

  • Chóng mặt về Định giá: Định giá tiềm năng 300 tỷ đô la của OpenAI, mặc dù phản ánh sự tự tin to lớn từ một số nhà đầu tư nhất định, cũng gây ra sự nghi ngờ. Con số này có được biện minh bởi các khả năng và dòng doanh thu hiện tại, hay nó bị nghiêng nặng về các đột phá trong tương lai, có lẽ không chắc chắn? Những điểm tương đồng lịch sử với các đợt bùng nổ và sụp đổ công nghệ trước đây, như kỷ nguyên dot-com, chắc chắn sẽ xuất hiện, thúc đẩy sự thận trọng.
  • Xem xét kỹ lưỡng Đầu tư Cơ sở hạ tầng: Hàng tỷ đô la đang được đổ vào các trung tâm dữ liệu dành riêng cho AI và phần cứng chuyên dụng, như GPU cao cấp, đại diện cho chi phí vốn khổng lồ. Cảnh báo của Joe Tsai nhấn mạnh rủi ro liên quan đến các khoản đầu tư trả trước lớn như vậy, đặc biệt nếu con đường kiếm tiền tỏ ra dài hơn hoặc phức tạp hơn dự kiến. Hiệu quả và lợi tức của các khoản đầu tư này đang trở thành điểm thảo luận quan trọng.
  • Tín hiệu Thị trường: Hiệu suất biến động của các gã khổng lồ công nghệ đầu tư mạnh vào AI cho thấy một mức độ hoài nghi của thị trường. Mặc dù tiềm năng dài hạn vẫn là một sức hút mạnh mẽ, sự biến động ngắn hạn cho thấy các nhà đầu tư đang tích cực đánh giá lại rủi ro và đặt câu hỏi về tính bền vững của các quỹ đạo tăng trưởng hiện tại. Số phận của các đợt IPO sắp tới trong không gian AI, chẳng hạn như đợt chào bán dự kiến từ chuyên gia chip AI CoreWeave, đang được theo dõi chặt chẽ như một thước đo tâm lý thị trường. Liệu nó sẽ khơi lại sự nhiệt tình hay xác nhận những lo lắng tiềm ẩn?
  • Khía cạnh Địa chính trị: Cuộc đua AI cũng có những ẩn ý địa chính trị đáng kể, đặc biệt là giữa Mỹ và Trung Quốc. Chi tiêu khổng lồ ở Mỹ một phần được thúc đẩy bởi mong muốn duy trì lợi thế cạnh tranh. Điều này đã dẫn đến các cuộc tranh luận chính sách phức tạp, bao gồm cả những lời kêu gọi kiểm soát xuất khẩu chặt chẽ hơn đối với công nghệ bán dẫn tiên tiến để có khả năng làm chậm tiến độ của Trung Quốc. Ngược lại, vốn đầu tư mạo hiểm tiếp tục chảy vào các công ty khởi nghiệp AI của Trung Quốc, cho thấy một cuộc cạnh tranh toàn cầu nơi năng lực công nghệ và chiến lược kinh tế đan xen chặt chẽ.

Môi trường đặt cược cao, chi tiêu cao này tạo tiền đề cho những đổi mới đột phá thách thức trật tự đã được thiết lập. Sự xuất hiện của các lựa chọn thay thế rẻ hơn đáng kể buộc phải đánh giá lại liệu sức mạnh tính toán vũ phu và quy mô lớn có phải là con đường duy nhất tiến về phía trước hay không.

Tuyên bố Đột phá của DeepSeek và Hiệu ứng Lan tỏa

Bước vào bối cảnh chi tiêu khổng lồ và lo lắng ngày càng tăng này là DeepSeek, một thực thể có trụ sở tại Trung Quốc đã đưa ra một tuyên bố đáng kinh ngạc: họ đã phát triển mô hình ngôn ngữ lớn AI tạo sinh R1 của mình chỉ với 6 triệu đô la. Con số này, thấp hơn nhiều bậc so với các khoản đầu tư hàng tỷ đô la được cho là của các đối tác phương Tây, ngay lập tức tạo ra những gợn sóng trong ngành.

Trong khi sự hoài nghi về tính toán 6 triệu đô la vẫn tồn tại – đặt câu hỏi về những chi phí nào đã được bao gồm và loại trừ – tác động của thông báo là không thể phủ nhận. Nó đóng vai trò như một chất xúc tác mạnh mẽ, buộc phải kiểm tra nghiêm túc các cấu trúc chi phí và phương pháp phát triển được sử dụng bởi các nhà lãnh đạo thị trường. Nếu một mô hình có năng lực hợp lý thực sự có thể được xây dựng với hàng triệu thay vì hàng tỷ đô la, điều đó có ý nghĩa gì về hiệu quả của các phương pháp tiếp cận hiện tại?

  • Thách thức Câu chuyện: Tuyên bố của DeepSeek, dù chính xác hay không, đã chọc thủng câu chuyện phổ biến rằng phát triển AI tiên tiến chỉ là lĩnh vực của các công ty nghìn tỷ đô la với nguồn lực vô hạn. Nó giới thiệu khả năng về một bối cảnh phát triển dân chủ hóa hơn.
  • Thúc đẩy Sự xem xét kỹ lưỡng: Nó tăng cường sự xem xét kỹ lưỡng vốn đã đổ dồn vào các khoản chi tiêu khổng lồ của các công ty như OpenAI do Microsoft hậu thuẫn. Các nhà đầu tư, nhà phân tích và đối thủ cạnh tranh bắt đầu đặt ra những câu hỏi khó hơn về phân bổ nguồn lực và lợi tức đầu tư cho các dự án thâm dụng vốn này.
  • Sự cộng hưởng Địa chính trị: Tuyên bố này cũng gây tiếng vang trong bối cảnh cạnh tranh công nghệ Mỹ-Trung. Nó gợi ý rằng các con đường thay thế, có khả năng hiệu quả hơn về nguồn lực để đạt được năng lực AI có thể tồn tại, thêm một lớp phức tạp khác vào các cuộc thảo luận về vai trò lãnh đạo công nghệ và cạnh tranh chiến lược. Điều này thúc đẩy thêm tranh luận về các chính sách như cấm vận chip, đồng thời khuyến khích các nhà đầu tư mạo hiểm xem xét kỹ lưỡng những người chơi mới nổi ở Trung Quốc có thể sở hữu các mô hình phát triển tinh gọn hơn.

Bất chấp sự hoài nghi, việc phát hành DeepSeek R1, đặc biệt là các thành phần nghiên cứu mở đi kèm, đã cung cấp những hiểu biết quan trọng sẽ truyền cảm hứng cho những người khác. Không chỉ là chi phí được tuyên bố, mà còn là các phương pháp tiềm năng được gợi ý, đã khơi dậy sự tò mò và đổi mới ở những nơi khác, đặc biệt là trong các phòng thí nghiệm học thuật hoạt động dưới những ràng buộc tài chính rất khác nhau.

Sự trỗi dậy của AI Siêu tinh gọn: Một Cuộc cách mạng Đại học

Trong khi các tập đoàn khổng lồ vật lộn với ngân sách hàng tỷ đô la và áp lực thị trường, một loại cách mạng AI khác đang lặng lẽ hình thành trong các giảng đường đại học. Các nhà nghiên cứu, không bị gánh nặng bởi các yêu cầu thương mại hóa ngay lập tức nhưng bị hạn chế nghiêm trọng về kinh phí, bắt đầu khám phá các cách để tái tạo nguyên tắc đằng sau AI tiên tiến, nếu không phải là quy mô tuyệt đối, bằng cách sử dụng nguồn lực tối thiểu. Một ví dụ điển hình xuất hiện từ Đại học California, Berkeley.

Một nhóm tại Berkeley, bị hấp dẫn bởi những tiến bộ gần đây nhưng thiếu vốn khổng lồ của các phòng thí nghiệm công nghiệp, đã bắt tay vào một dự án có tên là TinyZero. Mục tiêu của họ rất táo bạo: liệu họ có thể chứng minh các hành vi AI phức tạp, đặc biệt là loại lý luận cho phép các mô hình ‘suy nghĩ’ trước khi trả lời, bằng cách sử dụng một mô hình và ngân sách được thu nhỏ đáng kể không? Câu trả lời hóa ra là một tiếng vang lớn. Họ đã tái tạo thành công các khía cạnh cốt lõi của mô hình lý luận được khám phá bởi cả OpenAI và DeepSeek với chi phí thấp đáng kinh ngạc – khoảng 30 đô la.

Điều này không đạt được bằng cách xây dựng một đối thủ cạnh tranh trực tiếp với GPT-4, mà bằng cách giảm thiểu một cách thông minh độ phức tạp của cả mô hình và nhiệm vụ.

  • Thí nghiệm 30 đô la: Con số này chủ yếu đại diện cho chi phí thuê hai GPU Nvidia H200 trên nền tảng đám mây công cộng trong thời gian đào tạo cần thiết. Nó cho thấy tiềm năng tận dụng cơ sở hạ tầng đám mây hiện có cho nghiên cứu tiên tiến mà không cần đầu tư phần cứng trả trước lớn.
  • Thu nhỏ Mô hình: Dự án TinyZero sử dụng mô hình ‘3B’, đề cập đến khoảng ba tỷ tham số. Con số này nhỏ hơn đáng kể so với các LLM lớn nhất, có thể tự hào với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Cái nhìn sâu sắc quan trọng là các hành vi phức tạp có thể xuất hiện ngay cả trong các mô hình nhỏ hơn nếu nhiệm vụ được thiết kế phù hợp.
  • Cảm hứng từ những Gã khổng lồ và Kẻ thách thức: Jiayi Pan, trưởng dự án TinyZero, lưu ý rằng những đột phá từ OpenAI, đặc biệt là các khái niệm xung quanh việc mô hình dành nhiều thời gian hơn để xử lý trước khi phản hồi, là nguồn cảm hứng chính. Tuy nhiên, chính nghiên cứu mở của DeepSeek R1 đã cung cấp một bản thiết kế tiềm năng về cách đạt được khả năng lý luận cải thiện này, mặc dù chi phí đào tạo 6 triệu đô la được báo cáo của DeepSeek vẫn vượt xa tầm với của nhóm đại học.

Nhóm Berkeley đưa ra giả thuyết rằng bằng cách giảm cả kích thước mô hình và độ phức tạp của vấn đề mà nó cần giải quyết, họ vẫn có thể quan sát thấy ‘hành vi lý luận nổi bật’ mong muốn. Cách tiếp cận tối giản này là chìa khóa để giảm đáng kể chi phí trong khi vẫn cho phép quan sát khoa học có giá trị.

Giải mã ‘Khoảnh khắc Aha’: Lý luận với Ngân sách eo hẹp

Thành tựu cốt lõi của dự án TinyZero, và các sáng kiến chi phí thấp tương tự, nằm ở việc chứng minh điều mà các nhà nghiên cứu thường gọi là ‘khoảnh khắc Aha’ – thời điểm mà một mô hình AI bắt đầu thể hiện khả năng lý luận và giải quyết vấn đề thực sự, thay vì chỉ khớp mẫu hoặc truy xuất thông tin được lưu trữ. Hành vi nổi bật này là mục tiêu chính của các nhà phát triển ngay cả những mô hình lớn nhất.

Để kiểm tra giả thuyết của họ và gợi ra hành vi này ở quy mô nhỏ, nhóm Berkeley đã sử dụng một nhiệm vụ cụ thể, bị giới hạn: một trò chơi toán học có tên là ‘Countdown’.

  • Trò chơi Countdown: Trò chơi này yêu cầu AI đạt được một số mục tiêu bằng cách sử dụng một tập hợp các số bắt đầu cho trước và các phép toán số học cơ bản (cộng, trừ, nhân, chia). Điều quan trọng là, thành công trong Countdown phụ thuộc nhiều hơn vào lý luận chiến lược và lập kế hoạch – khám phá các kết hợp và trình tự hoạt động khác nhau – hơn là nhớ lại một lượng lớn kiến ​​thức toán học có sẵn.
  • Học thông qua Chơi: Ban đầu, mô hình TinyZero tiếp cận trò chơi một cách ngẫu nhiên, thử các kết hợp gần như tùy tiện. Tuy nhiên, thông qua quá trình học tăng cường (học từ thử và sai và phần thưởng), nó bắt đầu phân biệt các mẫu và chiến lược. Nó học cách điều chỉnh cách tiếp cận của mình, loại bỏ các con đường không hiệu quả và hội tụ nhanh hơn vào các giải pháp chính xác. Về cơ bản, nó đã học cách lý luận trong các quy tắc xác định của trò chơi.
  • Tự xác minh Xuất hiện: Đáng chú ý, mô hình được đào tạo bắt đầu có dấu hiệu tự xác minh – đánh giá các bước trung gian và các giải pháp tiềm năng của chính nó để xác định xem chúng có đang dẫn đến số mục tiêu hay không. Khả năng đánh giá nội bộ và sửa chữa đường lối này là một dấu hiệu của lý luận tiên tiến hơn.

Như Jiayi Pan đã giải thích, “Chúng tôi cho thấy rằng với một mô hình nhỏ như 3B, nó có thể học cách lý luận về các vấn đề đơn giản và bắt đầu học cách tự xác minh và tìm kiếm các giải pháp tốt hơn.” Điều này chứng tỏ rằng các cơ chế cơ bản làm nền tảng cho lý luận và ‘khoảnh khắc Aha’, trước đây chủ yếu liên quan đến các mô hình khổng lồ, đắt tiền, có thể được sao chép và nghiên cứu trong một môi trường hạn chế về tài nguyên. Thành công của TinyZero đã chứng minh rằng các khái niệm AI tiên phong không chỉ là lĩnh vực của các gã khổng lồ công nghệ mà còn có thể được tiếp cận bởi các nhà nghiên cứu, kỹ sư và thậm chí cả những người có sở thích với ngân sách hạn chế, thúc đẩy một hệ sinh thái toàn diện hơn cho việc khám phá AI. Quyết định của nhóm chia sẻ công khai phát hiện của họ, đặc biệt làqua các nền tảng như GitHub, cho phép những người khác sao chép các thí nghiệm và trải nghiệm ‘khoảnh khắc Aha’ này trực tiếp với chi phí thấp hơn vài chiếc pizza.

Stanford Tham gia Cuộc chơi: Xác thực Học tập Chi phí thấp

Những gợn sóng do TinyZero tạo ra nhanh chóng lan rộng trong cộng đồng AI học thuật. Các nhà nghiên cứu tại Đại học Stanford, những người đã khám phá các khái niệm tương tự và thậm chí đã giới thiệu trò chơi Countdown như một nhiệm vụ nghiên cứu trước đây, nhận thấy công trình của nhóm Berkeley rất phù hợp và có giá trị xác nhận.

Dưới sự dẫn dắt của Kanishk Gandhi, nhóm Stanford đang đi sâu vào một câu hỏi cơ bản, liên quan: tại sao một số LLM lại thể hiện những cải thiện đáng kể, gần như đột ngột trong khả năng lý luận của chúng trong quá trình đào tạo, trong khi những mô hình khác dường như đi ngang? Hiểu được các cơ chế cơ bản thúc đẩy những bước nhảy vọt về năng lực này là rất quan trọng để xây dựng AI hiệu quả và đáng tin cậy hơn.

  • Xây dựng trên Nền tảng Chung: Gandhi thừa nhận giá trị của TinyZero, nói rằng nó ‘tuyệt vời’ một phần vì nó đã sử dụng thành công nhiệm vụ Countdown mà nhóm của ông đang nghiên cứu. Sự hội tụ này cho phép xác nhận và lặp lại ý tưởng nhanh hơn giữa các nhóm nghiên cứu khác nhau.
  • Vượt qua Rào cản Kỹ thuật: Các nhà nghiên cứu Stanford cũng nhấn mạnh cách tiến độ của họ trước đây đã bị cản trở bởi những thách thức kỹ thuật. Sự sẵn có của các công cụ nguồn mở đã trở thành công cụ để vượt qua những trở ngại này.
  • Sức mạnh của Công cụ Nguồn mở: Cụ thể, Gandhi ghi nhận hệ thống Volcano Engine Reinforcement Learning (VERL), một dự án nguồn mở do ByteDance (công ty mẹ của TikTok) phát triển, là ‘thiết yếu để chạy các thí nghiệm của chúng tôi’. Sự phù hợp giữa khả năng của VERL và nhu cầu thử nghiệm của nhóm Stanford đã đẩy nhanh đáng kể chu kỳ nghiên cứu của họ.

Sự phụ thuộc vào các thành phần nguồn mở này nhấn mạnh một khía cạnh quan trọng của phong trào AI chi phí thấp. Tiến bộ thường được xây dựng một cách hợp tác, tận dụng các công cụ và hiểu biết được chia sẻ tự do trong cộng đồng. Gandhicòn cho rằng những đột phá khoa học lớn trong việc hiểu lý luận và trí thông minh của LLM có thể không nhất thiết chỉ bắt nguồn từ các phòng thí nghiệm công nghiệp lớn, được tài trợ tốt nữa. Ông lập luận rằng ‘sự hiểu biết khoa học về các LLM hiện tại đang thiếu, ngay cả trong các phòng thí nghiệm lớn’, để lại không gian đáng kể cho sự đóng góp từ ‘AI tự làm (DIY AI), nguồn mở và giới học thuật’. Những dự án nhỏ hơn, linh hoạt hơn này có thể khám phá các hiện tượng cụ thể một cách sâu sắc, tạo ra những hiểu biết có lợi cho toàn bộ lĩnh vực.

Người hùng Thầm lặng: Nền tảng Nguồn mở

Những thành tựu đáng nể của các dự án như TinyZero, chứng minh các hành vi AI phức tạp với chi phí hàng chục đô la, phụ thuộc rất nhiều vào một yếu tố quan trọng, thường bị đánh giá thấp: hệ sinh thái rộng lớn của các mô hình và công cụ AI nguồn mở và trọng số mở (open-weight). Mặc dù chi phí cận biên của một thí nghiệm cụ thể có thể thấp, nhưng nó được xây dựng trên nền tảng thường đại diện cho hàng triệu, nếu không phải hàng tỷ đô la đầu tư trước đó.

Nina Singer, một nhà khoa học máy học cấp cao hàng đầu tại công ty tư vấn AI OneSix, đã cung cấp bối cảnh quan trọng. Bà chỉ ra rằng chi phí đào tạo 30 đô la của TinyZero, mặc dù chính xác cho nhiệm vụ cụ thể được thực hiện bởi nhóm Berkeley, không tính đến chi phí phát triển ban đầu của các mô hình nền tảng mà nó sử dụng.

  • Đứng trên Vai Người khổng lồ: Việc đào tạo TinyZero không chỉ tận dụng hệ thống VERL của ByteDance mà còn cả Qwen của Alibaba Cloud, một LLM nguồn mở. Alibaba đã đầu tư nguồn lực đáng kể – có khả năng là hàng triệu đô la – vào việc phát triển Qwen trước khi phát hành ‘trọng số’ (các tham số đã học xác định khả năng của mô hình) cho công chúng.
  • Giá trị của Trọng số Mở: Singer nhấn mạnh rằng đây không phải là lời chỉ trích TinyZero mà là làm nổi bật giá trị và tầm quan trọng to lớn của các mô hình trọng số mở. Bằng cách phát hành các tham số mô hình, ngay cả khi bộ dữ liệu đầy đủ và kiến trúc đào tạo vẫn là độc quyền, các công ty như Alibaba cho phép các nhà nghiên cứu và các thực thể nhỏ hơn xây dựng dựa trên công việc của họ, thử nghiệm và đổi mới mà không cần phải sao chép quy trình đào tạo ban đầu tốn kém từ đầu.
  • Dân chủ hóa Tinh chỉnh (Fine-tuning): Cách tiếp cận mở này thúc đẩy một lĩnh vực ‘tinh chỉnh’ đang phát triển mạnh mẽ, nơi các mô hình AI nhỏ hơn được điều chỉnh hoặc chuyên môn hóa cho các nhiệm vụ cụ thể. Như Singer đã lưu ý, các mô hình được tinh chỉnh này thường có thể ‘cạnh tranh với các mô hình lớn hơn nhiều với kích thước và chi phí chỉ bằng một phần nhỏ’ cho mục đích được chỉ định của chúng. Có rất nhiều ví dụ, chẳng hạn như Sky-T1, cung cấp cho người dùng khả năng đào tạo phiên bản riêng của một mô hình tiên tiến với giá khoảng 450 đô la, hoặc chính Qwen của Alibaba, cho phép tinh chỉnh chỉ với 6 đô la.

Sự phụ thuộc vào nền tảng mở này tạo ra một hệ sinh thái năng động nơi sự đổi mới có thể xảy ra ở nhiều cấp độ. Các tổ chức lớn đầu tư mạnh vào việc tạo ra các mô hình cơ sở mạnh mẽ, trong khi một cộng đồng rộng lớn hơn tận dụng những tài sản này để khám phá các ứng dụng mới, tiến hành nghiên cứu và phát triển các giải pháp chuyên biệt một cách kinh tế hơn nhiều. Mối quan hệ cộng sinh này đang thúc đẩy sự tiến bộ nhanh chóng và dân chủ hóa trong lĩnh vực này.

Thách thức Mô hình ‘Lớn hơn là Tốt hơn’

Những câu chuyện thành công nổi lên từ các dự án như TinyZero và xu hướng rộng lớn hơn của việc tinh chỉnh hiệu quả, chi phí thấp đang tạo ra một thách thức đáng kể đối với niềm tin lâu đời trong ngành rằng tiến bộ trong AI chỉ là một hàm của quy mô – nhiều dữ liệu hơn, nhiều tham số hơn, nhiều sức mạnh tính toán hơn.

Một trong những hàm ý sâu sắc nhất, như Nina Singer đã nhấn mạnh, là chất lượng dữ liệu và đào tạo theo nhiệm vụ cụ thể thường có thể quan trọng hơn kích thước mô hình tuyệt đối. Thí nghiệm TinyZero đã chứng minh rằng ngay cả một mô hình tương đối nhỏ (3 tỷ tham số) cũng có thể học các hành vi phức tạp như tự sửa lỗi và cải tiến lặp đi lặp lại khi được đào tạo hiệu quả trên một nhiệm vụ được xác định rõ ràng.

  • Lợi nhuận Giảm dần trên Quy mô?: Phát hiện này trực tiếp đặt câu hỏi về giả định rằng chỉ những mô hình khổng lồ như dòng GPT của OpenAI hay Claude của Anthropic, với hàng trăm tỷ hoặc hàng nghìn tỷ tham số, mới có khả năng học tập phức tạp như vậy. Singer gợi ý, “Dự án này cho thấy rằng chúng ta có thể đã vượt qua ngưỡng mà các tham số bổ sung mang lại lợi nhuận giảm dần — ít nhất là đối với một số nhiệm vụ nhất định.” Mặc dù các mô hình lớn hơn có thể giữ lại lợi thế về tính tổng quát và bề rộng kiến thức, nhưng đối với các ứng dụng cụ thể, các mô hình siêu quy mô có thể đại diện cho sự dư thừa, cả về chi phí và yêu cầu tính toán.
  • Chuyển hướng sang Hiệu quả và Tính đặc thù: Bối cảnh AI có thể đang trải qua một sự thay đổi tinh tế nhưng đáng kể. Thay vì tập trung độc quyền vào việc xây dựng các mô hình nền tảng ngày càng lớn hơn, sự chú ý ngày càng tăng đang được dành cho hiệu quả, khả năng tiếp cận và trí thông minh có mục tiêu. Việc tạo ra các mô hình nhỏ hơn, được tối ưu hóa cao cho các lĩnh vực hoặc nhiệm vụ cụ thể đang chứng tỏ là một giải pháp thay thế khả thi và hấp dẫn về mặt kinh tế.
  • Áp lực lên các Mô hình Đóng: Khả năng ngày càng tăng và sự sẵn có của các mô hình trọng số mở và các kỹ thuật tinh chỉnh chi phí thấp gây áp lực cạnh tranh lên các công ty chủ yếu cung cấp khả năng AI của họ thông qua các API (Giao diện Lập trình Ứng dụng) bị hạn chế. Như Singer đã lưu ý, các công ty như OpenAI và Anthropic có thể cần phải ngày càng biện minh cho đề xuất giá trị của các hệ sinh thái đóng của họ, đặc biệt là ‘khi các lựa chọn thay thế mở bắt đầu sánh ngang hoặc vượt qua khả năng của họ trong các lĩnh vực cụ thể’.

Điều này không nhất thiết có nghĩa là sự kết thúc của các mô hình nền tảng lớn, vốn có khả năng sẽ tiếp tục đóng vai trò là điểm khởi đầu quan trọng. Tuy nhiên, nó gợi ý về một tương lai nơi hệ sinh thái AI đa dạng hơn nhiều, bao gồm sự kết hợp của các mô hình tổng quát khổng lồ và sự gia tăng của các mô hình nhỏ hơn, chuyên biệt và hiệu quả cao được điều chỉnh cho các nhu cầu cụ thể.

Làn sóng Dân chủ hóa: AI cho Nhiều người hơn?

Sự hội tụ của điện toán đám mây dễ tiếp cận, các công cụ nguồn mở mạnh mẽ và hiệu quả đã được chứng minh của các mô hình nhỏ hơn, được tinh chỉnh đang thúc đẩy một làn sóng dân chủ hóa trên toàn cảnh AI. Những gì từng là lĩnh vực độc quyền của các phòng thí nghiệm nghiên cứu ưu tú và các tập đoàn công nghệ với ngân sách hàng tỷ đô la đang ngày càng trở nên dễ tiếp cận hơn đối với một phạm vi rộng lớn hơn của các tác nhân.

Các cá nhân, nhà nghiên cứu học thuật, công ty khởi nghiệp và các công ty nhỏ hơn đang nhận thấy rằng họ có thể tham gia một cách có ý nghĩa vào các khái niệm và phát triển AI tiên tiến mà không cần đầu tư cơ sở hạ tầng quá lớn.

  • Giảm Rào cản Gia nhập: Khả năng tinh chỉnh một mô hình có năng lực với chi phí hàng trăm hoặc thậm chí hàng chục đô la, xây dựng trên nền tảng trọng số mở, làm giảm đáng kể rào cản gia nhập cho việc thử nghiệm và phát triển ứng dụng.
  • Thúc đẩy Đổi mới: Khả năng tiếp cận này khuyến khích một nhóm tài năng rộng lớn hơn đóng góp vào lĩnh vực này. Các nhà nghiên cứu có thể kiểm tra các ý tưởng mới lạ dễ dàng hơn, các doanh nhân có thể phát triển các giải pháp AI thích hợp một cách kinh tế hơn, và những người có sở thích có thể khám phá công nghệ tiên tiến trực tiếp.
  • Cải tiến do Cộng đồng Thúc đẩy: Thành công của các nỗ lực do cộng đồng thúc đẩy trong việc cải thiện và chuyên môn hóa các mô hình trọng số mở cho thấy sức mạnh của sự phát triển hợp tác. Trí tuệ tập thể này đôi khi có thể vượt qua các chu kỳ lặp lại trong các môi trường doanh nghiệp khép kín hơn đối với các nhiệm vụ cụ thể.
  • Một Tương lai Lai?: Quỹ đạo có khả năng hướng tới một hệ sinh thái lai. Các mô hình nền tảng khổng lồ sẽ tiếp tục đẩy các giới hạn tuyệt đối của khả năng AI, đóng vai trò là nền tảng. Đồng thời, một hệ sinh thái sôi động gồm các mô hình chuyên biệt, được tinh chỉnh bởi một cộng đồng đa dạng, sẽ thúc đẩy sự đổi mới trong các ứng dụng và ngành công nghiệp cụ thể.

Sự dân chủ hóa này không loại bỏ nhu cầu đầu tư đáng kể, đặc biệt là trong việc tạo ra thế hệ tiếp theo của các mô hình nền tảng. Tuy nhiên, nó thay đổi cơ bản động lực của sự đổi mới và cạnh tranh. Khả năng đạt được kết quả đáng nể với ngân sách eo hẹp, như được minh chứng bởi dự án TinyZero và phong trào tinh chỉnh rộng lớn hơn, báo hiệu một sự chuyển dịch hướng tới một tương lai dễ tiếp cận hơn, hiệu quả hơn và có khả năng đa dạng hơn cho sự phát triển trí tuệ nhân tạo. ‘Khoảnh khắc Aha’ của lý luận không còn chỉ giới hạn trong các pháo đài silicon; nó đang trở thành một trải nghiệm có thể tiếp cận với chi phí thấp hơn một bữa tối, khơi dậy sự sáng tạo và đẩy lùi ranh giới của những gì có thể từ gốc rễ.