Từ Tiến Hóa Động Vật Đến Con Người

Vào tháng 3 năm nay, tại hội nghị GTC mùa xuân 2025 của NVIDIA, Jia Peng, Trưởng bộ phận R&D công nghệ lái xe tự động tại Li Auto, đã giới thiệu thành tựu mới nhất của họ: mô hình lớn MindVLA.

Mô hình này là một Vision-Language-Action Model (VLA) với 2.2 tỷ tham số. Jia Peng nói thêm rằng họ đã triển khai thành công mô hình này trên xe. Li Auto tin rằng mô hình VLA là phương pháp hiệu quả nhất để giải quyết các thách thức của AI tương tác với thế giới vật lý.

Trong năm qua, kiến trúc end-to-end đã trở thành một điểm nóng công nghệ trong lĩnh vực lái xe thông minh, thúc đẩy các công ty xe hơi chuyển từ thiết kế quy tắc mô-đun truyền thống sang các hệ thống tích hợp. Các công ty xe hơi trước đây dẫn đầu với các thuật toán dựa trên quy tắc phải đối mặt với những khó khăn chuyển đổi, trong khi những người đến sau đã nắm bắt cơ hội để có được lợi thế cạnh tranh.

Li Auto là một ví dụ điển hình về điều này.

Tiến độ của Li Auto trong lĩnh vực lái xe thông minh năm ngoái có thể được mô tả là nhanh chóng. Vào tháng 7, họ đã dẫn đầu trong việc đạt được NOA (Navigation on Autopilot) không bản đồ trên toàn quốc và ra mắt kiến trúc “end-to-end (hệ thống nhanh) + VLM (hệ thống chậm)” độc đáo, đã nhận được sự chú ý rộng rãi trong ngành.

Tối nay, với mùa thứ hai của Li Auto AI Talk, chúng ta đã hiểu sâu hơn về những gì Li Xiang đề cập đến như một “công ty trí tuệ nhân tạo”.

"Mô Hình Lớn Cho Tài Xế" Cũng Là Tài Xế Của Bạn

Li Xiang, CEO của Li Auto, lần đầu tiên đề cập đến VLA trong mùa đầu tiên của AI Talk vào tháng 12 năm ngoái, trong cuộc trò chuyện với Zhang Xiaojun, nhà văn công nghệ trưởng của Tencent News. Vào thời điểm đó, ông nói:

Những gì chúng tôi đang làm với Li Auto Companion và lái xe tự động thực sự tách biệt theo tiêu chuẩn ngành và nó đang trong giai đoạn đầu. Mind GPT mà chúng tôi đang làm thực sự là một mô hình ngôn ngữ lớn; lái xe tự động mà chúng tôi đang làm, chúng tôi gọi nó là trí thông minh hành vi trong nội bộ, nhưng theo định nghĩa của Li Feifei (Giáo sư trọn đời của Stanford, cựu Nhà khoa học trưởng của Google), nó được gọi là trí thông minh không gian. Chỉ khi bạn thực sự làm nó trên quy mô lớn, bạn mới biết rằng hai điều này chắc chắn sẽ được kết nối vào một ngày nào đó. Chúng tôi gọi nó là VLA (Vision Language Action Model) trong nội bộ.

Li Xiang tin rằng mô hình cơ sở chắc chắn sẽ trở thành VLA vào một thời điểm nhất định. Lý do là các mô hình ngôn ngữ chỉ có thể hiểu thế giới ba chiều thông qua ngôn ngữ và nhận thức, điều này rõ ràng là không đủ. “Nó cần phải thực sự dựa trên vector, sử dụng Diffusion (mô hình khuếch tán) và sử dụng các phương pháp tạo sinh (để hiểu thế giới).”

Có thể nói, sự ra đời của VLA không chỉ là một nỗ lực táo bạo để tích hợp sâu sắc trí thông minh ngôn ngữ và trí thông minh không gian, mà còn là một cách giải thích lại khái niệm “xe hơi thông minh” của Li Auto.

Li Xiang tiếp tục định nghĩa trong AI Talk tối nay: “VLA là một mô hình lớn cho tài xế, hoạt động giống như một tài xế con người.” Nó không chỉ là một công nghệ, mà còn là một đối tác thông minh có thể giao tiếp tự nhiên với người dùng và đưa ra các quyết định độc lập.

Vậy, VLA chính xác là gì? Cốt lõi thực sự rất đơn giản: bằng cách tích hợp khả năng nhận thức thị giác, hiểu ngôn ngữ tự nhiên và tạo ra hành động, chiếc xe trở thành một “đại lý tài xế” có thể giao tiếp với mọi người và đưa ra quyết định của riêng mình.

Hãy tưởng tượng bạn đang ngồi trong xe và nói một cách tình cờ, “Hôm nay tôi hơi mệt, lái chậm hơn”, và chiếc xe sẽ không chỉ hiểu ý bạn mà còn điều chỉnh tốc độ và thậm chí chọn một tuyến đường êm ái hơn. Sự tương tác tự nhiên và trôi chảy này chính xác là những gì VLA muốn đạt được. Li Xiang tiết lộ rằng tất cả các lệnh ngắn đều được xử lý trực tiếp bởi chiếc xe, trong khi các lệnh phức tạp được phân tích cú pháp bởi mô hình 3.2 tỷ tham số dựa trên đám mây, đảm bảo cả hiệu quả và trí thông minh.

Đạt được mục tiêu này không hề dễ dàng. Điều đặc biệt về VLA là nó kết nối ba chiều của thị giác, ngôn ngữ và hành động. Một lệnh đơn giản từ người dùng có thể liên quan đến việc nhận thức thời gian thực về môi trường xung quanh, hiểu chính xác ý định ngôn ngữ và điều chỉnh nhanh chóng hành vi lái xe. Ba điều này là không thể thiếu.

Và điều tuyệt vời về VLA là nó cho phép ba điều này hoạt động liền mạch với nhau.

Từ tầm nhìn đến thực tế, R&D của VLA là một lãnh thổ chưa được khám phá. Li Xiang thừa nhận: “Việc thu thập dữ liệu trực quan và hành động là khó khăn nhất. Không công ty nào có thể thay thế nó.”

Để hiểu nền tảng kỹ thuật của VLA, chúng ta cũng phải xem xét sự phát triển của hệ thống lái xe thông minh của Li Auto.

Li Xiang nói rằng hệ thống ban đầu là trí thông minh “cấp độ côn trùng”, chỉ với hàng triệu tham số, được điều khiển bởi các quy tắc và bản đồ có độ chính xác cao, và bất lực khi gặp các điều kiện đường xá phức tạp. Sau đó, kiến trúc end-to-end và các mô hình ngôn ngữ trực quan cho phép công nghệ nhảy vọt lên “cấp độ động vật có vú”, loại bỏ sự phụ thuộc vào bản đồ và NOA không bản đồ trên toàn quốc đã trở thành hiện thực.

Trên thực tế, bước này đã đưa Li Auto lên vị trí dẫn đầu trong ngành, nhưng rõ ràng họ không hài lòng với điều này. Theo quan điểm của Li Xiang, sự xuất hiện của VLA đánh dấu rằng công nghệ lái xe thông minh của Li Auto đã bước vào một giai đoạn mới của “trí thông minh của con người”.

So với hệ thống trước đây, VLA không chỉ có thể cảm nhận thế giới vật chất 3D, mà còn có thể thực hiện suy luận logic và thậm chí tạo ra các hành vi lái xe gần với cấp độ con người.

Ví dụ đơn giản, giả sử bạn nói “tìm một nơi để quay đầu” trên một con phố đông đúc, VLA sẽ không thực hiện lệnh một cách máy móc, mà sẽ xem xét toàn diện điều kiện đường xá, lưu lượng giao thông và quy tắc giao thông để tìm thời điểm và địa điểm hợp lý nhất để hoàn thành việc quay đầu xe.

Li Xiang cho biết VLA có thể nhanh chóng thích ứng với các kịch bản mới bằng cách tạo dữ liệu và có thể tối ưu hóa phản hồi ngay cả khi gặp phải sửa chữa đường phức tạp lần đầu tiên trong vòng ba ngày. Tính linh hoạt và phán đoán này là những lợi thế cốt lõi của VLA.

Giáo Viên Của Li Auto Là DeepSeek

Hỗ trợ VLA là một hệ thống kỹ thuật phức tạp và tinh vi được phát triển độc lập bởi Li Auto. Hệ thống này cho phép chiếc xe không chỉ “hiểu” thế giới, mà còn suy nghĩ và hành động như một người lái xe.

Đầu tiên là công nghệ biểu diễn Gaussian 3D, sử dụng nhiều “điểm Gaussian” để tạo ra một đối tượng 3D. Mỗi điểm chứa thông tin về vị trí, màu sắc và kích thước riêng. Công nghệ này sử dụng học tập tự giám sát để đào tạo một mô hình hiểu không gian 3D mạnh mẽ bằng cách sử dụng dữ liệu thực lớn. Với nó, VLA có thể “hiểu” thế giới xung quanh giống như một con người, biết chướng ngại vật ở đâu và khu vực có thể đi qua ở đâu.

Tiếp theo là kiến trúc Mixture of Experts (MoE), bao gồm các mạng chuyên gia, mạng cổng và bộ kết hợp. Khi các tham số mô hình vượt quá hàng trăm tỷ, phương pháp truyền thống sẽ làm cho tất cả các nơ-ron tham gia vào mỗi phép tính, đó là một sự lãng phí tài nguyên. Mạng cổng trong kiến trúc MoE sẽ gọi các chuyên gia khác nhau theo các nhiệm vụ khác nhau để đảm bảo rằng các tham số kích hoạt sẽ không tăng lên đáng kể.

Nói về điều này, Li Xiang cũng ca ngợi DeepSeek:

DeepSeek sử dụng các phương pháp tốt nhất của nhân loại … Khi họ đang làm DeepSeek V3, V3 cũng là một MoE, một mô hình 671B. Tôi nghĩ MoE là một kiến trúc rất tốt. Nó tương đương với việc kết hợp một loạt các chuyên gia lại với nhau, và mỗi người là một khả năng chuyên môn.

Cuối cùng, Li Auto đã giới thiệu Sparse Attention vào VLA, theo cách diễn đạt của người bình thường có nghĩa là VLA sẽ tự động điều chỉnh trọng số chú ý của các khu vực quan trọng, do đó cải thiện hiệu quả suy luận của phía cuối.

Li Xiang cho biết trong quá trình đào tạo mô hình cơ sở mới này, các kỹ sư của Li Auto đã dành rất nhiều thời gian để tìm ra tỷ lệ dữ liệu tốt nhất, tích hợp một lượng lớn dữ liệu 3D và dữ liệu văn bản và hình ảnh liên quan đến lái xe tự động và giảm tỷ lệ dữ liệu văn học và lịch sử.

Từ nhận thức đến ra quyết định, VLA dựa trên chế độ kết hợp nhanh và chậm của tư duy con người. Nó có thể nhanh chóng đưa ra các quyết định hành động đơn giản, chẳng hạn như tránh khẩn cấp, và cũng có thể sử dụng các chuỗi tư duy ngắn để “suy nghĩ chậm” để đối phó với các kịch bản phức tạp hơn, chẳng hạn như tạm thời lên kế hoạch một tuyến đường để đi vòng qua khu vực xây dựng. Để cải thiện hơn nữa hiệu suất thời gian thực, VLA cũng đã giới thiệu suy luận suy đoán và công nghệ giải mã song song, tận dụng tối đa sức mạnh tính toán của chip phía xe để đảm bảo rằng quá trình ra quyết định nhanh chóng và không hỗn loạn.

Khi tạo ra hành vi lái xe, VLA sử dụng mô hình Diffusion và Reinforcement Learning from Human Feedback (RLHF). Mô hình Diffusion chịu trách nhiệm tạo ra các quỹ đạo lái xe tối ưu hóa, trong khi RLHF làm cho các quỹ đạo này gần hơn với thói quen của con người, vừa an toàn vừa thoải mái. Ví dụ, VLA sẽ tự động giảm tốc độ khi rẽ hoặc để lại đủ khoảng cách an toàn khi hợp nhất làn đường. Những chi tiết này phản ánh sự học hỏi sâu sắc về hành vi lái xe của con người.

Mô hình thế giới là một công nghệ quan trọng khác. Li Auto cung cấp một môi trường ảo chất lượng cao để học tập củng cố thông qua tái cấu trúc và tạo cảnh. Li Xiang tiết lộ rằng mô hình thế giới đã giảm chi phí xác minh từ 170.000-180.000 nhân dân tệ cho mỗi 10.000 km xuống còn 4.000 nhân dân tệ. Nó cho phép VLA liên tục tối ưu hóa trong mô phỏng và đối phó với các kịch bản phức tạp một cách dễ dàng.

Nói về đào tạo, quá trình phát triển của VLA cũng khá có tổ chức. Toàn bộ quá trình được chia thành ba giai đoạn: đào tạo trước, đào tạo sau và học tập củng cố. “Đào tạo trước giống như học kiến thức, đào tạo sau giống như học lái xe trong trường dạy lái xe và học tập củng cố giống như thực hành xã hội”, Li Xiang nói.

Trong giai đoạn đào tạo trước, Li Auto đã tạo ra một mô hình cơ sở ngôn ngữ trực quan cho VLA, nhồi nhét nó với dữ liệu trực quan 3D phong phú, hình ảnh độ nét cao 2D và các tập hợp con liên quan đến lái xe, cho phép nó trước tiên học cách “nhìn” và “nghe”; sau khi đào tạo, mô-đun hành động được thêm vào, tạo ra quỹ đạo lái xe 4-8 giây và mô hình mở rộng từ 3.2 tỷ tham số lên 4 tỷ.

Học tập củng cố được chia thành hai bước: đầu tiên, sử dụng RLHF để điều chỉnh thói quen của con người, phân tích dữ liệu tiếp quản và đảm bảo an toàn và thoải mái; sau đó, sử dụng học tập củng cố thuần túy để tối ưu hóa, dựa trên giá trị G (thoải mái), va chạm và phản hồi quy tắc giao thông, để VLA “lái xe tốt hơn con người”. Li Xiang đề cập rằng giai đoạn này được hoàn thành trong mô hình thế giới, mô phỏng các kịch bản giao thông thực tế và hiệu quả tốt hơn nhiều so với xác minh truyền thống.

Phương pháp đào tạo này không chỉ đảm bảo sự tiến bộ kỹ thuật, mà còn làm cho VLA đủ tin cậy trong các ứng dụng thực tế.

Li Xiang thừa nhận rằng sự thành công của VLA không thể tách rời khỏi nguồn cảm hứng của các chuẩn mực ngành. Kiến trúc MoE của DeepSeek không chỉ cải thiện hiệu quả đào tạo, mà còn cung cấp kinh nghiệm có giá trị cho Li Auto. Ông than thở: “Chúng tôi đang đứng trên vai những người khổng lồ và đẩy nhanh R&D của VLA.” Thái độ học hỏi cởi mở này cho phép Li Auto đi xa hơn trong vùng đất không người.

Từ "Công Cụ Thông Tin" Đến "Công Cụ Sản Xuất"

Hiện tại, ngành công nghiệp AI đang trải qua một sự chuyển đổi sâu sắc từ “công cụ thông tin” sang “công cụ sản xuất”. Với sự trưởng thành của công nghệ mô hình lớn, AI không còn giới hạn trong việc xử lý dữ liệu và cung cấp các đề xuất, mà bắt đầu có khả năng đưa ra các quyết định độc lập và thực hiện các nhiệm vụ.

Li Xiang đề xuất trong mùa thứ hai của AI Talk rằng AI có thể được chia thành các công cụ thông tin (chẳng hạn như tìm kiếm), các công cụ phụ trợ (chẳng hạn như điều hướng bằng giọng nói) và các công cụ sản xuất. Ông nhấn mạnh: “Trí tuệ nhân tạo trở thành một công cụ sản xuất là thời điểm bùng nổ thực sự.” Với sự trưởng thành của công nghệ mô hình lớn, AI không còn giới hạn trong việc xử lý dữ liệu, mà bắt đầu có khả năng đưa ra các quyết định độc lập và thực hiện các nhiệm vụ.

Xu hướng này đặc biệt rõ ràng trong khái niệm “trí tuệ thể hiện” - các hệ thống AI được trao các thực thể vật lý, có khả năng cảm nhận, hiểu và tương tác với môi trường.

Mô hình VLA của Li Auto là một thực hành sống động của xu hướng này. Bằng cách tích hợp trí thông minh về thị giác, ngôn ngữ và hành động, nó biến chiếc xe thành một tác nhân thông minh có thể lái xe tự động và tương tác tự nhiên với người dùng, giải thích một cách hoàn hảo khái niệm cốt lõi của “trí tuệ thể hiện”.

Miễn là con người thuê tài xế chuyên nghiệp, trí tuệ nhân tạo có thể trở thành một công cụ sản xuất. Khi AI trở thành một công cụ sản xuất, trí tuệ nhân tạo sẽ thực sự bùng nổ.

Nhận xét của Li Xiang làm rõ giá trị cốt lõi của VLA - nó không còn là một công cụ phụ trợ đơn giản, mà là một “đại lý tài xế” có thể độc lập thực hiện các nhiệm vụ và đảm nhận trách nhiệm. Sự chuyển đổi này không chỉ cải thiện giá trị thực tế của xe hơi, mà còn mở ra không gian trí tưởng tượng cho việc ứng dụng AI trong các lĩnh vực khác.

Tư duy của Li Xiang về AI luôn có một góc nhìn vượt ra khỏi khuôn khổ. Ông cũng đề cập: “VLA không phải là một quá trình thay đổi đột ngột, mà là một quá trình tiến hóa.” Câu này tóm tắt chính xác con đường kỹ thuật của Li Auto -

Từ điều khiển dựa trên quy tắc ban đầu, đến các đột phá end-to-end, đến cấp độ “trí thông minh của con người” của VLA ngày nay. Tư duy tiến hóa này không chỉ làm cho VLA khả thi hơn về mặt công nghệ, mà còn cung cấp một mô hình tham khảo cho ngành. So với một số nỗ lực theo đuổi mù quáng sự lật đổ, con đường thực dụng của Li Auto có thể phù hợp hơn với thị trường Trung Quốc phức tạp.

Từ công nghệ đến niềm tin, việc khám phá AI của Li Auto không hề suôn sẻ. Li Xiang thừa nhận: “Chúng tôi đã trải qua nhiều thách thức trong lĩnh vực AI, như bóng tối trước bình minh, nhưng chúng tôi tin rằng nếu chúng tôi kiên trì, chúng tôi sẽ thấy ánh sáng.” R&D của VLA phải đối mặt với các vấn đề như tắc nghẽn sức mạnh tính toán và đạo đức dữ liệu, nhưng Li Auto đã dần dần mở ra bình minh công nghệ của họ thông qua các mô hình cơ sở tự phát triển và các mô hình thế giới.

Li Xiang cũng đề cập trong cuộc phỏng vấn rằng sự thành công của VLA không thể tách rời khỏi sự trỗi dậy của AI Trung Quốc.

Ông nói rằng sự xuất hiện của các mô hình như DeepSeek và Tongyi Qianwen đã làm cho trình độ AI của Trung Quốc nhanh chóng tiếp cận Hoa Kỳ. Trong số đó, tinh thần mã nguồn mở được DeepSeek duy trì đặc biệt đáng khích lệ, điều này đã trực tiếp thúc đẩy Li Auto mở mã nguồn Xinghuan OS. Li Xiang nói: “Đây không phải là vì các cân nhắc chiến lược của công ty. DeepSeek đã giúp chúng tôi rất nhiều, chúng tôi nên đóng góp một cái gì đó cho xã hội.”

Trong khi theo đuổi các đột phá về công nghệ, Li Auto đã không bỏ qua các vấn đề an toàn và đạo đức của công nghệ AI. Công nghệ “siêu điều chỉnh” được giới thiệu bởi VLA làm cho hành vi của mô hình gần hơn với thói quen của con người thông qua Reinforcement Learning from Human Feedback (RLHF). Dữ liệu cho thấy rằng việc ứng dụng VLA đã làm tăng MPI tốc độ cao (quãng đường can thiệp trung bình) từ 240km lên 300km.

Quan trọng hơn, Li Auto nhấn mạnh việc xây dựng “AI với các giá trị của con người” và coi đạo đức và sự tin tưởng là nền tảng của sự phát triển công nghệ. Từ một góc độ vĩ mô hơn, ý nghĩa của VLA nằm ở chỗ nó xác định lại vai trò của các công ty xe hơi.

Trong quá khứ, xe hơi là phương tiện giao thông của kỷ nguyên công nghiệp; ngày nay, chúng đang phát triển thành “robot không gian” trong kỷ nguyên trí tuệ nhân tạo. Li Xiang đã đề cập trong AI Talk: “Li Auto đã từng đi trong vùng đất không người của xe hơi và sẽ đi trong vùng đất không người của trí tuệ nhân tạo trong tương lai.” Sự chuyển đổi của Li Auto mang lại không gian trí tưởng tượng mới cho mô hình kinh doanh của ngành công nghiệp ô tô.

Tất nhiên, sự phát triển của VLA không phải là không có thách thức. Đầu tư liên tục vào sức mạnh tính toán, đạo đức dữ liệu và thiết lập sự tin tưởng của người tiêu dùng vào lái xe tự động là tất cả các vấn đề mà Li Auto cần phải đối mặt. Ngoài ra, sự cạnh tranh trong ngành công nghiệp AI ngày càng trở nên khốc liệt. Các gã khổng lồ trong và ngoài nước như Tesla, Waymo và OpenAI đang đẩy nhanh việc bố trí các mô hình đa phương thức. Li Auto cần duy trì vị trí dẫn đầu trong việc lặp lại công nghệ và quảng bá thị trường. “Chúng tôi không có đường tắt, chúng tôi chỉ có thể trau dồi sâu sắc,” Li Xiang nói.

Không nghi ngờ gì nữa, việc hạ cánh của VLA sẽ là một nút quan trọng.

Li Auto có kế hoạch phát hành VLA đồng thời với chiếc SUV chạy điện hoàn toàn Li Auto i8 vào tháng 7 năm 2025 và đạt được sản xuất hàng loạt vào năm 2026. Đây không chỉ là một bài kiểm tra toàn diện về công nghệ, mà còn là một hòn đá thử quan trọng cho thị trường.