「運転手大規模モデル」はあなたの運転手にもなる
理想汽車(Li Auto)のCEOである李想(Li Xiang)は、昨年12月のAI Talkの最初のシーズンで、Tencent Newsのチーフテクノロジーライターである張暁軍(Zhang Xiaojun)との対談で、VLAについて初めて言及しました。当時、彼はこう語っています。
私たちが理想汽車コンパニオンと自動運転で行っていることは、実際には業界標準に従って分離されており、初期段階にあります。私たちが取り組んでいるMind GPTは、実際には大規模言語モデルです。私たちが取り組んでいる自動運転は、内部的には行動知能と呼んでいますが、李飛飛(李飛飛、スタンフォード大学終身教授、元Googleチーフサイエンティスト)によって定義されているように、空間知能と呼ばれています。実際に大規模に行ってみて初めて、これら2つがいつか必ずつながることがわかるでしょう。内部ではVLA(Vision Language Action Model)と呼んでいます。
李想は、基盤モデルはいずれVLAになると確信しています。その理由は、言語モデルは言語と認識を通じてしか3次元の世界を理解できず、それは明らかに不十分だからです。「真にベクトルベースであり、Diffusion(拡散モデル)を使用し、生成的な方法(世界を理解するため)を使用する必要があります。」
VLAの誕生は、言語知能と空間知能を深く統合しようとする大胆な試みであるだけでなく、理想汽車による「インテリジェントカー」の概念の再解釈であると言えます。
李想は今夜のAI Talkでさらに次のように定義しました。「VLAは運転手大規模モデルであり、人間の運転手のように機能します。」それは単なるテクノロジーではなく、ユーザーと自然にコミュニケーションを取り、独立した意思決定を行うことができるインテリジェントなパートナーです。
では、VLAとは一体何なのでしょうか。その核心は非常に単純です。視覚的知覚、自然言語理解、および行動生成機能を統合することにより、車両は人々とコミュニケーションを取り、独自の意思決定を行うことができる「運転手エージェント」になります。
車に座って、「今日は少し疲れているので、ゆっくり運転して」と気軽に言うと、車両はあなたの意図を理解するだけでなく、速度を調整したり、よりスムーズなルートを選択したりすることも想像してみてください。この自然でスムーズなインタラクションこそが、VLAが達成したいことです。李想は、すべての短いコマンドは車両で直接処理され、複雑なコマンドはクラウドベースの32億パラメーターモデルによって解析され、効率と知能の両方を保証すると明らかにしました。
この目標を達成するのは簡単ではありません。VLAの特別な点は、視覚、言語、および行動の3つの次元を接続することです。ユーザーからの簡単なコマンドには、周囲の環境のリアルタイムな知覚、言語の意図の正確な理解、および運転行動の迅速な調整が含まれる場合があります。この3つは不可欠です。
そして、VLAの素晴らしい点は、これら3つがシームレスに連携できるようにすることです。
ビジョンから現実まで、VLAの研究開発は未開拓の領域です。李想は、「視覚および行動データの取得が最も困難です。どの企業もそれを置き換えることはできません。」と認めました。
VLAの技術的背景を理解するには、理想汽車のインテリジェント運転の進化にも目を向ける必要があります。
李想は、初期のシステムは「昆虫レベル」の知能であり、数百万のパラメーターしか持たず、ルールと高精度マップによって駆動され、複雑な道路状況に遭遇すると手助けにならなかったと述べました。その後、エンドツーエンドアーキテクチャと視覚言語モデルにより、テクノロジーは「哺乳類レベル」に飛躍し、地図への依存から脱却し、全国的な地図なしNOAが現実になりました。
実際、このステップにより、理想汽車はすでに業界の最前線に立っていますが、彼らは明らかにこれに満足していません。李想の見解では、VLAの出現は、理想汽車のインテリジェント運転技術が「人間の知能」の新しい段階に入ったことを示しています。
以前のシステムと比較して、VLAは3D物理世界を認識できるだけでなく、論理的推論を実行したり、人間レベルに近い運転行動を生成したりすることもできます。
簡単な例として、混雑した通りで「Uターンできる場所を探して」と言うと、VLAは機械的にコマンドを実行するのではなく、道路状況、交通の流れ、交通規則を総合的に考慮して、Uターンを完了するのに最も合理的な時間と場所を見つけます。
李想は、VLAはデータを生成することで新しいシナリオに迅速に適応でき、複雑な道路工事に初めて遭遇した場合でも、3日以内に応答を最適化できると述べました。この柔軟性と判断が、VLAのコアアドバンテージです。
理想汽車の先生はDeepSeek
VLAをサポートするのは、理想汽車が独自に開発した複雑で洗練された技術システムです。このシステムにより、車は世界を「理解」するだけでなく、人間の運転手のように考え、行動することができます。
最初は3Dガウス表現技術です。これは、多数の「ガウス点」を使用して3Dオブジェクトを作成します。各点には、独自の位置、色、およびサイズ情報が含まれています。このテクノロジーは、自己教師あり学習を使用して、大量のリアルデータを使用して強力な3D空間理解モデルをトレーニングします。これにより、VLAは人間のように周囲の世界を「理解」し、障害物がどこにあり、通行可能なエリアがどこにあるかを知ることができます。
次に、エキスパート混合(MoE)アーキテクチャがあります。これは、エキスパートネットワーク、ゲーティングネットワーク、およびコンバイナーで構成されています。モデルパラメーターが数百億を超えると、従来の方法ではすべてのニューロンが各計算に参加するため、リソースの浪費になります。MoEアーキテクチャのゲーティングネットワークは、異なるタスクに応じて異なるエキスパートを呼び出し、アクティベーションパラメーターが大幅に増加しないようにします。
これについて話すと、李想はDeepSeekを賞賛しました。
DeepSeekは、人類の最良の慣行を使用しています… DeepSeek V3を行っていたとき、V3もMoEであり、671Bモデルでした。MoEは非常に優れたアーキテクチャだと思います。それは、専門家をまとめて、それぞれが専門家の能力を持っているのと同じです。
最後に、理想汽車はVLAにSparse Attentionを導入しました。これは、平たく言うと、VLAがキーエリアの注意の重みを自動的に調整し、それによってエンド側の推論効率を向上させることを意味します。
李想は、この新しい基盤モデルのトレーニングプロセスで、理想汽車のエンジニアは最適なデータ比率を見つけ、自律走行に関連する大量の3Dデータとテキストおよび画像データを統合し、文学および歴史データの割合を減らすのに多くの時間を費やしたと述べました。
知覚から意思決定まで、VLAは人間の思考の高速と低速の組み合わせモードを利用しています。緊急回避などの単純な行動の決定を迅速に出力でき、短期的な思考チェーンを使用して「ゆっくりと考えて」、建設エリアを迂回するためのルートを一時的に計画するなど、より複雑なシナリオに対応することもできます。リアルタイムパフォーマンスをさらに向上させるために、VLAは投機的推論と並列デコード技術も導入し、車両側チップの計算能力を最大限に活用して、意思決定プロセスが高速で混乱しないようにします。
運転行動を生成するとき、VLAはDiffusionモデルとHuman Feedback(RLHF)からの強化学習を使用します。Diffusionモデルは最適化された運転軌跡の生成を担当し、RLHFはこれらの軌跡を人間の習慣に近づけ、安全で快適なものにします。たとえば、VLAは旋回時に自動的に減速したり、車線合流時に十分な安全距離を確保したりします。これらの詳細は、人間の運転行動の深い学習を反映しています。
ワールドモデルは、もう1つの重要なテクノロジーです。理想汽車は、シーンの再構築と生成を通じて、強化学習に高品質の仮想環境を提供します。李想は、ワールドモデルにより、10,000キロメートルあたりの検証コストが170,000〜180,000元から4,000元に削減されたと明らかにしました。これにより、VLAはシミュレーションで継続的に最適化し、複雑なシナリオに簡単に対応できます。
トレーニングについて言えば、VLAの成長プロセスも非常によく整理されています。プロセス全体は、事前トレーニング、事後トレーニング、および強化学習の3つの段階に分かれています。「事前トレーニングは知識の学習のようなもので、事後トレーニングは自動車教習所で運転を学ぶようなもので、強化学習は社会実践のようなものです」と李想は述べました。
事前トレーニング段階では、理想汽車はVLAの視覚言語基盤モデルを作成し、豊富な3D視覚データ、2D高解像度画像、および運転関連のコーパスを詰め込み、最初に「見て」「聞いて」学習できるようにします。トレーニング後、行動モジュールが追加され、4〜8秒の運転軌跡が生成され、モデルは32億パラメーターから40億に拡張されます。
強化学習は、最初にRLHFを使用して人間の習慣に合わせ、引き継ぎデータを分析し、安全性と快適性を確保するという2つのステップに分かれています。次に、純粋な強化学習を使用して、G値(快適性)、衝突、および交通規則のフィードバックに基づいて最適化し、VLAが「人間よりも上手く運転」できるようにします。李想は、この段階はワールドモデルで完了し、実際の交通シナリオをシミュレートし、効率は従来の検証よりもはるかに優れていると述べました。
このトレーニング方法は、技術的な進歩を保証するだけでなく、VLAを実際のアプリケーションで十分に信頼できるものにします。
李想は、VLAの成功は業界のベンチマークからのインスピレーションと切り離せないと認めました。DeepSeekのMoEアーキテクチャは、トレーニング効率を向上させるだけでなく、理想汽車に貴重な経験を提供しました。「私たちは巨人の肩の上に立って、VLAの研究開発を加速しています」と彼は嘆きました。このオープンな学習姿勢により、理想汽車は無人地帯でさらに前進することができます。
「情報ツール」から「生産ツール」へ
現在、AI業界は「情報ツール」から「生産ツール」への深い変革を遂げています。大規模モデル技術の成熟に伴い、AIはデータの処理と提案の提供に限定されなくなり、独立した意思決定を行い、タスクを実行する能力を持ち始めています。
李想はAI Talkの第2シーズンで、AIは情報ツール(検索など)、補助ツール(音声ナビゲーションなど)、および生産ツールに分類できると提案しました。彼は、「人工知能が生産ツールになる瞬間が真の勃発の瞬間です」と強調しました。大規模モデル技術の成熟に伴い、AIはデータの処理に限定されなくなり、独立した意思決定を行い、タスクを実行する能力を持ち始めています。
この傾向は、「具現化された知能」の概念で特に顕著です。AIシステムには物理的なエンティティが与えられ、環境を感知、理解、および対話することができます。
理想汽車のVLAモデルは、この傾向の鮮やかな実践です。視覚、言語、および行動知能を統合することにより、車を自律的に運転し、ユーザーと自然に対話できるインテリジェントなエージェントに変え、「具現化された知能」の中核概念を完璧に解釈します。
人間がプロの運転手を雇う限り、人工知能は生産ツールになることができます。AIが生産ツールになると、人工知能は本当に爆発します。
李想の発言は、VLAの中核となる価値を明らかにしました。それはもはや単純な補助ツールではなく、タスクを独立して実行し、責任を負うことができる「運転手エージェント」です。この変革は、車の実用的な価値を向上させるだけでなく、AIの他の分野への応用における想像力の余地を開きます。
李想のAIに関する考え方は、常に既成概念にとらわれない視点を持っています。彼はまた、「VLAは突然の変化プロセスではなく、進化のプロセスです」と述べました。この文章は、理想汽車の技術的な道を正確に要約しています。
初期のルール駆動から、エンドツーエンドのブレークスルー、そして今日のVLAの「人間の知能」レベルまで。この進化の思考は、VLAを技術的に実現可能にするだけでなく、業界に参照パラダイムを提供します。盲目的に転覆を追求するいくつかの試みと比較して、理想汽車の実用的な道は、複雑な中国市場により適している可能性があります。
テクノロジーから信念まで、理想汽車のAI探索はスムーズではありません。李想は、「AI分野で多くの課題を経験しました。それは夜明け前の暗闇のようですが、辛抱強く努力すれば、光が見えると信じています。」VLAの研究開発は、計算能力のボトルネックやデータの倫理などの問題に直面していますが、理想汽車は自社開発の基盤モデルとワールドモデルを通じて、徐々にテクノロジーの夜明けを迎えています。
李想はまた、インタビューで、VLAの成功は中国のAIの台頭と切り離せないと述べました。
彼は、DeepSeekやTongyi Qianwenなどのモデルの出現により、中国のAIレベルは急速に米国に近づいていると述べました。中でも、DeepSeekが支持するオープンソースの精神は特に心強く、理想汽車がXinghuan OSをオープンソース化することを直接促しました。李想は、「これは企業の戦略的考慮によるものではありません。DeepSeekは私たちに非常に多くの支援を与えてくれたので、社会に何か貢献すべきです」と述べました。
技術的なブレークスルーを追求しながら、理想汽車はAI技術の安全性と倫理的な問題を見過ごしていません。VLAが導入した「スーパーアライメント」技術により、Reinforcement Learning from Human Feedback(RLHF)を通じてモデルの行動が人間の習慣に近づきます。データによると、VLAの適用により、高速MPI(平均介入走行距離)は240kmから300kmに増加しました。
さらに重要なことに、理想汽車は「人間の価値観を持つAI」の構築を強調し、道徳と信頼を技術開発の基礎としています。よりマクロな視点から見ると、VLAの意義は、自動車会社の役割を再定義することにあります。
過去には、車は産業時代の輸送手段でした。今日、それらは人工知能時代の「空間ロボット」へと進化しています。李想はAI Talkで、「理想汽車はかつて車の無人地帯を歩んでいましたが、将来的には人工知能の無人地帯を歩むことになります」と述べました。理想汽車のこの変革は、自動車業界のビジネスモデルに新たな想像力の余地をもたらします。
もちろん、VLAの開発には課題がないわけではありません。計算能力の継続的な投資、データの倫理、および自律走行に対する消費者の信頼の確立は、理想汽車が直面する必要のあるすべての問題です。さらに、AI業界の競争はますます激化しています。Tesla、Waymo、OpenAIなどの国内外の巨人は、マルチモーダルモデルのレイアウトを加速しています。理想汽車は、技術の反復と市場のプロモーションにおいて主導的な地位を維持する必要があります。「私たちには近道はありません。深く耕すしかありません」と李想は述べました。
間違いなく、VLAの着陸は重要なノードになります。
理想汽車は、2025年7月に純粋な電気SUVである理想汽車i8と同時にVLAをリリースし、2026年に量産を達成する予定です。これは技術の包括的なテストであるだけでなく、市場の重要な試金石でもあります。