Bu yılın Mart ayında, NVIDIA’nın 2025 Bahar GTC konferansında, Li Auto’da Otonom Sürüş Teknolojisi Ar-Ge Başkanı Jia Peng, en son başarılarını tanıttı: MindVLA büyük modeli.
Bu model, 2,2 milyar parametreye sahip bir Vision-Language-Action Model (VLA) modelidir. Jia Peng ayrıca modelin araçlara başarıyla konuşlandırıldığını belirtti. Li Auto, VLA modellerinin, yapay zekanın fiziksel dünya ile etkileşimindeki zorlukları çözmek için en etkili yöntem olduğuna inanıyor.
Geçtiğimiz yıl, uçtan uca mimari, akıllı sürüş alanında teknolojik bir sıcak nokta haline geldi ve otomobil şirketlerini geleneksel modüler kural tasarımından entegre sistemlere geçmeye yöneltti. Daha önce kural tabanlı algoritmalarla lider olan otomobil şirketleri geçiş sancıları yaşarken, geç gelenler rekabet avantajı için fırsatı yakaladılar.
Li Auto, bunun en iyi örneğidir.
Li Auto’nun akıllı sürüşteki ilerlemesi geçen yıl hızlı olarak tanımlanabilir. Temmuz ayında, ülke çapında haritasız NOA’yı (Navigation on Autopilot) gerçekleştirmede başı çekti ve sektörde geniş ilgi gören benzersiz bir “uçtan uca (hızlı sistem) + VLM (yavaş sistem)” mimarisi başlattı.
Bu gece, Li Auto AI Talk’un ikinci sezonuyla, Li Xiang’ın bir "yapay zeka şirketi" olarak adlandırdığı şeyi daha derinlemesine anladık.
"Sürücü Büyük Modeli" Aynı Zamanda Sürücünüz
Li Auto CEO’su Li Xiang, VLA’dan ilk olarak geçen yılın Aralık ayında AI Talk’un ilk sezonunda, Tencent News’in baş teknoloji yazarı Zhang Xiaojun ile yaptığı bir sohbette bahsetmişti. O zaman şöyle demişti:
Li Auto Companion ve otonom sürüş ile yaptığımız şey aslında endüstri standartlarına göre ayrı ve ilk aşamalarda. Yaptığımız Mind GPT aslında büyük bir dil modeli; yaptığımız otonom sürüşe, dahili olarak davranışsal zeka diyoruz, ancak Li Feifei (Stanford Yaşam Boyu Profesörü, eski Google Baş Bilimcisi) tarafından tanımlandığı gibi, buna uzamsal zeka deniyor. Bunu gerçekten büyük ölçekte yaptığınızda, bunların ikisinin de bir gün kesinlikle bağlanacağını anlayacaksınız. Dahili olarak buna VLA (Vision Language Action Model) diyoruz.
Li Xiang, temel modelin kesinlikle belirli bir anda VLA olacağına inanıyor. Bunun nedeni, dil modellerinin üç boyutlu dünyayı yalnızca dil ve biliş yoluyla anlayabilmesidir, ki bu açıkça yeterli değildir. "Gerçekten vektör tabanlı, Diffusion (difüzyon modeli) kullanan ve üretken yöntemler kullanan (dünyayı anlamak için) olması gerekir."
VLA’nın doğuşunun, dil zekası ve uzamsal zekayı derinlemesine entegre etme cesur bir girişimi olmasının yanı sıra, Li Auto tarafından "akıllı araba" kavramının yeniden yorumlanması olduğu söylenebilir.
Li Xiang, bu geceki AI Talk’ta ayrıca şunu tanımladı: "VLA, insan bir sürücü gibi çalışan bir sürücü büyük modelidir." Bu sadece bir teknoloji değil, aynı zamanda kullanıcılarla doğal olarak iletişim kurabilen ve bağımsız kararlar alabilen akıllı bir ortaktır.
Peki, VLA tam olarak nedir? Çekirdek aslında çok basittir: görsel algılama, doğal dil anlama ve eylem üretme yeteneklerini entegre ederek, araç insanlarla iletişim kurabilen ve kendi kararlarını verebilen bir "sürücü aracısı" haline gelir.
Arabanızda oturduğunuzu ve gelişigüzel bir şekilde, "Bugün biraz yorgunum, daha yavaş sür," dediğinizi hayal edin ve araç sadece ne demek istediğinizi anlamakla kalmayacak, aynı zamanda hızını ayarlayacak ve hatta daha pürüzsüz bir rota seçecektir. Bu doğal ve pürüzsüz etkileşim, VLA’nın başarmak istediği şeydir. Li Xiang, tüm kısa komutların doğrudan araç tarafından işlendiğini, karmaşık komutların ise bulut tabanlı 3,2 milyar parametreli model tarafından ayrıştırıldığını ve hem verimliliğin hem de zekanın sağlandığını açıkladı.
Bu hedefe ulaşmak kolay değil. VLA’nın özelliği, vizyon, dil ve eylemin üç boyutunu birbirine bağlamasıdır. Kullanıcıdan gelen basit bir komut, çevredeki ortamın gerçek zamanlı algılanmasını, dil niyetinin doğru anlaşılmasını ve sürüş davranışının hızlı bir şekilde ayarlanmasını içerebilir. Üçü de vazgeçilmezdir.
VLA’nın harika yanı, bu üçünün sorunsuz bir şekilde birlikte çalışmasını sağlamasıdır.
Vizyondan gerçeğe, VLA’nın Ar-Ge’si keşfedilmemiş bir bölgedir. Li Xiang şunları kabul etti: "Görsel ve eylem verilerinin elde edilmesi en zor olanıdır. Hiçbir şirket bunun yerini alamaz."
VLA’nın teknik altyapısını anlamak için, Li Auto’nun akıllı sürüşünün evrimine de bakmalıyız.
Li Xiang, erken sistemin sadece milyonlarca parametreye sahip, kurallar ve yüksek hassasiyetli haritalar tarafından yönlendirilen ve karmaşık yol koşullarıyla karşılaşıldığında çaresiz kalan "böcek düzeyinde" zeka olduğunu söyledi. Daha sonra, uçtan uca mimari ve görsel-dil modelleri, teknolojinin "memeli düzeyine" sıçramasına, harita bağımlılığından kurtulmasına ve ülke çapında haritasız NOA’nın gerçeğe dönüşmesine izin verdi.
Aslında, bu adım zaten Li Auto’yu sektörün ön saflarına yerleştirdi, ancak açıkça bundan memnun değiller. Li Xiang’ın görüşüne göre, VLA’nın ortaya çıkışı, Li Auto’nun akıllı sürüş teknolojisinin "insan zekası" yeni bir aşamasına girdiğini gösteriyor.
Önceki sistemle karşılaştırıldığında, VLA sadece 3 boyutlu fiziksel dünyayı algılamakla kalmıyor, aynı zamanda mantıksal akıl yürütme ve hatta insan seviyesine yakın sürüş davranışları üretebiliyor.
Basit bir örnek vermek gerekirse, kalabalık bir caddede "geri dönecek bir yer bul" dediğinizi varsayalım, VLA komutu mekanik olarak yürütmeyecek, ancak U dönüşünü tamamlamak için en makul zamanı ve yeri bulmak için yol koşullarını, trafik akışını ve trafik kurallarını kapsamlı bir şekilde değerlendirecektir.
Li Xiang, VLA’nın veri üreterek yeni senaryolara hızla adapte olabileceğini ve üç gün içinde karmaşık yol onarımlarıyla ilk kez karşılaştığında bile yanıtları optimize edebileceğini söyledi. Bu esneklik ve muhakeme, VLA’nın temel avantajlarıdır.
Li Auto’nun Öğretmeni DeepSeek
VLA’yı destekleyen, Li Auto tarafından bağımsız olarak geliştirilen karmaşık ve sofistike bir teknik sistemdir. Bu sistem, arabanın sadece dünyayı "anlamasına" değil, aynı zamanda insan bir sürücü gibi düşünmesine ve hareket etmesine de olanak tanır.
İlki, birçok "Gauss noktası" kullanarak 3 boyutlu bir nesne oluşturan 3D Gauss gösterim teknolojisidir. Her nokta, kendi konumunu, rengini ve boyut bilgilerini içerir. Bu teknoloji, devasa gerçek verileri kullanarak güçlü bir 3D uzamsal anlama modeli eğitmek için kendi kendine denetimli öğrenmeyi kullanır. Bununla, VLA, engellerin nerede olduğunu ve geçilebilir alanların nerede olduğunu bilerek çevredeki dünyayı bir insan gibi "anlayabilir".
Bir sonraki, uzman ağlarından, geçiş ağlarından ve birleştiricilerden oluşan Uzmanlar Karışımı (MoE) mimarisidir. Model parametreleri yüz milyarları aştığında, geleneksel yöntem tüm nöronların her hesaplamaya katılmasını sağlayacaktır, bu da kaynak israfıdır. MoE mimarisindeki geçiş ağı, aktivasyon parametrelerinin önemli ölçüde artmamasını sağlamak için farklı görevlere göre farklı uzmanları çağıracaktır.
Li Xiang bundan bahsederken DeepSeek’i de övdü:
DeepSeek, insanlığın en iyi uygulamalarını kullanıyor… DeepSeek V3’ü yaparken, V3 de bir MoE, 671B modeliydi. Bence MoE çok iyi bir mimari. Bir araya getirilmiş bir sürü uzmana eşdeğerdir ve her biri uzman bir yetenektir.
Son olarak, Li Auto, VLA’ya Seyrek Dikkat getirdi, bu da genel bir ifadeyle VLA’nın önemli alanların dikkat ağırlıklarını otomatik olarak ayarlayacağı, böylece uç tarafının çıkarım verimliliğini artıracağı anlamına geliyor.
Li Xiang, bu yeni temel modelin eğitim sürecinde, Li Auto’nun mühendislerinin en iyi veri oranını bulmak, çok miktarda 3D veriyi ve otonom sürüşle ilgili metin ve görüntü verilerini entegre etmek ve edebi ve tarihi verilerin oranını azaltmak için çok zaman harcadığını söyledi.
Algıdan karar almaya kadar, VLA insan düşüncesinin hızlı ve yavaş kombinasyon modundan yararlanır. Acil durumdan kaçınma gibi basit eylem kararlarını hızla verebilir ve ayrıca inşaat alanını geçici olarak geçmek için bir rota planlamak gibi daha karmaşık senaryolarla başa çıkmak için kısa düşünce zincirlerini kullanarak "yavaşça düşünebilir". Gerçek zamanlı performansı daha da artırmak için, VLA ayrıca spekülatif akıl yürütme ve paralel kod çözme teknolojisini de sunarak, karar alma sürecinin hızlı ve karmaşık olmamasını sağlamak için araç tarafı çipinin işlem gücünden tam olarak yararlanır.
Sürüş davranışı üretirken, VLA Diffusion modellerini ve İnsan Geri Bildiriminden Takviyeli Öğrenmeyi (RLHF) kullanır. Diffusion modeli, optimize edilmiş sürüş yörüngeleri üretmekten sorumluyken, RLHF bu yörüngeleri insan alışkanlıklarına daha yakın, hem güvenli hem de konforlu hale getirir. Örneğin, VLA dönerken otomatik olarak yavaşlayacak veya şeritleri birleştirirken yeterli güvenli mesafe bırakacaktır. Bu ayrıntılar, insan sürüş davranışının derinlemesine öğrenilmesini yansıtır.
Dünya modeli bir diğer önemli teknolojidir. Li Auto, sahne rekonstrüksiyonu ve üretimi yoluyla takviyeli öğrenme için yüksek kaliteli bir sanal ortam sağlar. Li Xiang, dünya modelinin doğrulama maliyetini 10.000 kilometrede 170.000-180.000 yuan’dan 4.000 yuan’a düşürdüğünü açıkladı. VLA’nın simülasyonda sürekli olarak optimize edilmesine ve karmaşık senaryolarla kolaylıkla başa çıkmasına olanak tanır.
Eğitimden bahsetmişken, VLA’nın büyüme süreci de oldukça organize. Tüm süreç üç aşamaya ayrılmıştır: ön eğitim, son eğitim ve takviyeli öğrenme. Li Xiang, "Ön eğitim bilgi öğrenmek gibidir, son eğitim bir sürüş okulunda sürüş öğrenmek gibidir ve takviyeli öğrenme sosyal pratik gibidir," dedi.
Ön eğitim aşamasında, Li Auto, VLA için zengin 3D görsel verileri, 2D yüksek çözünürlüklü görüntüleri ve sürüşle ilgili korpusları doldurarak, önce "görmeyi" ve "duymayı" öğrenmesine olanak tanıyan bir görsel-dil temel modeli oluşturdu; eğitimden sonra, eylem modülü eklenir, 4-8 saniyelik sürüş yörüngeleri oluşturulur ve model 3,2 milyar parametreden 4 milyara çıkar.
Takviyeli öğrenme iki adıma ayrılmıştır: İlk olarak, insan alışkanlıklarını uyumlu hale getirmek, devralma verilerini analiz etmek ve güvenlik ve konfor sağlamak için RLHF’yi kullanın; ardından, G değeri (konfor), çarpışma ve trafik kuralları geri bildirimine dayalı olarak optimize etmek için saf takviyeli öğrenmeyi kullanın, böylece VLA "insanlardan daha iyi sürer". Li Xiang, bu aşamanın dünya modelinde tamamlandığını, gerçek trafik senaryolarını simüle ettiğini ve verimliliğin geleneksel doğrulamadan çok daha iyi olduğunu belirtti.
Bu eğitim yöntemi sadece teknik ilerlemeyi garanti etmekle kalmaz, aynı zamanda VLA’yı pratik uygulamalarda yeterince güvenilir kılar.
Li Xiang, VLA’nın başarısının endüstri kıyaslama noktalarından alınan ilhamdan ayrılamayacağını kabul etti. DeepSeek’in MoE mimarisi sadece eğitim verimliliğini artırmakla kalmadı, aynı zamanda Li Auto için değerli deneyimler sağladı. Şöyle yakındı: "Devlerin omuzlarında duruyoruz ve VLA’nın Ar-Ge’sini hızlandırıyoruz." Bu açık öğrenme tutumu, Li Auto’nun kimsenin olmadığı topraklarda daha ileri gitmesine olanak tanır.
"Bilgi Araçlarından" "Üretim Araçlarına"
Şu anda, yapay zeka endüstrisi "bilgi araçlarından" "üretim araçlarına" doğru derin bir dönüşüm geçiriyor. Büyük model teknolojisinin olgunlaşmasıyla birlikte, yapay zeka artık sadece verileri işlemek ve önerilerde bulunmakla sınırlı değil, bağımsız kararlar alma ve görevleri yerine getirme yeteneğine sahip olmaya başlıyor.
Li Xiang, AI Talk’un ikinci sezonunda yapay zekanın bilgi araçlarına (arama gibi), yardımcı araçlara (sesli navigasyon gibi) ve üretim araçlarına ayrılabileceğini öne sürdü. Şunları vurguladı: "Yapay zekanın bir üretim aracı haline gelmesi, gerçek patlamanın anıdır." Büyük model teknolojisinin olgunlaşmasıyla birlikte, yapay zeka artık sadece verileri işlemekle sınırlı değil, bağımsız kararlar alma ve görevleri yerine getirme yeteneğine sahip olmaya başlıyor.
Bu eğilim, özellikle "somut zeka" kavramında belirgindir - yapay zeka sistemlerine, çevreyi algılayabilen, anlayabilen ve etkileşimde bulunabilen fiziksel varlıklar verilir.
Li Auto’nun VLA modeli, bu eğilimin canlı bir uygulamasıdır. Vizyonu, dili ve eylem zekasını entegre ederek, arabayı otonom olarak sürüş yapabilen ve kullanıcılarla doğal olarak etkileşim kurabilen akıllı bir aracıya dönüştürerek, "somut zeka" nın temel kavramını mükemmel bir şekilde yorumlar.
İnsanlar profesyonel sürücüler işe aldığı sürece, yapay zeka bir üretim aracı haline gelebilir. Yapay zeka bir üretim aracı haline geldiğinde, yapay zeka gerçekten patlayacaktır.
Li Xiang’ın sözleri, VLA’nın temel değerini açıklığa kavuşturdu - artık basit bir yardımcı araç değil, bağımsız olarak görevleri yerine getirebilen ve sorumluluklar üstlenebilen bir "sürücü aracısı". Bu dönüşüm sadece arabaların pratik değerini artırmakla kalmaz, aynı zamanda yapay zekanın diğer alanlardaki uygulaması için de hayal gücü alanı açar.
Li Xiang’ın yapay zeka hakkındaki düşünceleri her zaman kalıpların dışına çıkan bir bakış açısına sahiptir. Ayrıca şunları da belirtti: "VLA ani bir değişim süreci değil, bir evrim sürecidir." Bu cümle, Li Auto’nun teknik yolunu doğru bir şekilde özetliyor -
Erken kural tabanlıdan, uçtan uca atılımlara ve günümüz VLA’sının "insan zekası" düzeyine kadar. Bu evrimsel düşünce sadece VLA’yı teknolojide daha uygulanabilir kılmakla kalmaz, aynı zamanda endüstri için de bir referans paradigması sağlar. Bazı altüst etme girişimleriyle karşılaştırıldığında, Li Auto’nun pragmatik yolu karmaşık Çin pazarı için daha uygun olabilir.
Teknolojiden inanca, Li Auto’nun yapay zeka keşfi sorunsuz değil. Li Xiang şunları kabul etti: "Yapay zeka alanında, şafaktan önceki karanlık gibi birçok zorluk yaşadık, ancak sebat edersek ışığı göreceğimize inanıyoruz." VLA’nın Ar-Ge’si işlem gücü darboğazları ve veri etiği gibi sorunlarla karşı karşıya, ancak Li Auto kendi geliştirdiği temel modeller ve dünya modelleri aracılığıyla teknolojik şafaklarını yavaş yavaş karşılıyor.
Li Xiang ayrıca röportajda VLA’nın başarısının Çin yapay zekasının yükselişinden ayrılamayacağını da belirtti.
DeepSeek ve Tongyi Qianwen gibi modellerin ortaya çıkmasının, Çin’in yapay zeka seviyesini hızla Amerika Birleşik Devletleri’ne yaklaştırdığını söyledi. Bunların arasında, DeepSeek’in benimsediği açık kaynak ruhu özellikle cesaret vericiydi, bu da doğrudan Li Auto’yu Xinghuan OS’yi açık kaynaklı hale getirmeye yöneltti. Li Xiang şunları söyledi: "Bu şirket stratejik düşüncelerden kaynaklanmıyor. DeepSeek bize çok yardım etti, topluma bir şeyler katmalıyız."
Li Auto, teknolojik atılımlar peşinde koşarken, yapay zeka teknolojisinin güvenlik ve etik sorunlarını göz ardı etmedi. VLA tarafından sunulan "süper uyum" teknolojisi, İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) yoluyla modelin davranışını insan alışkanlıklarına daha yakın hale getirir. Veriler, VLA’nın uygulanmasının yüksek hızlı MPI’yi (ortalama müdahale kilometresi) 240 km’den 300 km’ye çıkardığını gösteriyor.
Daha da önemlisi, Li Auto "insan değerlerine sahip yapay zeka" inşa etmeyi vurguluyor ve ahlakı ve güveni teknolojik gelişimin temel taşı olarak görüyor. Daha makro bir bakış açısından, VLA’nın önemi, otomobil şirketlerinin rolünü yeniden tanımlamasında yatıyor.
Geçmişte, arabalar sanayi çağı ulaşım araçlarıydı; bugün, yapay zeka çağında "uzamsal robotlara" dönüşüyorlar. Li Xiang, AI Talk’ta şunları belirtti: "Li Auto eskiden arabaların kimsenin olmadığı topraklarında yürüyordu ve gelecekte yapay zekanın kimsenin olmadığı topraklarında yürüyecek." Li Auto’nun bu dönüşümü, otomotiv endüstrisinin iş modeline yeni hayal gücü alanı getiriyor.
Elbette, VLA’nın geliştirilmesi zorluklardan yoksun değil. İşlem gücünün sürekli yatırımı, veri etiği ve tüketicilerin otonom sürüşe olan güveninin sağlanması, Li Auto’nun ele alması gereken konulardır. Ek olarak, yapay zeka endüstrisindeki rekabet giderek artıyor. Tesla, Waymo ve OpenAI gibi yerli ve yabancı devler, çok modlu modellerin yerleşimini hızlandırıyor. Li Auto’nun teknoloji yinelemesi ve pazar tanıtımında lider konumunu koruması gerekiyor. Li Xiang, "Kısa yollarımız yok, sadece derinden yetiştirebiliriz," dedi.
Kuşkusuz, VLA’nın piyasaya sürülmesi önemli bir düğüm olacaktır.
Li Auto, VLA’yı aynı anda Temmuz 2025’te tamamen elektrikli SUV Li Auto i8 ile birlikte piyasaya sürmeyi ve 2026’da seri üretime geçmeyi planlıyor. Bu sadece teknolojinin kapsamlı bir testi değil, aynı zamanda pazar için önemli bir mihenk taşıdır.