ਮਾਰਚ ਵਿੱਚ ਇਸ ਸਾਲ, NVIDIA ਦੀ 2025 ਸਪਰਿੰਗ GTC ਕਾਨਫਰੰਸ ਵਿੱਚ, Li Auto ਦੇ ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ ਟੈਕਨਾਲੋਜੀ R&D ਦੇ ਮੁਖੀ, ਜਿਆ ਪੇਂਗ ਨੇ ਆਪਣੀ ਨਵੀਨਤਮ ਪ੍ਰਾਪਤੀ ਪੇਸ਼ ਕੀਤੀ: MindVLA ਵੱਡਾ ਮਾਡਲ।
ਇਹ ਮਾਡਲ ਇੱਕ ਵਿਜ਼ਨ-ਲੈਂਗੂਏਜ-ਐਕਸ਼ਨ ਮਾਡਲ (VLA) ਹੈ ਜਿਸ ਵਿੱਚ 2.2 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਹਨ। ਜਿਆ ਪੇਂਗ ਨੇ ਅੱਗੇ ਕਿਹਾ ਕਿ ਉਹਨਾਂ ਨੇ ਸਫਲਤਾਪੂਰਵਕ ਵਾਹਨਾਂ ਵਿੱਚ ਮਾਡਲ ਤਾਇਨਾਤ ਕੀਤਾ ਹੈ। Li Auto ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ VLA ਮਾਡਲ AI ਦੁਆਰਾ ਭੌਤਿਕ ਸੰਸਾਰ ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਹੈ।
ਪਿਛਲੇ ਸਾਲ ਦੌਰਾਨ, ਐਂਡ-ਟੂ-ਐਂਡ ਆਰਕੀਟੈਕਚਰ ਬੁੱਧੀਮਾਨ ਡਰਾਈਵਿੰਗ ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਤਕਨੀਕੀ ਹੌਟਸਪੌਟ ਬਣ ਗਿਆ ਹੈ, ਜੋ ਕਾਰ ਕੰਪਨੀਆਂ ਨੂੰ ਰਵਾਇਤੀ ਮਾਡਿਊਲਰ ਨਿਯਮ ਡਿਜ਼ਾਈਨ ਤੋਂ ਏਕੀਕ੍ਰਿਤ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਤਬਦੀਲ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕਰਦਾ ਹੈ। ਕਾਰ ਕੰਪਨੀਆਂ ਜੋ ਪਹਿਲਾਂ ਨਿਯਮ-ਅਧਾਰਤ ਐਲਗੋਰਿਦਮ ਨਾਲ ਅਗਵਾਈ ਕਰਦੀਆਂ ਸਨ, ਨੂੰ ਤਬਦੀਲੀ ਦੇ ਦਰਦ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਦੇਰ ਨਾਲ ਆਉਣ ਵਾਲਿਆਂ ਨੇ ਇੱਕ ਪ੍ਰਤੀਯੋਗੀ ਫਾਇਦੇ ਲਈ ਮੌਕੇ ਦਾ ਫਾਇਦਾ ਉਠਾਇਆ ਹੈ।
Li Auto ਇਸਦੀ ਇੱਕ ਪ੍ਰਮੁੱਖ ਉਦਾਹਰਣ ਹੈ।
ਪਿਛਲੇ ਸਾਲ ਬੁੱਧੀਮਾਨ ਡਰਾਈਵਿੰਗ ਵਿੱਚ Li Auto ਦੀ ਤਰੱਕੀ ਨੂੰ ਤੇਜ਼ ਦੱਸਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਜੁਲਾਈ ਵਿੱਚ, ਇਸਨੇ ਦੇਸ਼ ਵਿਆਪੀ ਨੋ-ਮੈਪ NOA (Navigation on Autopilot) ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਅਗਵਾਈ ਕੀਤੀ ਅਤੇ ਇੱਕ ਵਿਲੱਖਣ "ਐਂਡ-ਟੂ-ਐਂਡ (ਤੇਜ਼ ਸਿਸਟਮ) + VLM (ਹੌਲੀ ਸਿਸਟਮ)" ਆਰਕੀਟੈਕਚਰ ਲਾਂਚ ਕੀਤਾ, ਜਿਸਨੂੰ ਉਦਯੋਗ ਵਿੱਚ ਵਿਆਪਕ ਧਿਆਨ ਮਿਲਿਆ ਹੈ।
ਅੱਜ ਰਾਤ, Li Auto AI Talk ਦੇ ਦੂਜੇ ਸੀਜ਼ਨ ਦੇ ਨਾਲ, ਸਾਨੂੰ ਇਸ ਬਾਰੇ ਡੂੰਘਾਈ ਨਾਲ ਸਮਝ ਪ੍ਰਾਪਤ ਹੋਈ ਹੈ ਕਿ Li Xiang ਜਿਸਨੂੰ ਇੱਕ "ਨਕਲੀ ਬੁੱਧੀ ਕੰਪਨੀ" ਕਹਿੰਦੇ ਹਨ।
"ਡਰਾਈਵਰ ਵੱਡਾ ਮਾਡਲ" ਤੁਹਾਡਾ ਡਰਾਈਵਰ ਵੀ ਹੈ
Li Auto ਦੇ CEO, Li Xiang ਨੇ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਪਿਛਲੇ ਸਾਲ ਦਸੰਬਰ ਵਿੱਚ AI Talk ਦੇ ਪਹਿਲੇ ਸੀਜ਼ਨ ਵਿੱਚ VLA ਦਾ ਜ਼ਿਕਰ ਕੀਤਾ, Tencent News ਦੇ ਮੁੱਖ ਤਕਨੀਕੀ ਲੇਖਕ, Zhang Xiaojun ਨਾਲ ਗੱਲਬਾਤ ਵਿੱਚ। ਉਸ ਸਮੇਂ, ਉਸਨੇ ਕਿਹਾ:
ਅਸੀਂ Li Auto Companion ਅਤੇ ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ ਨਾਲ ਜੋ ਕਰ ਰਹੇ ਹਾਂ, ਉਹ ਅਸਲ ਵਿੱਚ ਉਦਯੋਗ ਦੇ ਮਿਆਰਾਂ ਅਨੁਸਾਰ ਵੱਖਰਾ ਹੈ, ਅਤੇ ਇਹ ਸ਼ੁਰੂਆਤੀ ਪੜਾਵਾਂ ਵਿੱਚ ਹੈ। Mind GPT ਜੋ ਅਸੀਂ ਕਰ ਰਹੇ ਹਾਂ, ਉਹ ਅਸਲ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ ਹੈ; ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ ਜੋ ਅਸੀਂ ਕਰ ਰਹੇ ਹਾਂ, ਅਸੀਂ ਇਸਨੂੰ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਵਿਵਹਾਰਕ ਬੁੱਧੀ ਕਹਿੰਦੇ ਹਾਂ, ਪਰ Li Feifei (ਸਟੈਨਫੋਰਡ ਲਾਈਫਟਾਈਮ ਪ੍ਰੋਫੈਸਰ, ਸਾਬਕਾ ਗੂਗਲ ਚੀਫ ਸਾਇੰਟਿਸਟ) ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤੇ ਅਨੁਸਾਰ, ਇਸਨੂੰ ਸਪੈਸ਼ਲ ਬੁੱਧੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਸਿਰਫ ਤਾਂ ਹੀ ਜਦੋਂ ਤੁਸੀਂ ਇਸਨੂੰ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਕਰਦੇ ਹੋ ਤਾਂ ਤੁਹਾਨੂੰ ਪਤਾ ਲੱਗੇਗਾ ਕਿ ਇਹ ਦੋਵੇਂ ਇੱਕ ਦਿਨ ਜ਼ਰੂਰ ਜੁੜਨਗੇ। ਅਸੀਂ ਇਸਨੂੰ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ VLA (ਵਿਜ਼ਨ ਲੈਂਗੂਏਜ ਐਕਸ਼ਨ ਮਾਡਲ) ਕਹਿੰਦੇ ਹਾਂ।
Li Xiang ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ ਬੇਸ ਮਾਡਲ ਇੱਕ ਨਿਸ਼ਚਿਤ ਪਲ ‘ਤੇ VLA ਬਣ ਜਾਵੇਗਾ। ਕਾਰਨ ਇਹ ਹੈ ਕਿ ਭਾਸ਼ਾ ਮਾਡਲ ਸਿਰਫ ਭਾਸ਼ਾ ਅਤੇ ਗਿਆਨ ਦੁਆਰਾ ਤਿੰਨ-ਅਯਾਮੀ ਸੰਸਾਰ ਨੂੰ ਸਮਝ ਸਕਦੇ ਹਨ, ਜੋ ਕਿ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। "ਇਸਨੂੰ ਸੱਚਮੁੱਚ ਵੈਕਟਰ-ਅਧਾਰਤ ਹੋਣ ਦੀ ਲੋੜ ਹੈ, ਡਿਫਿਊਜ਼ਨ (ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਅਤੇ ਜੈਨੇਰੇਟਿਵ ਵਿਧੀਆਂ (ਦੁਨੀਆ ਨੂੰ ਸਮਝਣ ਲਈ) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ।"
ਇਹ ਕਿਹਾ ਜਾ ਸਕਦਾ ਹੈ ਕਿ VLA ਦਾ ਜਨਮ ਨਾ ਸਿਰਫ ਭਾਸ਼ਾ ਬੁੱਧੀ ਅਤੇ ਸਪੈਸ਼ਲ ਬੁੱਧੀ ਨੂੰ ਡੂੰਘਾਈ ਨਾਲ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਦੀ ਇੱਕ ਦਲੇਰ ਕੋਸ਼ਿਸ਼ ਹੈ, ਬਲਕਿ Li Auto ਦੁਆਰਾ "ਬੁੱਧੀਮਾਨ ਕਾਰ" ਦੀ ਧਾਰਨਾ ਦੀ ਮੁੜ ਵਿਆਖਿਆ ਵੀ ਹੈ।
Li Xiang ਨੇ ਅੱਜ ਰਾਤ ਦੇ AI Talk ਵਿੱਚ ਅੱਗੇ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ: "VLA ਇੱਕ ਡਰਾਈਵਰ ਵੱਡਾ ਮਾਡਲ ਹੈ, ਜੋ ਇੱਕ ਮਨੁੱਖੀ ਡਰਾਈਵਰ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ।" ਇਹ ਸਿਰਫ ਇੱਕ ਤਕਨਾਲੋਜੀ ਨਹੀਂ ਹੈ, ਬਲਕਿ ਇੱਕ ਬੁੱਧੀਮਾਨ ਭਾਈਵਾਲ ਵੀ ਹੈ ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਸੰਚਾਰ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਸੁਤੰਤਰ ਫੈਸਲੇ ਲੈ ਸਕਦਾ ਹੈ।
ਤਾਂ, VLA ਅਸਲ ਵਿੱਚ ਕੀ ਹੈ? ਕੋਰ ਅਸਲ ਵਿੱਚ ਬਹੁਤ ਸਿੱਧਾ ਹੈ: ਵਿਜ਼ੂਅਲ ਧਾਰਨਾ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਸਮਝ, ਅਤੇ ਐਕਸ਼ਨ ਜਨਰੇਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਕੇ, ਵਾਹਨ ਇੱਕ "ਡਰਾਈਵਰ ਏਜੰਟ" ਬਣ ਜਾਂਦਾ ਹੈ ਜੋ ਲੋਕਾਂ ਨਾਲ ਸੰਚਾਰ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਆਪਣੇ ਫੈਸਲੇ ਲੈ ਸਕਦਾ ਹੈ।
ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਸੀਂ ਆਪਣੀ ਕਾਰ ਵਿੱਚ ਬੈਠੇ ਹੋ ਅਤੇ ਆਮ ਤੌਰ ‘ਤੇ ਕਹਿ ਰਹੇ ਹੋ, "ਮੈਂ ਅੱਜ ਥੋੜਾ ਥੱਕਿਆ ਹੋਇਆ ਹਾਂ, ਹੌਲੀ ਚਲਾਓ," ਅਤੇ ਵਾਹਨ ਨਾ ਸਿਰਫ ਇਹ ਸਮਝੇਗਾ ਕਿ ਤੁਹਾਡਾ ਕੀ ਮਤਲਬ ਹੈ, ਸਗੋਂ ਆਪਣੀ ਗਤੀ ਨੂੰ ਵੀ ਅਨੁਕੂਲ ਕਰੇਗਾ ਅਤੇ ਇੱਕ ਨਿਰਵਿਘਨ ਰੂਟ ਵੀ ਚੁਣੇਗਾ। ਇਹ ਕੁਦਰਤੀ ਅਤੇ ਨਿਰਵਿਘਨ ਗੱਲਬਾਤ ਬਿਲਕੁਲ ਉਹੀ ਹੈ ਜੋ VLA ਪ੍ਰਾਪਤ ਕਰਨਾ ਚਾਹੁੰਦਾ ਹੈ। Li Xiang ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਸਾਰੇ ਛੋਟੇ ਕਮਾਂਡ ਸਿੱਧੇ ਵਾਹਨ ਦੁਆਰਾ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਗੁੰਝਲਦਾਰ ਕਮਾਂਡ ਕਲਾਉਡ-ਅਧਾਰਤ 3.2 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਦੁਆਰਾ ਪਾਰਸ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਜੋ ਕੁਸ਼ਲਤਾ ਅਤੇ ਬੁੱਧੀ ਦੋਵਾਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।
ਇਸ ਟੀਚੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਆਸਾਨ ਨਹੀਂ ਹੈ। VLA ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਇਹ ਹੈ ਕਿ ਇਹ ਦ੍ਰਿਸ਼ਟੀ, ਭਾਸ਼ਾ ਅਤੇ ਕਿਰਿਆ ਦੇ ਤਿੰਨ ਪਹਿਲੂਆਂ ਨੂੰ ਜੋੜਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਤੋਂ ਇੱਕ ਸਧਾਰਨ ਕਮਾਂਡ ਵਿੱਚ ਆਲੇ ਦੁਆਲੇ ਦੇ ਵਾਤਾਵਰਣ ਦੀ ਰੀਅਲ-ਟਾਈਮ ਧਾਰਨਾ, ਭਾਸ਼ਾ ਦੇ ਇਰਾਦੇ ਦੀ ਸਹੀ ਸਮਝ, ਅਤੇ ਡ੍ਰਾਇਵਿੰਗ ਵਿਵਹਾਰ ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਿਵਸਥਾ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀ ਹੈ। ਤਿੰਨਾਂ ਨੂੰ ਛੱਡਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ।
ਅਤੇ VLA ਦੀ ਮਹਾਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਇਹਨਾਂ ਤਿੰਨਾਂ ਨੂੰ ਇਕੱਠੇ ਮਿਲ ਕੇ ਕੰਮ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਦ੍ਰਿਸ਼ਟੀ ਤੋਂ ਹਕੀਕਤ ਤੱਕ, VLA ਦੀ R&D ਇੱਕ ਅਣਚਾਰਟਡ ਖੇਤਰ ਹੈ। Li Xiang ਨੇ ਮੰਨਿਆ: "ਵਿਜ਼ੂਅਲ ਅਤੇ ਐਕਸ਼ਨ ਡੇਟਾ ਦੀ ਪ੍ਰਾਪਤੀ ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ ਹੈ। ਕੋਈ ਵੀ ਕੰਪਨੀ ਇਸਨੂੰ ਬਦਲ ਨਹੀਂ ਸਕਦੀ।"
VLA ਦੀ ਤਕਨੀਕੀ ਪਿਛੋਕੜ ਨੂੰ ਸਮਝਣ ਲਈ, ਸਾਨੂੰ Li Auto ਦੀ ਬੁੱਧੀਮਾਨ ਡਰਾਈਵਿੰਗ ਦੇ ਵਿਕਾਸ ‘ਤੇ ਵੀ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ।
Li Xiang ਨੇ ਕਿਹਾ ਕਿ ਸ਼ੁਰੂਆਤੀ ਸਿਸਟਮ "ਕੀਟ-ਪੱਧਰ" ਦੀ ਬੁੱਧੀ ਸੀ, ਜਿਸ ਵਿੱਚ ਸਿਰਫ ਲੱਖਾਂ ਪੈਰਾਮੀਟਰ ਸਨ, ਜੋ ਨਿਯਮਾਂ ਅਤੇ ਉੱਚ-ਸ਼ੁੱਧਤਾ ਵਾਲੇ ਨਕਸ਼ਿਆਂ ਦੁਆਰਾ ਚਲਾਏ ਜਾਂਦੇ ਸਨ, ਅਤੇ ਗੁੰਝਲਦਾਰ ਸੜਕ ਦੀਆਂ ਸਥਿਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ‘ਤੇ ਬੇਵੱਸ ਸੀ। ਬਾਅਦ ਵਿੱਚ, ਐਂਡ-ਟੂ-ਐਂਡ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਵਿਜ਼ੂਅਲ-ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੇ ਤਕਨਾਲੋਜੀ ਨੂੰ "ਥਣਧਾਰੀ-ਪੱਧਰ" ਤੱਕ ਛਾਲ ਮਾਰਨ, ਨਕਸ਼ੇ ਦੀ ਨਿਰਭਰਤਾ ਤੋਂ ਛੁਟਕਾਰਾ ਪਾਉਣ ਅਤੇ ਦੇਸ਼ ਵਿਆਪੀ ਨੋ-ਮੈਪ NOA ਨੂੰ ਹਕੀਕਤ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ।
ਅਸਲ ਵਿੱਚ, ਇਸ ਕਦਮ ਨੇ ਪਹਿਲਾਂ ਹੀ Li Auto ਨੂੰ ਉਦਯੋਗ ਵਿੱਚ ਸਭ ਤੋਂ ਅੱਗੇ ਰੱਖ ਦਿੱਤਾ ਹੈ, ਪਰ ਉਹ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਸ ਤੋਂ ਸੰਤੁਸ਼ਟ ਨਹੀਂ ਹਨ। Li Xiang ਦੇ ਵਿਚਾਰ ਵਿੱਚ, VLA ਦੇ ਉਭਾਰ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ Li Auto ਦੀ ਬੁੱਧੀਮਾਨ ਡਰਾਈਵਿੰਗ ਤਕਨਾਲੋਜੀ "ਮਨੁੱਖੀ ਬੁੱਧੀ" ਦੇ ਇੱਕ ਨਵੇਂ ਪੜਾਅ ਵਿੱਚ ਦਾਖਲ ਹੋ ਗਈ ਹੈ।
ਪਿਛਲੇ ਸਿਸਟਮ ਦੇ ਮੁਕਾਬਲੇ, VLA ਨਾ ਸਿਰਫ 3D ਭੌਤਿਕ ਸੰਸਾਰ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ, ਸਗੋਂ ਤਰਕਪੂਰਨ ਤਰਕ ਵੀ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਮਨੁੱਖੀ ਪੱਧਰ ਦੇ ਨੇੜੇ ਡ੍ਰਾਇਵਿੰਗ ਵਿਵਹਾਰ ਵੀ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ।
ਇੱਕ ਸਧਾਰਨ ਉਦਾਹਰਣ ਦੇ ਲਈ, ਮੰਨ ਲਓ ਕਿ ਤੁਸੀਂ ਇੱਕ ਭੀੜ-ਭੜੱਕੇ ਵਾਲੀ ਸੜਕ ‘ਤੇ "ਮੋੜਨ ਲਈ ਇੱਕ ਜਗ੍ਹਾ ਲੱਭੋ" ਕਹਿੰਦੇ ਹੋ, VLA ਮਕੈਨੀਕਲ ਤੌਰ ‘ਤੇ ਕਮਾਂਡ ਨੂੰ ਲਾਗੂ ਨਹੀਂ ਕਰੇਗਾ, ਸਗੋਂ ਯੂ-ਟਰਨ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਵਾਜਬ ਸਮਾਂ ਅਤੇ ਸਥਾਨ ਲੱਭਣ ਲਈ ਸੜਕ ਦੀਆਂ ਸਥਿਤੀਆਂ, ਟ੍ਰੈਫਿਕ ਪ੍ਰਵਾਹ ਅਤੇ ਟ੍ਰੈਫਿਕ ਨਿਯਮਾਂ ‘ਤੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਿਚਾਰ ਕਰੇਗਾ।
Li Xiang ਨੇ ਕਿਹਾ ਕਿ VLA ਡੇਟਾ ਤਿਆਰ ਕਰਕੇ ਨਵੇਂ ਦ੍ਰਿਸ਼ਾਂ ਦੇ ਅਨੁਕੂਲ ਹੋ ਸਕਦਾ ਹੈ, ਅਤੇ ਗੁੰਝਲਦਾਰ ਸੜਕ ਦੀਆਂ ਮੁਰੰਮਤਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ‘ਤੇ ਵੀ ਤਿੰਨ ਦਿਨਾਂ ਦੇ ਅੰਦਰ ਜਵਾਬਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਲਚਕਤਾ ਅਤੇ ਨਿਰਣਾ VLA ਦੇ ਮੁੱਖ ਫਾਇਦੇ ਹਨ।
Li Auto ਦਾ ਅਧਿਆਪਕ ਡੀਪਸੀਕ ਹੈ
VLA ਦਾ ਸਮਰਥਨ ਕਰਨਾ Li Auto ਦੁਆਰਾ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਵਿਕਸਤ ਇੱਕ ਗੁੰਝਲਦਾਰ ਅਤੇ ਵਧੀਆ ਤਕਨੀਕੀ ਸਿਸਟਮ ਹੈ। ਇਹ ਸਿਸਟਮ ਕਾਰ ਨੂੰ ਨਾ ਸਿਰਫ ਦੁਨੀਆ ਨੂੰ "ਸਮਝਣ" ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਸਗੋਂ ਇੱਕ ਮਨੁੱਖੀ ਡਰਾਈਵਰ ਵਾਂਗ ਸੋਚਣ ਅਤੇ ਕੰਮ ਕਰਨ ਦੀ ਵੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਸਭ ਤੋਂ ਪਹਿਲਾਂ 3D ਗੌਸੀਅਨ ਪ੍ਰਤੀਨਿਧਤਾ ਤਕਨਾਲੋਜੀ ਹੈ, ਜੋ ਇੱਕ 3D ਵਸਤੂ ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਸਾਰੇ "ਗੌਸੀਅਨ ਪੁਆਇੰਟ" ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਹਰੇਕ ਬਿੰਦੂ ਵਿੱਚ ਇਸਦੀ ਆਪਣੀ ਸਥਿਤੀ, ਰੰਗ ਅਤੇ ਆਕਾਰ ਦੀ ਜਾਣਕਾਰੀ ਹੁੰਦੀ ਹੈ। ਇਹ ਤਕਨਾਲੋਜੀ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਅਸਲ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ 3D ਸਥਾਨਿਕ ਸਮਝ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਸਵੈ-ਨਿਗਰਾਨੀ ਵਾਲੀ ਸਿਖਲਾਈ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਇਸਦੇ ਨਾਲ, VLA ਆਲੇ ਦੁਆਲੇ ਦੀ ਦੁਨੀਆ ਨੂੰ ਇੱਕ ਮਨੁੱਖ ਵਾਂਗ "ਸਮਝ" ਸਕਦਾ ਹੈ, ਇਹ ਜਾਣਦਾ ਹੈ ਕਿ ਰੁਕਾਵਟਾਂ ਕਿੱਥੇ ਹਨ ਅਤੇ ਲੰਘਣ ਵਾਲੇ ਖੇਤਰ ਕਿੱਥੇ ਹਨ।
ਅੱਗੇ ਮਾਹਰਾਂ ਦਾ ਮਿਸ਼ਰਣ (MoE) ਆਰਕੀਟੈਕਚਰ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਾਹਰ ਨੈੱਟਵਰਕ, ਗੇਟਿੰਗ ਨੈੱਟਵਰਕ ਅਤੇ ਕੰਬਾਈਨਰ ਸ਼ਾਮਲ ਹਨ। ਜਦੋਂ ਮਾਡਲ ਪੈਰਾਮੀਟਰ ਸੈਂਕੜੇ ਅਰਬਾਂ ਤੋਂ ਵੱਧ ਜਾਂਦੇ ਹਨ, ਤਾਂ ਰਵਾਇਤੀ ਵਿਧੀ ਹਰੇਕ ਗਣਨਾ ਵਿੱਚ ਸਾਰੇ ਨਿਊਰੋਨਾਂ ਨੂੰ ਹਿੱਸਾ ਲੈਣ ਲਈ ਮਜਬੂਰ ਕਰੇਗੀ, ਜੋ ਕਿ ਸਰੋਤਾਂ ਦੀ ਬਰਬਾਦੀ ਹੈ। MoE ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਗੇਟਿੰਗ ਨੈੱਟਵਰਕ ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ਦੇ ਅਨੁਸਾਰ ਵੱਖ-ਵੱਖ ਮਾਹਰਾਂ ਨੂੰਬੁਲਾਏਗਾ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਐਕਟੀਵੇਸ਼ਨ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਨਹੀਂ ਹੋਵੇਗਾ।
ਇਸ ਬਾਰੇ ਗੱਲ ਕਰਦਿਆਂ, Li Xiang ਨੇ ਡੀਪਸੀਕ ਦੀ ਵੀ ਸ਼ਲਾਘਾ ਕੀਤੀ:
ਡੀਪਸੀਕ ਮਨੁੱਖਤਾ ਦੇ ਸਭ ਤੋਂ ਵਧੀਆ ਅਭਿਆਸਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ… ਜਦੋਂ ਉਹ ਡੀਪਸੀਕ V3 ਕਰ ਰਹੇ ਸਨ, V3 ਵੀ ਇੱਕ MoE ਸੀ, ਇੱਕ 671B ਮਾਡਲ। ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ MoE ਇੱਕ ਬਹੁਤ ਵਧੀਆ ਆਰਕੀਟੈਕਚਰ ਹੈ। ਇਹ ਇੱਕਠੇ ਮਾਹਰਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਨੂੰ ਜੋੜਨ ਦੇ ਬਰਾਬਰ ਹੈ, ਅਤੇ ਹਰੇਕ ਇੱਕ ਮਾਹਰ ਦੀ ਯੋਗਤਾ ਹੈ।
ਅੰਤ ਵਿੱਚ, Li Auto ਨੇ VLA ਵਿੱਚ ਸਪਾਰਸ ਅਟੈਂਸ਼ਨ ਪੇਸ਼ ਕੀਤੀ, ਜਿਸਦਾ ਸਾਧਾਰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ ਮਤਲਬ ਹੈ ਕਿ VLA ਆਪਣੇ ਆਪ ਹੀ ਮੁੱਖ ਖੇਤਰਾਂ ਦੇ ਧਿਆਨ ਭਾਰ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰੇਗਾ, ਜਿਸ ਨਾਲ ਐਂਡ ਸਾਈਡ ਦੀ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਹੋਵੇਗਾ।
Li Xiang ਨੇ ਕਿਹਾ ਕਿ ਇਸ ਨਵੇਂ ਬੇਸ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ, Li Auto ਦੇ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਸਭ ਤੋਂ ਵਧੀਆ ਡੇਟਾ ਅਨੁਪਾਤ ਲੱਭਣ, 3D ਡੇਟਾ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਅਤੇ ਆਟੋਨੋਮਸ ਡਰਾਈਵਿੰਗ ਨਾਲ ਸਬੰਧਤ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰ ਡੇਟਾ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਅਤੇ ਸਾਹਿਤਕ ਅਤੇ ਇਤਿਹਾਸਕ ਡੇਟਾ ਦੇ ਅਨੁਪਾਤ ਨੂੰ ਘਟਾਉਣ ਵਿੱਚ ਬਹੁਤ ਸਮਾਂ ਬਿਤਾਇਆ।
ਧਾਰਨਾ ਤੋਂ ਲੈ ਕੇ ਫੈਸਲੇ ਲੈਣ ਤੱਕ, VLA ਮਨੁੱਖੀ ਸੋਚ ਦੇ ਤੇਜ਼ ਅਤੇ ਹੌਲੀ ਸੁਮੇਲ ਮੋਡ ‘ਤੇ ਆਧਾਰਿਤ ਹੈ। ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਸਧਾਰਨ ਐਕਸ਼ਨ ਫੈਸਲਿਆਂ ਨੂੰ ਆਊਟਪੁੱਟ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਐਮਰਜੈਂਸੀ ਬਚਾਅ, ਅਤੇ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਦ੍ਰਿਸ਼ਾਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਥੋੜ੍ਹੇ ਸਮੇਂ ਦੀ ਸੋਚ ਦੀਆਂ ਚੇਨਾਂ ਦੀ ਵਰਤੋਂ "ਹੌਲੀ ਸੋਚ" ਵੀ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਉਸਾਰੀ ਖੇਤਰ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਅਸਥਾਈ ਤੌਰ ‘ਤੇ ਇੱਕ ਰਸਤਾ ਯੋਜਨਾ ਕਰਨਾ। ਰੀਅਲ-ਟਾਈਮ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ, VLA ਨੇ ਅਨੁਮਾਨਤ ਤਰਕ ਅਤੇ ਸਮਾਨਾਂਤਰ ਡੀਕੋਡਿੰਗ ਤਕਨਾਲੋਜੀ ਵੀ ਪੇਸ਼ ਕੀਤੀ, ਜਿਸ ਨਾਲ ਵਾਹਨ-ਸਾਈਡ ਚਿੱਪ ਦੀ ਕੰਪਿਊਟਿੰਗ ਸ਼ਕਤੀ ਦੀ ਪੂਰੀ ਵਰਤੋਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ ਹੈ ਕਿ ਫੈਸਲਾ ਲੈਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਤੇਜ਼ ਅਤੇ ਅਰਾਜਕ ਨਹੀਂ ਹੈ।
ਡ੍ਰਾਇਵਿੰਗ ਵਿਵਹਾਰ ਪੈਦਾ ਕਰਦੇ ਸਮੇਂ, VLA ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLHF) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਅਨੁਕੂਲਿਤ ਡ੍ਰਾਇਵਿੰਗ ਟ੍ਰੈਜੈਕਟਰੀ ਤਿਆਰ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ, ਜਦੋਂ ਕਿ RLHF ਇਹਨਾਂ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ਨੂੰ ਮਨੁੱਖੀ ਆਦਤਾਂ ਦੇ ਨੇੜੇ ਬਣਾਉਂਦਾ ਹੈ, ਸੁਰੱਖਿਅਤ ਅਤੇ ਆਰਾਮਦਾਇਕ ਦੋਵੇਂ। ਉਦਾਹਰਨ ਦੇ ਲਈ, VLA ਮੋੜਦੇ ਸਮੇਂ ਆਪਣੇ ਆਪ ਹੌਲੀ ਹੋ ਜਾਵੇਗਾ, ਜਾਂ ਲੇਨਾਂ ਨੂੰ ਮਿਲਾਉਂਦੇ ਸਮੇਂ ਕਾਫ਼ੀ ਸੁਰੱਖਿਅਤ ਦੂਰੀ ਛੱਡ ਦੇਵੇਗਾ। ਇਹ ਵੇਰਵੇ ਮਨੁੱਖੀ ਡ੍ਰਾਇਵਿੰਗ ਵਿਵਹਾਰ ਦੀ ਡੂੰਘੀ ਸਿਖਲਾਈ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
ਦੁਨੀਆ ਦਾ ਮਾਡਲ ਇੱਕ ਹੋਰ ਮੁੱਖ ਤਕਨਾਲੋਜੀ ਹੈ। Li Auto ਸੀਨ ਪੁਨਰ ਨਿਰਮਾਣ ਅਤੇ ਉਤਪਾਦਨ ਦੁਆਰਾ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਈ ਇੱਕ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। Li Xiang ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਦੁਨੀਆ ਦੇ ਮਾਡਲ ਨੇ ਪ੍ਰਤੀ 10,000 ਕਿਲੋਮੀਟਰ ਦੀ ਤਸਦੀਕ ਲਾਗਤ ਨੂੰ 170,000-180,000 ਯੂਆਨ ਤੋਂ ਘਟਾ ਕੇ 4,000 ਯੂਆਨ ਕਰ ਦਿੱਤਾ ਹੈ। ਇਹ VLA ਨੂੰ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਲਗਾਤਾਰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਅਤੇ ਗੁੰਝਲਦਾਰ ਦ੍ਰਿਸ਼ਾਂ ਨਾਲ ਆਸਾਨੀ ਨਾਲ ਨਜਿੱਠਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਸਿਖਲਾਈ ਦੀ ਗੱਲ ਕਰੀਏ ਤਾਂ VLA ਦੀ ਵਿਕਾਸ ਪ੍ਰਕਿਰਿਆ ਵੀ ਕਾਫੀ ਸੰਗਠਿਤ ਹੈ। ਪੂਰੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤਿੰਨ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ: ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ, ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ। Li Xiang ਨੇ ਕਿਹਾ, "ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਗਿਆਨ ਸਿੱਖਣ ਵਰਗਾ ਹੈ, ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਇੱਕ ਡ੍ਰਾਇਵਿੰਗ ਸਕੂਲ ਵਿੱਚ ਡ੍ਰਾਈਵਿੰਗ ਸਿੱਖਣ ਵਰਗਾ ਹੈ, ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਮਾਜਿਕ ਅਭਿਆਸ ਵਰਗਾ ਹੈ।"
ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਵਿੱਚ, Li Auto ਨੇ VLA ਲਈ ਇੱਕ ਵਿਜ਼ੂਅਲ-ਭਾਸ਼ਾ ਬੇਸ ਮਾਡਲ ਬਣਾਇਆ, ਇਸਨੂੰ ਭਰਪੂਰ 3D ਵਿਜ਼ੂਅਲ ਡੇਟਾ, 2D ਉੱਚ-ਪਰਿਭਾਸ਼ਾ ਵਾਲੀਆਂ ਤਸਵੀਰਾਂ, ਅਤੇ ਡ੍ਰਾਇਵਿੰਗ-ਸਬੰਧਤ ਕਾਰਪੋਰਾ ਨਾਲ ਭਰਿਆ, ਇਸਨੂੰ ਪਹਿਲਾਂ "ਦੇਖਣ" ਅਤੇ "ਸੁਣਨ" ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ; ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ, ਐਕਸ਼ਨ ਮੋਡੀਊਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, 4-8 ਸਕਿੰਟ ਡ੍ਰਾਇਵਿੰਗ ਟ੍ਰੈਜੈਕਟਰੀ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਮਾਡਲ 3.2 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਤੋਂ ਵੱਧ ਕੇ 4 ਬਿਲੀਅਨ ਹੋ ਜਾਂਦਾ ਹੈ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੂੰ ਦੋ ਕਦਮਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ: ਪਹਿਲਾਂ, ਮਨੁੱਖੀ ਆਦਤਾਂ ਨੂੰ ਇਕਸਾਰ ਕਰਨ, ਟੇਕਓਵਰ ਡੇਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਅਤੇ ਸੁਰੱਖਿਆ ਅਤੇ ਆਰਾਮ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ RLHF ਦੀ ਵਰਤੋਂ ਕਰੋ; ਫਿਰ, G-ਮੁੱਲ (ਆਰਾਮ), ਟੱਕਰ ਅਤੇ ਟ੍ਰੈਫਿਕ ਨਿਯਮਾਂ ਦੇ ਫੀਡਬੈਕ ਦੇ ਆਧਾਰ ‘ਤੇ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਸ਼ੁੱਧ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰੋ, ਤਾਂ ਜੋ VLA "ਮਨੁੱਖਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਡ੍ਰਾਈਵ ਕਰੇ।" Li Xiang ਨੇ ਜ਼ਿਕਰ ਕੀਤਾ ਕਿ ਇਹ ਪੜਾਅ ਦੁਨੀਆ ਦੇ ਮਾਡਲ ਵਿੱਚ ਪੂਰਾ ਹੋ ਗਿਆ ਹੈ, ਅਸਲ ਟ੍ਰੈਫਿਕ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹੋਏ, ਅਤੇ ਕੁਸ਼ਲਤਾ ਰਵਾਇਤੀ ਤਸਦੀਕ ਨਾਲੋਂ ਬਹੁਤ ਵਧੀਆ ਹੈ।
ਇਹ ਸਿਖਲਾਈ ਵਿਧੀ ਨਾ ਸਿਰਫ ਤਕਨੀਕੀ ਉੱਨਤੀ ਦੀ ਗਰੰਟੀ ਦਿੰਦੀ ਹੈ, ਸਗੋਂ VLA ਨੂੰ ਵਿਹਾਰਕ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਭਰੋਸੇਯੋਗ ਵੀ ਬਣਾਉਂਦੀ ਹੈ।
Li Xiang ਨੇ ਮੰਨਿਆ ਕਿ VLA ਦੀ ਸਫਲਤਾ ਉਦਯੋਗ ਦੇ ਮਾਪਦੰਡਾਂ ਤੋਂ ਪ੍ਰੇਰਨਾ ਤੋਂ ਅਟੁੱਟ ਹੈ। ਡੀਪਸੀਕ ਦੇ MoE ਆਰਕੀਟੈਕਚਰ ਨੇ ਨਾ ਸਿਰਫ ਸਿਖਲਾਈ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ, ਸਗੋਂ Li Auto ਲਈ ਕੀਮਤੀ ਤਜ਼ਰਬਾ ਵੀ ਪ੍ਰਦਾਨ ਕੀਤਾ। ਉਸਨੇ ਸੋਗ ਕੀਤਾ: "ਅਸੀਂ ਦਿੱਗਜਾਂ ਦੇ ਮੋਢਿਆਂ ‘ਤੇ ਖੜ੍ਹੇ ਹਾਂ ਅਤੇ VLA ਦੀ R&D ਨੂੰ ਤੇਜ਼ ਕਰ ਰਹੇ ਹਾਂ।" ਇਹ ਖੁੱਲਾ ਸਿੱਖਣ ਦਾ ਰਵੱਈਆ Li Auto ਨੂੰ ਨੋ-ਮੈਨਜ਼ ਲੈਂਡ ਵਿੱਚ ਹੋਰ ਅੱਗੇ ਜਾਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
"ਜਾਣਕਾਰੀ ਟੂਲ" ਤੋਂ "ਉਤਪਾਦਨ ਟੂਲ" ਤੱਕ
ਵਰਤਮਾਨ ਵਿੱਚ, AI ਉਦਯੋਗ "ਜਾਣਕਾਰੀ ਟੂਲ" ਤੋਂ "ਉਤਪਾਦਨ ਟੂਲ" ਤੱਕ ਇੱਕ ਡੂੰਘੇ ਪਰਿਵਰਤਨ ਵਿੱਚੋਂ ਗੁਜ਼ਰ ਰਿਹਾ ਹੈ। ਵੱਡੇ ਮਾਡਲ ਤਕਨਾਲੋਜੀ ਦੀ ਪਰਿਪੱਕਤਾ ਦੇ ਨਾਲ, AI ਹੁਣ ਡੇਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਅਤੇ ਸੁਝਾਅ ਪ੍ਰਦਾਨ ਕਰਨ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਸੁਤੰਤਰ ਫੈਸਲੇ ਲੈਣ ਅਤੇ ਕਾਰਜ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਰੱਖਦਾ ਹੈ।
Li Xiang ਨੇ AI Talk ਦੇ ਦੂਜੇ ਸੀਜ਼ਨ ਵਿੱਚ ਪ੍ਰਸਤਾਵਿਤ ਕੀਤਾ ਕਿ AI ਨੂੰ ਜਾਣਕਾਰੀ ਟੂਲ (ਜਿਵੇਂ ਕਿ ਖੋਜ), ਸਹਾਇਕ ਟੂਲ (ਜਿਵੇਂ ਕਿ ਵੌਇਸ ਨੈਵੀਗੇਸ਼ਨ) ਅਤੇ ਉਤਪਾਦਨ ਟੂਲ ਵਿੱਚ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਉਸਨੇ ਜ਼ੋਰ ਦਿੱਤਾ: "ਜਦੋਂ ਨਕਲੀ ਬੁੱਧੀ ਇੱਕ ਉਤਪਾਦਨ ਟੂਲ ਬਣ ਜਾਂਦੀ ਹੈ ਤਾਂ ਇਹ ਸੱਚਾ ਪ੍ਰਕੋਪ ਹੁੰਦਾ ਹੈ।" ਵੱਡੇ ਮਾਡਲ ਤਕਨਾਲੋਜੀ ਦੀ ਪਰਿਪੱਕਤਾ ਦੇ ਨਾਲ, AI ਹੁਣ ਡੇਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਸੁਤੰਤਰ ਫੈਸਲੇ ਲੈਣ ਅਤੇ ਕਾਰਜ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਰੱਖਦਾ ਹੈ।
ਇਹ ਰੁਝਾਨ ਖਾਸ ਤੌਰ ‘ਤੇ "ਏਮਬੌਡੀਡ ਇੰਟੈਲੀਜੈਂਸ" ਦੀ ਧਾਰਨਾ ਵਿੱਚ ਸਪੱਸ਼ਟ ਹੈ - AI ਸਿਸਟਮ ਨੂੰ ਭੌਤਿਕ ਸੰਸਥਾਵਾਂ ਦਿੱਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜੋ ਵਾਤਾਵਰਣ ਨੂੰ ਸਮਝਣ, ਸਮਝਣ ਅਤੇ ਗੱਲਬਾਤ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ।
Li Auto ਦਾ VLA ਮਾਡਲ ਇਸ ਰੁਝਾਨ ਦਾ ਇੱਕ ਜੀਵੰਤ ਅਭਿਆਸ ਹੈ। ਦ੍ਰਿਸ਼ਟੀ, ਭਾਸ਼ਾ ਅਤੇ ਕਿਰਿਆ ਦੀ ਬੁੱਧੀ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਕੇ, ਇਹ ਕਾਰ ਨੂੰ ਇੱਕ ਬੁੱਧੀਮਾਨ ਏਜੰਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ ਜੋ ਆਪਣੇ ਆਪ ਡ੍ਰਾਈਵ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਗੱਲਬਾਤ ਕਰ ਸਕਦਾ ਹੈ, ਪੂਰੀ ਤਰ੍ਹਾਂ "ਏਮਬੌਡੀਡ ਇੰਟੈਲੀਜੈਂਸ" ਦੀ ਮੂਲ ਧਾਰਨਾ ਦੀ ਵਿਆਖਿਆ ਕਰਦਾ ਹੈ।
ਜਿੰਨਾ ਚਿਰ ਮਨੁੱਖ ਪੇਸ਼ੇਵਰ ਡਰਾਈਵਰਾਂ ਨੂੰ ਨੌਕਰੀ ‘ਤੇ ਰੱਖਦੇ ਹਨ, ਨਕਲੀ ਬੁੱਧੀ ਇੱਕ ਉਤਪਾਦਨ ਟੂਲ ਬਣ ਸਕਦੀ ਹੈ। ਜਦੋਂ AI ਇੱਕ ਉਤਪਾਦਨ ਟੂਲ ਬਣ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਨਕਲੀ ਬੁੱਧੀ ਸੱਚਮੁੱਚ ਵਿਸਫੋਟ ਕਰੇਗੀ।
Li Xiang ਦੀਆਂ ਟਿੱਪਣੀਆਂ ਨੇ VLA ਦੇ ਮੂਲ ਮੁੱਲ ਨੂੰ ਸਪੱਸ਼ਟ ਕੀਤਾ - ਇਹ ਹੁਣ ਇੱਕ ਸਧਾਰਨ ਸਹਾਇਕ ਟੂਲ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਇੱਕ "ਡਰਾਈਵਰ ਏਜੰਟ" ਹੈ ਜੋ ਸੁਤੰਤਰ ਤੌਰ ‘ਤੇ ਕਾਰਜ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀਆਂ ਲੈ ਸਕਦਾ ਹੈ। ਇਹ ਤਬਦੀਲੀ ਨਾ ਸਿਰਫ ਕਾਰਾਂ ਦੇ ਵਿਹਾਰਕ ਮੁੱਲ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੀ ਹੈ, ਸਗੋਂ ਹੋਰ ਖੇਤਰਾਂ ਵਿੱਚ AI ਦੀ ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਕਲਪਨਾ ਸਪੇਸ ਵੀ ਖੋਲ੍ਹਦੀ ਹੈ।
AI ‘ਤੇ Li Xiang ਦੀ ਸੋਚ ਵਿੱਚ ਹਮੇਸ਼ਾ ਇੱਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਹੁੰਦਾ ਹੈ ਜੋ ਬਕਸੇ ਤੋਂ ਬਾਹਰ ਨਿਕਲਦਾ ਹੈ। ਉਸਨੇ ਇਹ ਵੀ ਜ਼ਿਕਰ ਕੀਤਾ: "VLA ਇੱਕ ਅਚਾਨਕ ਤਬਦੀਲੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਇੱਕ ਵਿਕਾਸਵਾਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ।" ਇਹ ਵਾਕ Li Auto ਦੇ ਤਕਨੀਕੀ ਮਾਰਗ ਦਾ ਸਹੀ ਢੰਗ ਨਾਲ ਸੰਖੇਪ ਜਾਣਕਾਰੀ ਦਿੰਦਾ ਹੈ -
ਸ਼ੁਰੂਆਤੀ ਨਿਯਮ-ਸੰਚਾਲਿਤ ਤੋਂ ਲੈ ਕੇ, ਅੱਜ ਦੇ VLA ਦੇ "ਮਨੁੱਖੀ ਬੁੱਧੀ" ਪੱਧਰ ਤੱਕ, ਐਂਡ-ਟੂ-ਐਂਡ ਸਫਲਤਾਵਾਂ ਤੱਕ। ਇਹ ਵਿਕਾਸਵਾਦੀ ਸੋਚ ਨਾ ਸਿਰਫ ਤਕਨਾਲੋਜੀ ਵਿੱਚ VLA ਨੂੰ ਵਧੇਰੇ ਸੰਭਵ ਬਣਾਉਂਦੀ ਹੈ, ਸਗੋਂ ਉਦਯੋਗ ਲਈ ਇੱਕ ਹਵਾਲਾ ਮਾਡਲ ਵੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਕੁਝ ਯਤਨਾਂ ਦੇ ਮੁਕਾਬਲੇ ਜੋ ਅੰਨ੍ਹੇਵਾਹ ਢੰਗ ਨਾਲ ਤਬਾਹੀ ਦਾ ਪਿੱਛਾ ਕਰਦੇ ਹਨ, Li Auto ਦਾ ਵਿਹਾਰਕ ਮਾਰਗ ਗੁੰਝਲਦਾਰ ਚੀਨੀ ਬਾਜ਼ਾਰ ਲਈ ਵਧੇਰੇ ਢੁਕਵਾਂ ਹੋ ਸਕਦਾ ਹੈ।
ਤਕਨਾਲੋਜੀ ਤੋਂ ਵਿਸ਼ਵਾਸ ਤੱਕ, Li Auto ਦੀ AI ਖੋਜ ਆਸਾਨ ਨਹੀਂ ਹੈ। Li Xiang ਨੇ ਮੰਨਿਆ: "ਸਾਨੂੰ AI ਖੇਤਰ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਵੇਰ ਤੋਂ ਪਹਿਲਾਂ ਹਨੇਰਾ, ਪਰ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਜੇ ਅਸੀਂ ਲਗਨ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਰੌਸ਼ਨੀ ਦੇਖਾਂਗੇ।" VLA ਦੀ R&D ਨੂੰ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਅਤੇ ਡੇਟਾ ਨੈਤਿਕਤਾ ਵਰਗੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ, ਪਰ Li Auto ਨੇ ਹੌਲੀ-ਹੌਲੀ ਸਵੈ-ਵਿਕਸਤ ਬੇਸ ਮਾਡਲਾਂ ਅਤੇ ਦੁਨੀਆ ਦੇ ਮਾਡਲਾਂ ਰਾਹੀਂ ਆਪਣੀ ਤਕਨੀਕੀ ਸਵੇਰ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ।
Li Xiang ਨੇ ਇੰਟਰਵਿਊ ਵਿੱਚ ਇਹ ਵੀ ਜ਼ਿਕਰ ਕੀਤਾ ਕਿ VLA ਦੀ ਸਫਲਤਾ ਚੀਨੀ AI ਦੇ ਵਾਧੇ ਤੋਂ ਅਟੁੱਟ ਹੈ।
ਉਸਨੇ ਕਿਹਾ ਕਿ ਡੀਪਸੀਕ ਅਤੇ ਟੋਂਗਯੀ ਕਿਆਨਵੇਨ ਵਰਗੇ ਮਾਡਲਾਂ ਦੇ ਉਭਾਰ ਨੇ ਚੀਨ ਦੇ AI ਪੱਧਰ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਸੰਯੁਕਤ ਰਾਜ ਦੇ ਨੇੜੇ ਲਿਆ ਦਿੱਤਾ ਹੈ। ਇਹਨਾਂ ਵਿੱਚੋਂ, ਡੀਪਸੀਕ ਦੁਆਰਾ ਕਾਇਮ ਓਪਨ ਸੋਰਸ ਭਾਵਨਾ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਉਤਸ਼ਾਹਜਨਕ ਹੈ, ਜਿਸਨੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ Li Auto ਨੂੰ Xinghuan OS ਨੂੰ ਓਪਨ ਸੋਰਸ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ। Li Xiang ਨੇ ਕਿਹਾ: "ਇਹ ਕੰਪਨੀ ਦੀ ਰਣਨੀਤਕ ਵਿਚਾਰਾਂ ਤੋਂ ਬਾਹਰ ਨਹੀਂ ਹੈ। ਡੀਪਸੀਕ ਨੇ ਸਾਡੀ ਇੰਨੀ ਮਦਦ ਕੀਤੀ ਹੈ, ਸਾਨੂੰ ਸਮਾਜ ਵਿੱਚ ਕੁਝ ਯੋਗਦਾਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ।"
ਤਕਨੀਕੀ ਸਫਲਤਾਵਾਂ ਦਾ ਪਿੱਛਾ ਕਰਦੇ ਹੋਏ, Li Auto ਨੇ AI ਤਕਨਾਲੋਜੀ ਦੇ ਸੁਰੱਖਿਆ ਅਤੇ ਨੈਤਿਕ ਮੁੱਦਿਆਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਨਹੀਂ ਕੀਤਾ ਹੈ। VLA ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੀ ਗਈ "ਸੁਪਰ ਅਲਾਈਨਮੈਂਟ" ਤਕਨਾਲੋਜੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਫਰਾਮ ਹਿਊਮਨ ਫੀਡਬੈਕ (RLHF) ਦੁਆਰਾ ਮਾਡਲ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਮਨੁੱਖੀ ਆਦਤਾਂ ਦੇ ਨੇੜੇ ਬਣਾਉਂਦੀ ਹੈ। ਡੇਟਾ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ VLA ਦੀ ਐਪਲੀਕੇਸ਼ਨ ਨੇ ਹਾਈ-ਸਪੀਡ MPI (ਔਸਤ ਦਖਲਅੰਦਾਜ਼ੀ ਮਾਈਲੇਜ) ਨੂੰ 240km ਤੋਂ ਵਧਾ ਕੇ 300km ਕਰ ਦਿੱਤਾ ਹੈ।
ਇਸ ਤੋਂ ਵੀ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ Li Auto "ਮਨੁੱਖੀ ਮੁੱਲਾਂ ਵਾਲੀ AI" ਬਣਾਉਣ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਅਤੇ ਨੈਤਿਕਤਾ ਅਤੇ ਵਿਸ਼ਵਾਸ ਨੂੰ ਤਕਨੀਕੀ ਵਿਕਾਸ ਦੀ ਨੀਂਹ ਮੰਨਦਾ ਹੈ। ਇੱਕ ਹੋਰ ਵੱਡੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ, VLA ਦੀ ਮਹੱਤਤਾ ਇਸ ਗੱਲ ਵਿੱਚ ਹੈ ਕਿ ਇਹ ਕਾਰ ਕੰਪਨੀਆਂ ਦੀ ਭੂਮਿਕਾ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ।
ਅਤੀਤ ਵਿੱਚ, ਕਾਰਾਂ ਉਦਯੋਗਿਕ ਯੁੱਗ ਦੇ ਆਵਾਜਾਈ ਦੇ ਸਾਧਨ ਸਨ; ਅੱਜ, ਉਹ ਨਕਲੀ ਬੁੱਧੀ ਯੁੱਗ ਵਿੱਚ "ਸਪੈਸ਼ਲ ਰੋਬੋਟ" ਵਿੱਚ ਵਿਕਸਤ ਹੋ ਰਹੇ ਹਨ। Li Xiang ਨੇ AI Talk ਵਿੱਚ ਜ਼ਿਕਰ ਕੀਤਾ: "Li Auto ਪਹਿਲਾਂ ਕਾਰਾਂ ਦੀ ਨੋ-ਮੈਨਜ਼ ਲੈਂਡ ਵਿੱਚ ਚੱਲਦਾ ਸੀ, ਅਤੇ ਭਵਿੱਖ ਵਿੱਚ ਨਕਲੀ ਬੁੱਧੀ ਦੀ ਨੋ-ਮੈਨਜ਼ ਲੈਂਡ ਵਿੱਚ ਚੱਲੇਗਾ।" Li Auto ਦਾ ਇਹ ਪਰਿਵਰਤਨ ਆ