VLA模型“上车”在即 汽车行业智能化竞争加剧

2025年09月02日 10:25  

本文1358字,约2分钟

8月底的汽车行业,VLA(Vision-Language-Action)成为了热门词。作为新一代辅助驾驶策略,不管是车企,还是供应商都在纷纷加码。近日,在成都车展上,理想汽车宣布其VLA司机大模型将于9月10日向所有AD Max车型用户全量推送;上周,小鹏汽车表示接下来将看到比现在所有辅助驾驶表现都强的解决方案,元戎启行也在同周公布了新版本。

一众企业纷纷由端到端转向VLA的背后,与原有技术局限不无关系。元戎启行CEO周光表示,当交付量达到10万台级别,任何小概率问题都会被放大。他指出,第一代端到端系统正触及性能天花板。这种瓶颈不仅体现在技术指标上,更反映在用户实际体验与安全焦虑中。近期市场上一些较为严苛的评测,正反映出消费者对辅助驾驶安全提出了更高要求。

事实上,目前传统BEV架构的局限主要在于无法看到墙后物体,系统便默认其不存在。而人类驾驶者会借助毫米波雷达、空间遮挡关系理解甚至常识推断,采取防御性策略。

VLA代表视觉、语言和动作,与人类学习新知识的过程相似,具备从数据中挖掘逻辑并进行推理的能力。对于VLA的能力,周光认为,VLA模型的下限已经超过端到端方案的上限,但其成熟仍需要时间沉淀和持续迭代。“我个人给当前版本打6分,刚及格。VLA仍处于‘幼年期’。”

然而,VLA技术的发展仍面临多重挑战。跨模态语义对齐精度不足、任务泛化能力有限、实时响应效率受限,以及训练数据完备性欠缺等都制约着技术发展。此外,如何让自动驾驶系统理解人类司机的多模块行为,以及如何对齐人类价值观提升模型下限,都是亟待解决的难题。

面对这些挑战,周光认为VLA本质上是一个“基于GPT的端到端模型”,与CNN架构的根本区别在于引入了思维链(Chain of Thought)和长时序推理机制,能够串联多帧信息、推断因果关系,并对复杂场景做出拟人化反应。

他举了一个典型例子,在深圳福田保税区入口突然出现“车辆左转不受灯控”的标牌,传统系统因无法理解文字而停滞,后车却因看到标识而鸣笛催促。这类场景无法通过传统端到端学习解决,必须依靠对文字的实时理解。

不容忽视的是,新的技术需要大量的算力,这也意味着在芯片与算力层面行业将迎来新一轮竞赛。周光指出,特斯拉新一代芯片达到2500TOPS,正说明GPT架构对算力的天然需求。”他判断,早期芯片主要针对CNN设计,未来一定会加强对Transformer架构的原生支持,尤其是在低精度计算的优化上。下一代芯片将达到5000TOPS甚至10000TOPS级别,这已不再是遥远的想象。

同时,商业化模式也将深刻变化。用户不再仅仅关注传感器数量或算力大小,而是更看重系统应对复杂场景的实际能力。企业的竞争焦点,正从技术有无转向体验好坏、从功能实现转向安全可靠。周光透露,目前15万元以上车型均可适配VLA,10万元级别通过优化也有望搭载。随着规模上量和芯片工艺改进,成本问题将逐步缓解。

在业内看来,随着大模型技术不断成熟,芯片算力持续提升,以及行业监管日益完善,辅助驾驶将从辅助走向智能。未来的智能驾驶,将不再是简单的交通工具,而是能够理解、推理并与人类自然交互的智能伙伴。

(《财经》新媒体综编)