智驾模型的下一站，是基座模型吗？

来源：21世纪经济报道

媒体

2026-04-27 20:41:38

（原标题：智驾模型的下一站，是基座模型吗？）

不断提高模型的认知能力，让汽车从“按规则开车”变成“靠理解开车”，最终迈向通用智能体，这始终是智驾行业躲不开的核心命题。

这种共识在2026北京车展期间的几场发布会和对话中被反复放大。在蔚来和小鹏身上，这种融合表现得尤为具象，首创车端NWM世界模型，结合自研技术平衡技术迭代与成本的关系；小鹏第二代VLA实现了感知、决策、规控全链路端到端打通，极端场景接管率下降62%。

但怎么走，分歧却比共识多。“技术路线本来就没有收敛。”在北京车展上，一位世界模型的研究人员向21世纪经济报道记者判断。

2025年，行业已出现VLA（视觉-语言-动作）和世界模型的路线之争。2026年3月英伟达GTC大会上，VLA与世界模型的技术路线分歧已公开激化。吉利汽车集团CTO李传海、Momenta CEO曹旭东等人均对VLA提出质疑。行业正分裂为两大技术阵营："世界模型+强化学习"与"VLA大模型"。

但行业的共识是，大模型是行业唯一出路，但演变成了两条更细的分岔路。靳玉志公开反对蒸馏，认为VLA的“云端大模型蒸馏成车端小模型”是取巧，幻觉在驾驶场景里致命。元戎周光反驳，问题不在蒸馏，在基座模型够不够强。卓驭沈劭劼走了第三条路，不做蒸馏，直接用原生多模态基础模型跨领域预训练，目标是“开箱即95分”。

2026年的智驾行业，共识与分歧并存，所有人都认可大模型是唯一出路。但行业一致共识的是，自动驾驶是通向物理AI的起点，而智能汽车正是第一个真正落地的智能体。

模型融合已是共识，VLA与世界模型不再二选一

2025年，VLA和世界模型的分歧，一度成为智驾圈关注的焦点。

2025年8月，理想、小鹏、元戎启行在两周内先后宣布VLA大模型上车，规划帧率从10Hz跳到20Hz，端到端时延压进100ms。VLA被业内视为端到端方案的“智能增强版”。其名称中的V代表视觉感知，A代表动作执行，而中间的L则是大语言模型，它的功能是用语言数据训练模型做隐式逻辑推理。

同期，华为、Momenta押注世界模型。两条路线的分歧点在于：VLA认为“理解”是驾驶的前提，世界模型则认为“预测”才是关键。华为车BU CEO靳玉志曾公开表示VLA是“取巧”方案，华为选择的WA（世界行为模型）路线才能真正实现自动驾驶。世界模型的核心逻辑是：车不应该只处理当前画面，而应该在云端预演未来几秒会发生什么，再带着“预判”去开车。

2025年底，特斯拉FSD V14推送，把xAI的Grok大模型能力整合进导航和决策系统，模型参数量比V13提升了4.5至10倍，并将导航与路径规划功能全面整合至神经网络。Grok不是让特斯拉的座舱变得能聊天，它是让FSD的决策系统多了一层语言理解能力，能够处理更复杂的语义信息。

FSD V14的推出，让国内智驾公司第一次直观地看到，大模型能力不是在“VLA”和“世界模型”之间二选一，而是两者都可以做，而且可以一起做。

行业的共识开始向“融合”倾斜，国内迅速形成了一套被广泛接受的共识：视觉语言大模型做“大脑”负责认知推理，端到端小模型做“小脑”负责快速执行。

黑芝麻智能CEO单记章在2026智能电动汽车发展高层论坛曾说，VLA加上世界模型，是高阶智能驾驶未来最有可能的技术路线，而且有机会超越人类的驾驶能力。

“以前大家会做各种各样的小模型，检测行人、检测红绿灯……整个智驾体系里有非常多的小模型，带来巨大的负担。未来的趋势，是从多个小模型演变成一个很大的基座模型，希望它能够同时完成很多不同的任务。”元戎启行首席科学家阮翀在北京车展的发布会上说。

VLA负责感知当前环境、学习历史驾驶模式，决定下一步动作；世界模型负责推演未来5到10秒内，道路上每一个目标会如何互动。VLA擅长理解当下，但不擅长预测未来；世界模型擅长预测，但不对预测结果做反思推理。两者结合，才是完整的大脑。

融合的趋势正逐渐在行业头部玩家中落地。

·在英伟达GTC上，理想发布了MindVLA-o1，通过引入预测式的隐世界模型，让模型能够预判未来几秒的场景变化。理想的做法不是把世界模型独立运行，而是在VLA架构内嵌入了“预测式隐世界模型”，把多模态感知数据压缩成抽象向量，在隐空间里推演未来，由此算力消耗大幅降低。

·华为与上海交大合作的论文提出了VLA-World框架，在执行驾驶任务时先进行短期预测，生成对未来0.5秒的预测帧，然后对生成的未来帧进行反思和风险评估，最终输出驾驶决策和未来3秒的预测轨迹。

·小米的XLA认知大模型也采取了类似路径，通过潜空间推理推演场景变化。

据元戎启行介绍，元戎启行用40B参数的基座模型（Vision-Language-Action (VLA) Foundation Model），统一了Driver（驾驶）、Analyst（分析）、Critic（评测）三个角色。传统端到端依赖驾驶轨迹做监督训练，1PB视频里轨迹只占10GB，利用率0.001%。元戎在预训练阶段改用视频预测任务，预测下一帧，每个像素都是监督信号，利用率接近100%。数据闭环周期从5天以上缩到12小时。

（元戎启行的基座模型，21世纪经济报道记者焦文娟/摄）

北京车展上，卓驭提出的下一代方案是原生多模态基础模型（VLA World Model）。卓驭的原生多模态基础模型不做蒸馏，不依赖驾驶轨迹作为唯一监督信号，而是直接用跨领域数据，比如互联网、机器人、智驾等场景的数据来进行预训练，目标是Zero-shot零数据知识迁移。

融合的另一半：世界模型与强化学习

不走VLA路径的智驾方案商则采取了自己的融合模式，即强化学习融合世界模型。

北京车展首日，轻舟智航举办物理AI主题发布会，基于“世界模型+强化学习”统一架构的物理AI模型亮相，云端与车端双引擎首次完整发布。

“世界模型和强化学习，就是连接数字世界与物理世界的那座桥梁。它让我们能在数字世界里做无穷无尽的训练，再把能力赋予物理世界的车。”轻舟CEO于骞说。

而在这场非此即彼的争论之外，Momenta给出了自己的答案。北京车展上，Momenta正式宣布R7强化学习世界模型实现量产首发。

Momenta合伙人、研发SVP夏炎进一步拆解了R7世界模型的技术架构。Momenta的世界模型分为三个层次：

·第一层是世界模型预训练，通过海量真实驾驶数据将物理规律、常识与因果关系压缩进模型，形成对物理世界的基础认知；

·第二层是世界模型仿真，用于自动驾驶闭环仿真，让系统推演自身行为变化时世界的演变；

·第三层是在世界模型中进行强化学习，在前两层基础上构建高保真虚拟训练场，让系统从“模仿学习”走向“想象与探索”，在虚拟世界中经历千万次推演，自主习得在复杂博弈中做出最优决策的能力。

（Momenta 北京车展发布会，21世纪经济报道记者焦文娟/摄）

华为从头到尾都是世界模型路线的坚定执行者。车展前夕，华为乾崑发布了ADS5，其核心设计则是WEWA 2.0架构，由云端世界引擎+车端世界行为模型组成。

在云端，华为引入“多智能体博弈”机制，不是让所有AI驾驶者各自扮演一个独立模块，而是让无数个AI驾驶者在虚拟环境中互相博弈学习，训练强度提升10倍。云端在线强化学习采用“边生成、边学习、边验证”闭环模式，用一份算力同时完成三份工作，效率提升10倍。车端则首次引入“安全风险场”理论，通过生成动态风险热力图实时决策，碰撞风险降低50%。

分歧不止于算法架构

算法架构的分歧只是冰山一角。业内主流做法是从开源的AGI大模型蒸馏出小模型上车，但参数砍完后能力受损，幻觉在驾驶场景里是致命的。

靳玉志在百人会论坛上明确反对蒸馏路线。他做了一个对比：VLA路线是在云端训练几百亿参数的大模型，再蒸馏成车端能跑的十几亿参数小模型；WA路线则是模型天生“长在车端”，不依赖蒸馏。在他看来，蒸馏本质是“取巧”，用一个通用大模型压缩出驾驶能力，却绕不开模型在驾驶场景中的幻觉问题。

另一个争议是大模型做“专”还是做“宽”？卓驭坚定选宽，其认为跨垂类能够分摊成本。

Momenta坚持的是一个统一的AI大模型去解决所有垂直应用。“我们相信的是一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用，并且做得更好。”曹旭东说，“通用模型带来的价值就是，你在每一个vertical（垂直）的研发成本会大幅度的降低。每个垂直应用场景的经验和数据，汇总到大模型里，让每个垂直领域做得更好。”

元戎相对审慎，认为物理AI的上半场是自动驾驶，车是第一个能验证的场景，“因为只有车能提供如此海量的带动作的数据”。

但随着模型越来越大，车端算力不足，却是所有人都绕不开的硬约束。

一位主机厂的智驾业务负责人说，算力不够就只能靠车端堆更大的芯片来解决。阮翀在北京车展上提出了两套解法：一是蒸馏，用大模型教小模型，能力也会很强；二是相信算力硬件的持续进步，但现阶段依然要依赖蒸馏来处理车端约束。

自动驾驶是物理AI的起点，智能汽车是第一个真正落地的智能体。2026年的北京车展上，分歧从未消失，但共识也从未如此清晰，大模型不是终点，它是通往物理AI的起点。

特别推荐

超360家公司获机构调研，新易盛最受关注

证券之星资讯

2026-04-27

三大利好！外资大举加仓（名单）

证券之星资讯

2026-04-27

券商今日金股：18份研报力推一股（名单）

证券之星资讯

2026-04-27

首页股票财经基金导航

举报专区联系我们

智驾模型的下一站，是基座模型吗？

相关个股

相关阅读

特别推荐