|

财经

订单狂飙,概念股飞涨!人形机器人真要爆发?闫维新:规模落地任重道远

来源:时代周报

媒体

2025-10-04 12:21:01

(原标题:订单狂飙,概念股飞涨!人形机器人真要爆发?闫维新:规模落地任重道远)

本文来源:时代周报 作者:朱成呈

亿元级订单密集落地,百亿规模基金加速入场,投融资与 IPO 不断涌现,资本市场的追捧推动相关概念股轮番飞涨。2025年,人形机器人产业正迎来前所未有的集体高光时刻。

9月29日,优必选再度签下3000万元人形机器人大单,总订单金额逼近4.3亿元。更早之前,7月11日,中国移动旗下中移(杭州)信息技术有限公司的人形双足机器人代工服务采购项目在业内引发关注,项目预算高达1.24亿元,成为国内迄今最大单笔公开招标订单。

资本市场与产业链的热度相互推高。然而另一面,真正的规模化落地仍有很多路要走。上海交通大学博士生导师,上海人工智能研究院首席科学家闫维新在接受时代周报记者专访时直言,目前头部人形机器人公司2025年已能实现百至千台级批量交付,多用于教育、交互服务和数据采集等用图,离真正的规模化大批量生产还有距离。

在人形机器人领域,闫维新有着长期的学术与实践积累,主持和参与过多个国家级重大项目,亦多次获得国内外科研奖项。他坦言,人形机器人复杂性远超以往任何智能设备。它需要集成机械设计、传感器技术、动力系统、控制算法、人工智能等多领域技术。

然而,当前不同企业的硬件接口互不兼容,软件平台各自独立,数据格式千差万别。这不仅造成大量的重复建设和资源浪费,也极大提高系统集成和产业协作的成本,延缓了技术创新和产品迭代的速度。

在闫维新看来,人形机器人是未来的灯塔,是带动若干行业一起发展的指明灯。“要边做、边落地、边推出。过程中凝练出的关键技术点,完全可以向其他行业迁移。”他说。

需要上亿万条数据

时代周报:具身智能训练面临最大问题是缺乏真实数据。你认为突破点在哪里,是依赖更多物理环境采集,还是通过虚拟仿真、世界模型来补足?

闫维新:具身智能的数据问题确实是当前最大的瓶颈之一,目前整个行业严重缺乏数据,拥有的具身智能交互数据只有几百万条,实际所需的规模可能在上千万甚至上亿万条。

和大语言模型(LLM)的 “数据逻辑” 完全不同,LLM 的数据主要来自网上的文本、书籍、图像,是过去几十年积累的 “静态数据”,维度清晰、获取难度低;但机器人需要的是 “动态交互数据”,比如手指在抓东西时的力反馈、走路时身体的微调。这样的数据不仅稀缺,更难以定义。到底采什么,是机器人的运动轨迹、人的操作动作,还是视觉、力的变化?行业里目前还没有统一的标准,各自为政,数据自然没法互通。

同时,不同构型的机器人在参数和动作方式上差异明显,使得通用数据集难以直接复用。真实数据天然存在采样偏差,难以覆盖所有可能情况。更麻烦的是,数据的格式也没统一,不同公司采的数据完全不能共用,只能重复造轮子。

数据采集方法方面,目前流行遥操作去采集,数据质量参差不齐。现在有些人尝试采用采集人的操作数据,再映射到机器人,这方向没错,但问题在于力很难复现——人拿杯子时到底用了多大劲,机器人怎么才能精确还原,这是核心难题。

我认为,仿真数据提供了一种潜在解决方案,但其自身也存在明显局限性。无论物理引擎如何精进,都无法完全复刻真实世界的如复杂摩擦、材料变形、光线散射、传感器噪声等所有物理效应和不可预测的人类行为。

将真实数据和仿真数据相融合,是目前比较行之有效的突破口。它的关键是新型采集技术的突破,改变真实数据采集的成本结构和效率水平。业界正在形成关于真实数据与仿真数据混合比例的共识,没有一刀切的最优解,需要根据具体应用场景和需求灵活调整。

时代周报:目前人形机器人初创公司众多,底层硬件、软件体系比较分散。你觉得是否有必要推动统一标准?现在业内有没有相关尝试?

闫维新:在人形机器人技术快速演进的不确定期,过早或过度的标准化可能带来一系列风险。其中最主要的是技术路径锁定风险——一旦某种技术被确立为标准,即使后续出现更优秀的技术方案,也难以替代已经形成生态的现有标准。这种风险在人形机器人发展的当前阶段尤为突出,因为许多基础技术仍在快速迭代中。

这种情况下,分级分类的标准推进策略成为一种平衡之道。这种策略根据不同技术成熟度和应用领域,采取不同的标准化节奏和方法。对于技术相对成熟的领域,可以积极推进标准制定。尤其在人形机器人数据格式、通信协议、安全要求等方面,技术已经相对稳定,标准化条件较为成熟。对于技术尚在快速演进的核心领域,则宜采取更为灵活的标准策略。可以先发布技术指南或最佳实践,为行业提供参考而不强制统一。

时代周报:世界模型和VLA模型都被认为是关键技术,你认为哪条路线更有前景?两者是否可能互补?

闫维新:人工智能正经历从感知智能向决策智能的重大转变,其中世界模型(World Model)和视觉-语言-行动模型(Vision-Language-Action,VLA)是两条备受关注的技术路线。

世界模型以视觉与运动数据为基础,通过生成式建模技术预测环境变化和行为后果。它具备强大的时空预测能力,能够对环境变化和车辆运动进行高精度预测。世界模型在难例场景构建方面表现出色,能够处理那些在现实世界中罕见但至关重要的极端情况,如紧急避障、极端天气条件下的驾驶等。世界模型的响应速度极快,不过也面临一些挑战。比如,世界模型对算力需求极高,硬件成本比VLA模型高40%以上。

VLA模型通过融合视觉输入和自然语言指令,直接生成可执行的物理动作。它通过语言和文字这一中间环节,将具象化的路况、图像进行归类并进行“抽象化”,而不只是单纯地对看过的数据“死记硬背”,从而使模型能取得更好的泛化能力。

世界模型与VLA模型虽然技术路径不同,但存在显着的互补潜力。世界模型擅长环境动态预测和物理规律理解,而VLA模型强于多模态融合和语义推理,两者的结合可以构建更加强大和全面的智能系统。

世界模型与VLA模型融合的核心是 “场景化裁剪 + 功能互补”。第一,不要做覆盖全场景的 “大而全” 世界模型,而是针对具体应用场景做 “模型包”。比如汽车装配场景,只保留 “螺丝、扳手、车身” 相关的物理引擎模块,砍掉无关的比如 “布料模拟” 模块,这样能把算力需求降低 70%。

第二,让世界模型负责 “预测”,VLA模型负责 “实操”。比如机器人要拧螺丝,先让世界模型预测 “拧螺丝需要的扭矩、角度”,再让 VR 模型根据视觉图像定位螺丝的位置,两者协同工作,既保证操作的准确性,又降低算力成本。

时代周报:行业常说人形机器人要在 100—300 毫秒内完成反馈,但大模型推理延迟往往是秒级。你觉得解决延迟问题更可能依靠算力架构优化,还是在模型侧做优化?

闫维新:我认为,人形机器人的延迟问题来源于一个复杂的技术链条:环境感知、数据处理、决策推理、运动控制。每个环节都可能成为延迟的贡献者,而大模型推理只是整个链条中的一个环节,虽然是当前最突出的瓶颈。

目前,基于“云-边-端”的协同计算将成为解决实时响应的方案,未来的人工智能系统不会是纯粹的端侧或云侧,而是分层协同、动态优化的智能体系。云端负责复杂大规模模型的训练、海量数据融合、模型版本管理和下发。边缘节点作为区域中心,处理多个端侧设备汇聚的数据,运行比端侧更大、比云端更敏捷的模型。端侧负责极致低延迟的实时推理和高隐私要求的任务。

这种技术发展趋势将带来端侧大模型的兴起,将经过裁剪和优化后的模型直接部署在终端上。实现完全离线的智能控制、交互对话、文本摘要、内容生成等功能,隐私性极佳、响应瞬间完成。

缺乏商业吸引力

时代周报:机器人要想真正大规模进入工业、服务等场景,你觉得在“大脑—小脑”协同体系中,还缺哪几个关键环节?

闫维新:“大脑”决策与“小脑”控制之间的协同衔接,决定了机器人能否在复杂不确定的环境中高效、可靠地完成任务。

我认为,机器人大规模进入工业、服务等场景首先缺失的是统一的世界模型与物理推理。人类大脑能够构建一个一致且持续更新的环境心理模型,并基于此进行物理常识推理,预测行动后果。而现有机器人系统往往缺乏这种能力,导致其在面对新场景或需要物理直觉的任务时表现不佳。

其次是自适应运动规划与控制,它是小脑的核心功能,但目前还未达到真正自适应的能力。人类小脑能够根据任务需求、环境变化和身体状态自动调整控制策略,实现从粗大运动到精细操作的平滑过渡。而现有机器人系统往往需要在精度、速度和鲁棒性之间进行权衡,难以适应动态变化的环境。

再次是人类意图理解与多模态交互,尤其是在服务场景中,机器人与人类的自然交互能力至关重要,而当前系统在理解人类意图和进行多模态交互方面仍存在不足。人类大脑能够从模糊的指令、手势、眼神甚至语境中推断他人意图,而现有机器人系统往往需要明确、结构化的指令。非语言指令理解是一个关键缺失环节。

最后是能耗效率与实时性能。人类大脑功耗仅约20瓦,却能实现复杂的认知和运动控制功能,而现有机器人系统往往需要高昂的能耗和计算资源才能实现相对简单的任务。计算资源分配优化是关键挑战。

时代周报:电池续航不足会不会成为人形机器人商业化的主要瓶颈?在提高电池本身续航能力,以及降低整体能耗方面,业内目前有哪些探索?

闫维新:当前大多数人形机器人单次充电仅能工作1-2小时,而实际工业应用通常需要至少4-8小时的持续工作时间。更严峻的是,人形机器人在高负载任务中瞬时功率可高达30KW,对电池放电能力提出极高要求。这种能量需求与供应能力之间的差距,直接影响了人形机器人的实用性和经济性。

核心是解决 “高功率密度” 和 “高能量密度” 的矛盾:高功率密度需要瞬间爆发力(如双足跳跃),高能量密度需要长续航(如 8 小时连续工作),现有磷酸铁锂、三元锂电池都无法同时满足。未来的方向是 “异构电池系统”:用不同类型电池搭配,再通过 BMS(电池管理系统)实现智能切换。

时代周报:现在人形机器人更多是表演、导览等场景。要真正大规模走向产业应用,还缺哪几块关键拼图?

闫维新:在我看来,人形机器人要真正实现产业化应用,需要克服技术、成本、生态、政策等多重障碍。

在技术上,许多演示场景中的舞蹈动作是预设提前训练的,并不具备真实场景决策能力。这种“伪智能”困局严重限制了机器人在复杂产业环境中的适用性。人形机器人需要处理高度复杂和动态变化的场景,现有系统往往需要重新采集数据并进行训练,这个过程可能耗时数天,无法满足实时性要求高的生产环境。

成本与商业化瓶颈方面,当前高端人形机器人单机成本在20-40万元之间,投资回报周期长达15-30个月,缺乏商业吸引力。此外,测试验证体系不完善是人形机器人产业化的另一个障碍。产业应用对可靠性和安全性要求极高,但缺乏权威的测试平台和评估标准来验证机器人在各种场景下的性能。

fund

证券之星资讯

2025-09-30

首页 股票 财经 基金 导航