2024云栖大会集聚硬科技，AI产品迭出、应用场景萌发

来源：21世纪经济报道

2024-09-19 18:20:28

（原标题：2024云栖大会集聚硬科技，AI产品迭出、应用场景萌发）

21世纪经济报道记者柳宁馨杭州报道

9月19日，2024云栖大会在杭州开幕，这是汇集AI硬科技最多的一届云栖大会，也展示了AI从科技前沿到提升生产效率、打造美好生活的应用前景。云栖大会最早可追溯至2009年，目前成为体现中国计算产业的萌发与革新的重要展会之一。

今年的大会以“云启智跃，产业蝶变”为主题，吸引大模型、自动驾驶、机器人等领域的400多家国内外企业来到现场。围绕通用人工智能（AGI）、自动驾驶、人形机器人这三个决定性场景，AI为产业和生活带来的巨大想象空间徐徐展开。

21世纪经济报道记者观察发现，不少机器人、制造业企业参展商是第一次参展，这意味着今年以来，AI与智能制造及延伸领域、具身智能场景领域结合得更加紧密，而生成式AI和云计算成本下降也带动了应用创新门槛的降低，但大规模商业化应用仍未铺开。

大模型推理成本指数级下降

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在主题演讲中表示，过去22个月，AI发展的速度超过任何历史时期，但现在依然还处于AGI变革的早期阶段。大模型技术快速迭代，技术可用性大幅提升。同时，模型推理成本指数级下降，已经远远超过摩尔定律。

例如，大模型已经具备了文本、语音、视觉的多模态能力，能够开始完成复杂指令。

多模态大模型在各应用场景加速落地。在视觉方面，AI技术生成视频已经是多家企业落地的产品。此外，分子动力模拟、3D/4D模型生成、智能编码等也在改变人们的工作和生活方式。

阿里控股达摩院基础智能中心商务负责人薛腾飞在接受21世纪经济报道记者采访时表示，达摩院开发的一站式AI视频创作平台寻光视频在今年7月的上海世界人工智能大会正式亮相，主要提供视频制作辅助工具，可以实现剧本创作、分镜图设计、视频素材编辑等需求，目前已开放内测。

不过，AI生成视频在物理世界模拟方面仍需要继续提升。“生成4秒、8秒视频和10秒以上视频的难度不同，视频时长越长，保证画面物理状态准确度的技术难度越高。”薛腾飞说。

生数科技展示了Vidu视频大模型，支持文字和图片输入，可以生成4秒和8秒时长的视频。21世纪经济报道记者体验发现，输入“杭州西湖跳水”这一个短句后，4秒的视频画面很快就自动生成，内容为西湖边3位正在跳水的人，人像是远景，不过面部并不清晰，有一个瞬间人像变为水花再变回人像，出现了与物理世界错位的图像。

（Vidu生成的视频，拍摄/柳宁馨）

生数科技相关负责人告诉21世纪经济报道记者，AI生成视频有时会出现画面和物理世界状态不符的问题，这也是产品后续需要持续克服的问题。企业已研发出长视频的生成工具，已有影视行业等B端合作用户，用于影视分镜制作等用途。

另一个多模态大模型的特色案例是阿里通义实验室Mobile-Agent，Mobile-Agent项目开发人员告诉21世纪经济报道记者，Mobile-Agent基于最强多模态大模型GPT-4V实现，首先接收用户的指令，然后根据当前屏幕截图、操作历史和系统提示生成下一步操作。例如，可以在指令中输入“在‘小红书’中搜索一篇上海美食指南”，Agent可以迅速调动感知工具，调动相应app进行相应操作。

月之暗面Kimi创始人杨植麟在大会主论坛上表示，AI产品在形态上也会发生一些变化，现在AI的产品形态类似于即时聊天的这种产品形态，以后AI产品可能不仅是这种形态，还有可能是思考或者去调用各种工具，然后执行分钟级别、小时级别甚至每天级别的任务。

“所以AI产品形态上它可能会更接近一个人的生活助理的概念，新的想象空间是蛮大的。”杨植麟说。

模型推理成本指数级下降，是当前大模型应用百花齐放的基础。吴泳铭表示，一年来，通义千问API在阿里云百炼上的调用价格下降了97%，百万Tokens调用花费最低已经降到了5毛钱。

今年5月，AI大模型打响了价格战，BAT、科大讯飞、字节等多家企业集体降价，百万Tokens低至1元，开启了大模型“厘时代”。进入7月后，大模型价格战仍然在继续。这意味着，对企业和开发者而言，大模型像基础设施一样，相关成本降低后，服务创新应用也会持续增长。

自动驾驶、机器人迎来巨变

前沿应用，是AI最终改变人们生产和生活的落地之处。21世纪经济报道记者在本届大会上观察到，大模型正在扎进越来越多的垂直场景，逐步实现商业化落地。

吴泳铭表示，生成式AI让世界有了一个统一的语言——Token。它可以是任何文字、代码、图像、视频、声音，或者是人类千百年来的思考。AI模型可以通过对物理世界数据的Token化，理解真实世界的方方面面，比如人类行走、奔跑、驾驶车辆、使用工具，绘画、作曲、写作、表达、教学、编程的技巧，甚至是开公司创业。理解之后，AI就可以模仿人类去执行物理世界的任务，这将带来新的产业革命。

以汽车行业为例，“端到端”的大模型技术训练将感知、决策、执行三个功能模块整合在一起，传感器端收集信息，直接到另一个端，执行端立刻执行。本届大会上，“自动驾驶”是最热门的话题之一。

在“生成式AI重塑自动驾驶”主题讨论中，小鹏汽车董事长、CEO何小鹏表示，有了大模型的加持，自动驾驶试验车转向、切线，甚至比人们自己开车还要流畅。目前，只是自动驾驶竞争的初级阶段，未来，一定会有更多的突破出现。

英伟达全球副总裁、汽车事业部负责人吴新宙则表示，有了大模型，智能驾驶没有上限。

21世纪经济报道记者观察到，特斯拉的展位上实时播放“端到端”的视频介绍，今年1月，特斯拉FSD升级到了基于“端到端”的V12版本，今年3月，特斯拉FSDV12 版本正式在北美推送。

不过，“端到端”自动驾驶将功能模块神经网络化，背后需要巨大的算力支撑和成本支出。目前，特斯拉FSD累计学习的人类驾驶视频片段超过2000万个，仅采集成本就需要50亿元至80亿元。截至2024年Q2季度，特斯拉自建超算中心AI算力已经超过4万张英伟达H100等效算力。

在吴泳铭看来，机器人将是下一个迎来巨变的行业。未来，所有能移动的物体都会变成智能机器人。它可以是工厂里的机械臂、工地里的起重机、仓库里的搬运工、救火现场的消防员、包括家庭里的宠物狗、保姆、助理。

人形机器人同样是AI应用的重要领域。杭州聪宝科技有限公司总裁顾高生在接受21世纪经济报道记者采访时表示，企业参与了复旦大学工程与应用技术研究院智能机器人研究院研发的“光华一号”人形机器人，该产品目标定位为老年人的“保健医生”，将中医药诊疗的大模型与机器人结合起来，可以提供中医调养按摩、中医咨询、情感陪护等。

（“光华一号”人形机器人，拍摄/柳宁馨）

“以往机器人采用固定的机械臂，按照固定程序进行机械动作，但现在智能机器人有很多传感器、雷达、摄像头，可以进行图像识别和更多智能化的动作。大模型也大大提升了机器人的决策能力，未来机器人会变得更加聪明。”顾高生说。

目前，机器人的大模型成本已经明显下降，但传感器等零部件成本依然比较高。

不少机器人企业告诉21世纪经济报道记者，人形机器人的竞争目前还在产品性能，AI和机器人硬件的成本都不低，虽然目前大模型的成本在下降，但人形机器人企业需要投入自身的研发成本进行强化学习、模仿学习等，目前还未有清晰的商业化应用场景。

不过，一些机器人企业已经找到细分的落地方向，逐步实现量产，杭州宇树科技有限公司是其中的代表。目前，企业的两款人形机器人Unitree G1、H1和两款四足机器狗已实现量产。H1是全球首款实现原地后空翻的电驱人形机器人，已在汽车工厂成功部署，可进行搬运等工作。