|

股票

击败Runway和快手可灵,生数科技Vidu Q1登顶成为最强视觉大模型

来源:证券时报网

媒体

2025-04-22 19:24:00

(原标题:击败Runway和快手可灵,生数科技Vidu Q1登顶成为最强视觉大模型)

4月21日,生数科技全新视频大模型Vidu Q1官宣全球上线。据视频生成模型权威测评基准VBench-1.0以及VBench-2.0刚刚发布的测评结果,Vidu Q1在VBench系列的两个榜单上都超越了Runway Gen-3、OpenAI Sora、快手的Kling1.x等国内外顶尖模型,拿下文生视频赛道榜单双第一。

VBench系列是业内权威的第三方视频生成模型的评测框架,VBench-1.0从对视频模型进行表面真实性评估,而VBench-2.0侧重物理规律、常识推理等内在真实性。Vidu Q1在VBench-1.0的视频质量、视频语义一致性以及VBench-2.0常识推理、物理理解等综合维度上达到SOTA水平(即当前最先进的模型),成为全球视频生成效果最强模型。

具体来看,Vidu Q1在表面真实性上遥遥领先,超过了国内外视频模型Runway Gen-3、Kling 1.x等,尤其在美学质量、对象生成、场景生成、视频语义一致性等方面表现出色。在内在真实性上Q1也取得了第一的亮眼成绩。

此外,在国内权威大模型测评机构SuperCLUE的图生视频榜中 ,Vidu Q1也在动漫风格、写实风格上均斩获双榜单第一的亮眼成绩。

生数科技表示,此次发布的Q1是Vidu的新一代高质量模型,“Q”代表着模型具备更高画面质感、更强语义理解。目前Vidu Q1已支持生成5秒、1080P高质量视频,不断推进AI视频走向商业化。

据了解,此次上线的Vidu Q1在“极致高质量”上进行了全面升级:一是电影级高清画质,Vidu Q1文生视频和图生视频支持1080P视频直出,无论是宏大的科幻叙事还是人物特写的细微表情,都可以清晰呈现;二是首尾帧更全能,只需两张图,即可生成大师级运镜,电影镜头感UP,镜头语言理解能力大幅提升,即使是复杂场景运镜也能高质量完成;三是动画风格更惊艳,Vidu Q1在动画风格的生成效果上再度升级,高动态的运动表现力,更加多元化的动画风格;四是上线AI音效功能,一句话就能生成精准专属音效,还可实现多种音效叠加,让AI视频生成进入“有声时代”。

Vidu Q1发布后获得了海外内视频创作者的广泛关注,有海外创作者表示,一致性与1080P质量相结合,达到顶级一流水准。据相关实测,Vidu Q1已支持1080P高分辨率,可直接生成用于动漫、短剧、电商、品牌广告的视频内容,实现“即生成、即商用”。

在其中一则案例中,从水转化为冰晶的过程,在Q1镜头下清晰可见——冰晶晶莹剔透,每一片都呈现出独特的花朵形态。过去需要专业摄像机长时间延时摄像才能实现的变化效果,如今在Q1上几分钟即可生成。

此外,Vidu的首尾帧功能在创作者中广受欢迎,仅需两张图,就能自动生成流畅自然的中间镜头,大幅节省创作成本。据了解,Q1在此基础上再升级,镜头更丝滑、语义理解更准确,无论是推、拉、摇、移等镜头动作,都能直接生成,还可实现一系列镜头运动,衔接自然。

在价格方面,一个1080P、时长为5秒的转场镜头价格低至1.34元,即每秒价格仅为3毛钱,是其他同行的十分之一,拥有较高的性价比。目前,Vidu Q1已全球同步上线,可立刻体验,无需排队和申请内测。

生数科技成立于2023年3月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型,是国内最早布局多模态通用大模型的团队之一。公司的CEO本硕就读于清华大学计算机系的唐家渝,首席科学家由清华人工智能研究院副院长朱军担任,CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究。

值得注意的是,去年4月,在中关村论坛未来人工智能先锋论坛上,生数科技就发布了中国首个长时长、高一致性、高动态性视频大模型Vidu,被称为“中国版Sora”。成立至今,生数科技已完成多轮融资,背后的投资方包括北京市人工智能产业投资基金、中关村科学城公司、启明创投、蚂蚁集团、BV百度风投、卓源亚洲、锦秋基金、达泰资本、智谱AI等多家机构。

证券时报网

2025-04-22

证券之星资讯

2025-04-22

证券之星资讯

2025-04-22

首页 股票 财经 基金 导航