|

财经

21观察│重新认识DeepSeek奇迹

来源:21世纪经济报道

2025-01-28 16:53:27

(原标题:21观察│重新认识DeepSeek奇迹)

21世纪经济报道记者孔海丽 北京报道

一支来自“中国的神秘力量”,一再震撼硅谷和华尔街,以算法打破了算力神话,重构AI叙事。

当地时间1月27日,美股芯片板块大幅调整,英伟达暴跌16.86%,创市值最大蒸发纪录;博通大跌逾17%,甲骨文下跌近14%,纳斯达克下挫3.07%。

很多投资者将这次的调整归因于DeepSeek的崛起。这家位于杭州的人工智能公司,最近推出了最新开源大模型R1,其性能直追OpenAI大模型o1。

该公司去年12月推出的大模型DeepSeek-V3,多项测试性能直追Anthropic的Claude-3.5和OpenAI的闭源模型GPT-4o,个别项目甚至有所超越。

正当一批AI分析师认为DeepSeek只聚焦于语言大模型而暂时放弃多模态模型时,该公司于1月28日发布了一款多模态大模型Janus-Pro,而该模型在图像生成基准测试中超过了OpenAI的DALL-E3。

最令硅谷震惊的是,DeepSeek的开源大模型,性能卓越,却是在更低成本、更短时间、更少算力的基础上实现的。V3和R1的训练成本均只有550万美元左右,不及Anthropic和OpenAI同类模型成本的十分之一。

1月27日,DeepSeek登顶苹果中国地区和美国地区应用商店免费App下载排行榜,超越了ChatGPT。

这当然是不折不扣的奇迹。

美国总统特朗普当地时间27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的崛起应当为美国企业敲响“警钟”,“这可能是非常积极的发展。因此,与其投入数十亿资金,不如花费更少的(资源),但愿能得出同样的解决方案。”

人工智能国际大佬又是如何看待这一奇迹?

微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在世界经济论坛上谈到DeepSeek时表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地构建了一个开源模型,能够在推理计算时高效运行,而且在计算效率方面表现出色。我们必须非常非常认真地对待中国的AI进步。”

创立于2022年的Perplexity,估值90亿美元,是仅次于Anthropic和OpenAI等第一梯队的人工智能新创企业。近日,Perplexity首席执行官Aravind Srinivas(阿拉温德·斯里尼瓦斯)在一次访谈中详谈了对DeepSeek的看法。

斯里尼瓦斯表示,需求是发明之母。由于硬件资源条件受限,中国企业不得不寻找变通方案,最终,“他们(DeepSeek)以更高效、更低成本的方式开发了类似(Anthropic和OpenAI)的技术。这确实让人感到压力”。如果说Meta正在赶上OpenAI或Anthropic,那么同样的说法也可以用于中国赶上美国。

但是,为DeepSeek的成就感到兴奋自豪之余,也要对世界人工智能永不停歇的发展势头保持客观理性的认识,不可盲目自满。记者近期采访了多位国内专家和相关从业人员、投资者,关于DeepSeek现象,有以下共识:

其一,V3和R1的重大突破,并不能证明算力不重要。

近几年以OpenAI为代表的美国人工智能发展,是建立在更强的算力、更大的参数、更高的成本之上。某种程度上,它可称之为人工智能的“硅谷叙事”。这个粗放豪横的模式讲到极致,就是5000亿美元的星际之门计划。

但中国企业无法获得高性能的芯片,也没有那么多的资金。客观条件受限,只能在底层算力基础上进行架构、算法和数据利用方面的探索,在特定领域走出一条高效率、低成本的实用主义路子。

这条路子就是如浙江大学计算机博士、美国南加州大学访问学者傅聪所说的,在“后训练”过程中,通过学习CoT(思维链)的方式,一步一步推理得出结果,而不是直接预测答案,“这一方案,也是圈子内对OpenAI o1模型实现路径的猜测,而Deepseek用极快的速度,验证了这一路径的可行性!”

事实上,DeepSeek创始人梁文锋透露,此前该公司已储备了万张A100芯片等。这比一般初创公司强多了。只不过,在开发V3和R1时,由于效率高,他们没有使用那么多算力罢了。

其二,英伟达等芯片股的调整,主要是市场风险的释放,与DeepSeek的重大突破之间,逻辑上没有必然联系。

以英伟达为代表的人工智能板块,已持续上涨几年。中间虽然偶有波动,但调整并不充分。英伟达PE长期横移在40倍上方,17日收盘后仍有45倍。

1月17日纳斯达克芯片股的大跌,更多是在高估值风险预期之下一种市场情绪的释放。DeepSeek只是提供或者触发了风险释放的媒介。现在没有证据表明,全球算力尤其是高端算力资源已经过剩。更大的可能是,如果2025年打开了人工智能应用的空间,算力需求也会随之增加,只不过,像DeepSeek这样高效率利用算力,将会被更多企业借鉴。AI硬件仍有很大的增长空间,算力叙事没有过时。

当地时间1月27日,英伟达发表声明表示,DeepSeek所取得的进展,显示出其芯片在中国市场的实用价值,且未来为满足DeepSeek的服务需求,将需要更多英伟达芯片。

其三,探索与追赶:中国企业的创新能力在增强。

梁文锋去年7月在接受媒体采访时说,硅谷习惯于将中国AI公司视为follow的角色,当一个中国公司以创新贡献者的身份,加入到他们游戏里去,而且表现优异时,他们就很震惊。

毫无疑问,在大模型开发路径上,DeepSeek扮演了一种创新者的角色,亦即低成本、少算力的高效集成之路。

作为追赶者,存在后发优势。1月26日,在拾象创始人兼CEO李广密组织的关于 DeepSeek的闭门讨论会上,专家提出,AI 类似阶跃函数,现在做追赶者的算力需求少了 10 倍。追赶者的算力成本一直不太高,但探索者还是要训很多模型。

后发者可以聪明地进行创新。举个例子。大模型开发需要庞大的数据集(数据库)。而数据有没有标注,其精确度是不一样的。前述专家透露,DeepSeek 非常重视数据标注,听说梁文锋自己也会打标签,这就大大提高了他们数据的精确度。再比如,DeepSeek还善于做数据蒸馏(优化筛选),当然如果是开发通用大模型就不能做数据蒸馏。这些都是‌该公司Post-training更高效率的体现。

DeepSeek给国内同行的其他启示还包括,大模型开发在降低成本的同时也可以探索智能的边界,在Transformer之外寻找其他架构;产品上,AI agent在未获得大规模应用之前,有很大的探索空间,存在多领域商用的机会,今年在多模态方面,可能会出现能挑战ChatGPT形态的产品。

硅谷一位华裔资深AI工程师对21世纪经济报道记者说,DeepSeek以低成本、高效率开发了几款了不起的产品,探索出了一条全新的路径,让国际同行也不得不佩服,但我们在自豪之余,也要客观认识到,DeepSeek等中国AI新创企业,目前还不具备全面挑战OpenAI、Anthropic这些巨头的实力。人工智能的竞争才刚刚开始,前面有无限可能。

21世纪经济报道

2025-01-30

证券之星资讯

2025-01-29

证券之星资讯

2025-01-29

证券之星资讯

2025-01-29

首页 股票 财经 基金 导航