来源:21世纪经济报道
媒体
2025-02-25 13:25:57
(原标题:从算力到数据,DeepSeek热潮如何重塑大模型生产要素供给)
南方财经全媒体记者 吴立洋 上海报道
近日,一年一度的科技盛会——全球开发者先锋大会(GDC)在上海徐汇拉开帷幕,作为春节DeepSeek掀起新一轮开源大模型热潮后,上海首个重大科技展览交流活动,来自AI、机器人、低空经济等多个前沿科技领域的从业者与专家齐聚徐汇西岸,探讨产业未来的发展路径。
其中,此前在大模型训练中被视为关键要素的算力、数据和算法,其获取与使用链条在新的AI产业发展趋势下亦发生了显著变化,立足场景、应用导向的特点愈加明显,产业生态的参与者和合作方式也渐趋复杂与多元。
在这样的背景下,构建层次更清晰的大模型产业商业模式,为各环节生产要素提供充分、稳定的供给,成为自算力和数据供给方、基础大模型厂商、垂直大模型开发商和相关政府部门、行业协会共同关注的焦点问题。
作为近期最受行业关注的明星产品,DeepSeek本身的一大亮点在于其开源属性和更低的算力成本。
据披露,DeepSeek-V3 为自研 MoE 模型,总参数 671B 参数,而每项任务仅激活 37B,在 14.8T token 上进行了预训练。通过采用FP8 精度训练、 DualPipe双向流水线等技术,DeepSeek有效降低了训练成本,而通过优化MoE负载均衡、多头潜在注意力机制(MLA)等方式,其进一步降低了推理成本。
“DeepSeek的成功显示,在算力有限的情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对未来的产业发展非常重要。”蓝耘科技集团产品总监顾瑞泉在论坛发言中表示,在本轮AI热潮中,随着大模型版本的迭代,前沿模型的参数量和算力消耗量都是急剧增长的状态,但DeepSeek的出现使得这一数据大幅下降。当前在一些专有模型或推理模型中,更多的开发者开始选择通过技术改进降低预训练成本和推理成本。
另一方面,在DeepSeek带动的开源浪潮下,越来越多的优质大模型不断加入,算力使用的重心正在从传统的预训练调节向后训练转移。随着大模型在当下阶段内训练成效达到一定瓶颈,未来AI的实际使用提升也将更多依赖长期推理能力的运营,随着更多大模型运营的落地,算力供给也将迎来对应的市场机遇。
另一个直观的案例,则是马斯克旗下xAI采用20万张英伟达H100芯片训练而成的Grok3大模型,同样表现出优秀的性能,按照各要素成比例增长的惯例,这意味着Grok3同样拥有庞大的参数量和训练数据规模,这从另一个角度证明了通过大量算力供给“大力出奇迹”的路径依然可以走通。
因此,虽然DeeoSeek对算力的高效运用方式使得后者价格在一定时间内有所下滑,但另一个直接的数据表现是算力的整体需求量依然在稳步提升,未来算力市场依然拥有广阔的前景和在大模型产业链中不容忽视的重要性。
而对于产业生态中不同环节的厂商应如何规划和使用资深的算力资源,参与讨论的嘉宾也分享了自己的看法。
蜜度科技CTO刘益东表示,对于算力资源有限的厂商,拉长训练时间换取成本依然是可行的路径,随着大模型行业整体进入发展期,除非需要赶某一个重要发布节点而缩短训练时间,进行长时间的持续训练是很多开发者的更优选。
京游云智能科技总经理宋杰则指出,从经营角度来看,时间成本也是大模型公司运营中重要的环节,在AI产业迅猛发展的情况下,提前抢占生态中的关键节点与位置同样重要,考虑到使用高端算力以更短时间完成训练也能节省能耗成本,因此在不同场景下需结合资深需求灵活选择非常重要。
相较于算力领域的效率优化与供需调整,大模型训练中所需的语料数据资源枯竭,成为行业面临的更为迫切的问题。
前OpenAI首席科学家Ilya Sutskever在去年12月的一次交流中表示,用于大模型预训练的数据增长正在放缓,人类互联网上能够提供的数据资源面临枯竭。
导致该问题的主要原因来自两个方面:一方面,“原生数据”犹如化石燃料难以重复使用,现有的数据资源即将开采殆尽;在算力近年来成倍增长的同时,高质量训练数据的自然增长的速率远远不及其消耗的速率,无法跟上算力的增长率。
在这样的背景下,要支撑大模型当前的迭代频率和发展速度,作为重要原料的语料数据资源供给也势必要进行升级。华东师范大学计算机科学与技术学院副院长贺樑在论坛主题发言中表示,大模型原生语料的时代将要过去,而合成语料的时代即将到来。相较于前者,后者在供给量、个人隐私安全合规、数据偏见等方面存在显著优势,是缓解环节大模型数据供给补足,并从语料端优化训练效果、提升大模型能力的重要方向。
具体而言,大模型训练语料的范式即将经历从原生语料、知识型语料、密集型语料向合成语料、推理/认知型语料、稀疏高效型语料的转变。未来,合成数据在预训练中的使用比例将会进一步提升,而在后训练中数据质量的重要性将超过数据量的重要性,产业将会选择一种“丰富且高质量的预训练数据+少而精的后训练数据”组合,在这一过程中,随着大模型本身能力的不断进化,其也能够生产出质量更高的合成数据,从而加速从预训练到后训练的闭环进化。
“面对AI时代,企业需重新审视和调整原有的治理体系、方法及工具。”库帕斯科技董事长山栋明在论坛发言中表示,未来大模型训练的语料来源将会基于“三个同心圆”,最外围是通用知识,中间是80%具有行业共性的行业知识和20%企业独有的知识,内核是企业经营状态数据,这种多元知识体系组成的训练语料将为包括通用基础大模型和垂域行业大模型在内的AI产业提供数据支撑。
面临变化愈加频繁的大模型市场,产业链间相互协同,共同构建更紧密的人工智能生态,成为本次GDC大会各方都持有的共识。其中的一大助推因素,是近期AI在各大垂直领域的广泛应用,使得其与实际生产生活的各个行业结合愈加紧密。
中商产业研究院发布的《2025-2030全球及中国人工智能软件行业发展现状调研及投资前景分析报告》指出,数字化转型加速,随着企业数字化转型的加速,AI软件在各个领域的应用将更加广泛。无论是制造业、金融业还是医疗业,都需要借助AI软件来提升生产效率、降低运营成本并增强竞争力。
这种与社会生产更广泛的结合,不仅为AI训练提供了更多可供学习的语料和数据,也为AI产品形态的完善和成熟奠定了基础。
“2025不仅是智能体元年,还是智能体toB爆发的元年。” 蚂蚁数科AI技术负责人章鹏表示,智能体的发展趋势是自然而然的,在业内对大语言模型的缺陷进行弥补和优化的过程中,各项技术的结合最终形成了智能体。而智能体的行业应用将在数字化水平比较高的领域率先展开,例如金融、教育、医疗领域。
在整个产业链环节中,区域产业集群的形成与地方政府的扶持,亦是推动国产大模型厂商不断创新的重要保障。GDC的东道主上海徐汇作为近年来率先构建大模型社区的地方政府,也为如何促进算力、数据、应用等多方资源协同,构建从研发到商业落地的人工智能产业生态,提供了一个值得参考的样本。
据悉,近日徐汇区发布《徐汇区优化营商环境行动方案8.0》和新一轮产业政策体系,同时再投入50亿元专项资金,做强五大战区招商营商机制。
根据新一轮产业政策体系,徐汇区将构建包含“功能性政策+专项政策+资金管理办法”共20项产业政策,在项目落地、市场拓展、规模化发展等不同阶段,为科技创新、平台建设、品牌活动、载体配套、人才服务等提供全面支撑。
在人工智能产业方面,徐汇构建“模速空间”大模型产业社区,先后落地上海人工智能实验室、上海创智学院等战略科技力量,集聚人工智能企业上千家。近期,港科大上海产教融合中心、600亿国家人工智能大基金先后落地徐汇。充足的产业发展资源吸引了更多上下游企业进入徐汇,而企业间、人员间的交流与思想碰撞则为更前沿的创新和市场应用提供了可能。
在本次GDC期间,语料工作委员会、MiniMax智能硬件产业创新联盟等正式在徐汇宣告成立,随着产业间协同生态的完善,中国大模型产业有望迎来更开放、高效的开发环境与市场空间。
观点
2025-02-25
21世纪经济报道
2025-02-25
21世纪经济报道
2025-02-25
21世纪经济报道
2025-02-25
21世纪经济报道
2025-02-25
时代财经
2025-02-25
证券之星资讯
2025-02-25
证券之星资讯
2025-02-25
证券之星资讯
2025-02-25