DeepSeek，又有大消息！

来源：证券时报网

媒体

2025-03-01 18:52:04

（原标题：DeepSeek，又有大消息！）

DeepSeek又有大消息。

3月1日，DeepSeek发表题为《DeepSeek-V3/R1 推理系统概览》的文章，全面揭晓V3/R1 推理系统背后的关键秘密。

最为引人注目的是，文章首次披露了DeepSeek的理论成本和利润率等关键信息。据介绍，假定GPU租赁成本为2美元/小时，总成本为87072美元/天；如果所有tokens全部按照DeepSeek R1的定价计算，理论上一天的总收入为562027美元/天，成本利润率为545%。

根据DeepSeek官方披露，DeepSeek V3和R1的所有服务均使用H800 GPU，使用和训练一致的精度，即矩阵计算和dispatch 传输采用和训练一致的FP8格式，core-attention计算和combine传输采用和训练一致的BF16，最大程度保证了服务效果。

另外，由于白天的服务负荷高，晚上的服务负荷低，因此DeepSeek实现了一套机制，在白天负荷高的时候，用所有节点部署推理服务。晚上负荷低的时候，减少推理节点，以用来做研究和训练。

在最近24小时（2025年2月27日12:00至28日12:00）的统计周期内：GPU租赁成本按2美元/小时计算，日均成本为87072美元；若所有输入/输出token按R1定价（输入1元/百万token、输出16元/百万token）计算，单日收入可达562027美元，成本利润率高达545%。

不过，DeepSeek官方坦言，实际上没有这么多收入，因为V3的定价更低，同时收费服务只占了一部分，另外夜间还会有折扣。

DeepSeek的高利润率源于其创新的推理系统设计，核心包括大规模跨节点专家并行（EP）、计算通信重叠与负载均衡优化三大技术支柱：专家并行（EP）提升吞吐与响应速度，针对模型稀疏性（每层仅激活8/256个专家），采用EP策略扩展总体批处理规模（batch size），确保每个专家获得足够的计算负载，显著提升GPU利用率；部署单元动态调整（如Prefill阶段4节点、Decode阶段18节点），平衡资源分配与任务需求。

计算与通信重叠隐藏延迟，Prefill阶段通过“双batch交错”实现计算与通信并行，Decode阶段拆分attention为多级流水线，最大限度掩盖通信开销。

全局负载均衡避免资源浪费，针对不同并行模式（数据并行DP、专家并行EP）设计动态负载均衡器，确保各GPU的计算量、通信量及KVCache占用均衡，避免节点空转。

简单来说，EP就像是“多人协作”，把模型中的“专家”分散到多张GPU上进行计算，大幅提升Batch Size，榨干GPU算力，同时专家分散，降低内存压力，更快响应。

DeepSeek在工程层面进一步压缩成本。昼夜资源调配：白天高峰时段全力支持推理服务，夜间闲置节点转用于研发训练，最大化硬件利用率；缓存命中率达56.3%：通过KVCache硬盘缓存减少重复计算，在输入token中，有3420亿个（56.3%）直接命中缓存，大幅降低算力消耗。

综合自券商中国

特别推荐

热点上“起舞”的宝通科技：股价“降温”情绪酝酿，传统主业经营失色

证券之星资讯

2025-02-28

A股突然大跌！发生了什么？

证券之星资讯

2025-02-28

券商今日金股：3份研报力推一股(名单)

证券之星资讯

2025-02-28

首页股票财经基金导航

举报专区联系我们

DeepSeek，又有大消息！

相关个股

相关阅读

特别推荐