(以下内容从华安证券《互联网:DeepSeek成本和性能双突破,有望加速国内AI进程》研报附件原文摘录)
主要观点:
DeepSeek取得AI模型性能和成本的双重突破
公司发布并开源了其最新的AI模型DeepSeek-R1。该模型在多个基准测试中表现出色,特别是在数学推理和编程任务上,达到了与OpenAI的o1模型相当的性能水平。例如,在AIME2024数学基准测试中,DeepSeek-R1的得分率为79.8%,略高于o1的79.2%;在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,也优于o1的96.4%。此外,DeepSeek发布了多模态开源模型Janus-Pro,在GenEval和DPG-Bench基准测试中,击败了Stable Diffusion和OpenAI的DALL-E3;而阿里巴巴发布了Qwen2.5-Max,为超大规模MoE架构;OpenAI跟进,依次发布了全新的推理模型o3-mini,为其推理模型首次免费,并在ChatGPT上线Deep Research,可在数十分钟完成人类专家需要几个小时的复杂研究任务。
DeepSeek主要通过训练流程设计和新算法应用取得创新
12月发布的DeepSeek-V3主要体现了高效架构与创新技术的结合,包括1)MoE架构的共享专家策略,减少知识冗余,提高参数效率;2)DeepSeek-V3引入了FP8混合精度训练框架,占用空间更小,计算速度更快;3)多头潜在注意力(MLA)机制,模型的表示空间得到扩展,复杂特征的学习能力提升,并行计算提高处理速度;4)多Token预测(MTP)的应用,通过极致的内存和通讯管理,部分克服了MTP的缺点,从整体上提高了大模型的训练效率;5)数据并行和模型并行,显著提高了GPU利用率,同时减少了通信开销;而从DeepSeek-V3到1月份的DeepSeek-R1,则在强化学习技术上有所创新,结合了监督学习和强化学习的优势,提高了模型的可读性和初始推理能力。
投资建议
目前生成式AI仍属于技术发展早期阶段,单位成本下降是技术快速发展的必然趋势,可以加速技术扩展,增加应用范围及场景。腾讯云、华为云、微软云、谷歌云、亚马逊云、英伟达、AMD、Intel陆续上线DeepSeek-R1,AI下游使用的增长有助于拉动国内云基础设施的需求增加,建议关注阿里巴巴-W、腾讯控股、百度集团-SW、金山云(未覆盖)等;端侧AI有望提速,建议关注小米集团-W、联想控股等;SaaS等软件是AI赋能提效落地的重要场景,建议关注焦点科技、金山办公、金蝶国际等;垂直行业应用值得持续关注,成本降低有助于寻找PMF(product market fit),建议关注美图公司等。风险提示
行业竞争格局剧变风险、宏观经济波动风险、政策及监管趋严风险、科技创新落地进展不及预期风险。