来源:AI蓝媒汇
2026-03-19 11:11:58
(原标题:马斯克也来站台,中国团队对AI底层架构动手术)
作者 | 封华
编辑 | 魏晓
来自中国的Kimi,再一次引发了硅谷AI圈的注意。
3月16日,月之暗面Kimi发布了一项技术报告《Attention Residuals》(注意力残差),重新设计了深度学习中核心的残差连接结构。
报告发布后,引来了一众企业家和AI大佬的围观。连续三天登上Twitter全球热搜榜,主贴阅读量超过 460万,堪比一次模型重要版本发布。
OpenAI的“推理模型之父”、前OpenAI研究副总裁Jerry Tworek表示:“深度学习2.0要来了”。
马斯克称赞道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。随后,Kimi进行了回应:“你的火箭造得也不错!”
中外AI,在这一刻产生了惺惺相惜之感。
马斯克在业内一向“口无遮拦”,曾嘲讽Anthropic大规模窃取训练数据,也曾批评OpenAI成为“逐利公司”。只有真心认可,他才会不吝点赞。
这次马斯克对Kimi大加赞赏,正是震惊于AI技术的突破。
Kimi提出的注意力残差,旨在突破大模型架构中的瓶颈,改写大模型训练效率与成本曲线。
技术突破“炸场”的同时,月之暗面创始人杨植麟还成为英伟达年度大会GTC 2026,唯一受邀演讲的中国大模型公司创始人。
在演讲中,杨植麟没有去讲Kimi的用户数,或是其他商业数据,而是解读了一个核心问题:当算力基建的规模化(Scaling)已成为行业共识,我们到底该Scale什么?
当全球AI竞争进入深水区,Kimi的估值已狂飙至1200亿元。从这次的技术突破,和杨植麟干货满满的演讲中,能看到Kimi对追求智能上限的执着。
新技术改变了什么?
Kimi这次的突破,不是“调参数”,而是“动地基”。
当前大多数大规模深度学习模型都在使用“残差连接”的结构,以保证能训练几十层乃至上百层而不崩溃。
这个设计来自何恺明在2015年参与的ResNet论文,十年来不曾被动摇根基。
其简单逻辑是:每一层的输出=当前层的结果+前面数层的累加。每一层网络在做完自己的计算之后,把自己的输出和输入加在一起,然后传到下一层去再做计算。
这样做的好处是,这样一路累加下去,每一层都能“记住”前面所有层的信息。
但这个机制并不是完美的,在大模型PreNorm主流范式下,残差连接中所有层的
贡献都是等权累加。
这样将信息进行“无差别叠加”,没有任何有效机制,去判断哪一层的信息更重要,哪一层的信息可以忽略。随着层数的增加,早期层信息的重要性就会被稀释。并且,后面的层想要产生影响,就必须输出模长更大的激活值,这反过来又加剧了训练的不稳定性。
就像咱们普通用户在使用AI时,提示词要尽量精准、简练,如果事无巨细地进行长篇大论,反而增加了AI理解信息的难度。
AI训练也是如此,重要信息被稀释,并且计算效率较为低下,这是一种浪费和负担。
Kimi团队的最新技术报告提出一种全新方案——既然不想要“无差别累加”,那就让网络自己决定该提取什么信息。也就是,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。
这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。
Kimi的研究表明,当把动态、与输入相关的注意力机制引入进来之后,模型不再是简单地“全盘接收”信息,而是具备了“结构性判断能力”,能够更有选择地抓住关键内容。
结果也很直接——改写了大模型训练效率与成本曲线。
Kimi团队这次对惯性的大胆反思,瞄准的是那座最不起眼却最承重的“地基”。这并非一次局部优化,而是有机会成为未来大模型架构里的“标配组件”。随着验证逐步展开,世界上其他AI团队大概率会跟进类似思路,去探索新的架构路径。
杨植麟此次在英伟达GTC 2026现场的演讲,更将Kimi团队的技术实力与独特思考,第一次完整展示给硅谷核心技术圈。
对“祖传技术”动刀
重构前沿范式
北京时间3月18日凌晨,杨植麟站在英伟达年度大会GTC 2026的现场,发表了主题为《How We Scaled Kimi K2.5》的演讲,首次完整披露了Kimi的技术路线图。
按照他讲述的Kimi K2.5的进化逻辑,只有在“Token效率、长上下文、智能体集群”三个维度同时找到规模效应,才能实现远超现状的智能水平。
如果说三维逻辑是战略,那么对三大底层技术的重构就是战术。
杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为大模型 Scaling 的瓶颈。
这也是本次演讲的真正“硬核”所在,杨植麟直接勾勒出了下一代大模型的思考路径:
要真正实现智能上限的突破,不是来自于对旧架构的修修补补,而是对优化器、注意力机制、残差连接等底层基石的重构。
其一,优化器革命:从Adam到MuonClip。
在超大规模训练中,Adam优化器在提升Token效率上的瓶颈日益凸显,寻找更具 Token 效率的替代方案已成趋势。
Kimi团队在实验中验证了Muon优化器的潜力,但在扩展到万亿参数时遇到了“Logits爆炸”的难题。
对此,他们开出了自己的药方:MuonClip。通过结合Newton-Schulz迭代并结合QK-Clip机制,他们不仅解决了稳定性问题,更实现了2倍于传统AdamW的计算效率。
这一突破意义重大,在算力约束、成本高企的当下,谁能用更少的计算量榨取更多的智能,谁就掌握了通往AGI的速通卡。
其二,Kimi Linear:全注意力机制“终结者”。
杨植麟展示了基于KDA架构的Kimi Linear,一种混合线性注意力架构。它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了5到6倍。
这不仅是速度的提升,更是对注意力机制本质的思考:“按需分配”的注意力,才是不同场景下的务实选择。
其三:残差连接:从固定加法到注意力残差
继论文受到各方AI大佬围观之后,杨植麟再次在演讲中介绍了这一技术突破。
针对已有十年历史的残差连接,Kimi引入Attention Residuals方案,将传统的固定加法累加,替换为对前序层输出的Softmax注意力。
这一改动,通过选择性聚合信息,让每一层都能获得前面所有层中更有价值的信息,而不是淹没在求和“噪声”中。
之后,杨植麟提出了一项预判。他认为,未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理,实现自协调的群体执行。
上述框架,并非零散的技术点叠加,而是一套从底层基石到上层应用的完整技术闭环,每一个环节都直指行业沿用近十年的技术标准的核心瓶颈。
跳出“中国版ChatGPT”框架
Kimi K2.5是全球用户量最大的AI编程平台Cursor唯一接入的开源模型,也是唯一的中国模型。也是全球最大的独立AI搜索服务商Perplexity唯一接入的中国模型,开源的K2.5在跟OpenAI、Anthropic和Google的顶尖闭源模型同场竞技。
一同起飞的,是Kimi商业化的跃迁:20天收入即超2025年全年。
K2.5发布后,Kimi通过其性能90%、价格七分之一的性价比优势,在海外斩获高速的收入增长,海外收入在总营收中占比已超过国内,海外API开放平台日均访问量翻10-20倍。
Kimi Claw于今年1月上线后,1月个人订阅支付订单环比暴增8280%,2月再涨123.8%。
业内认可之外,资本的追捧也极具说服力。
最近三个月,估值涨了4倍,融资超过10亿美元,超过大模型同行IPO募资额。
最备受期待的,是Kimi“身份”的转变——其已跳出“中国版ChatGPT”的狭窄框架,直接参与到了全球AI技术的底层创新。
杨植麟谈到了 AI 研究范式的转变,从中我们得以一窥,为什么Kimi能不断地从“古老”技术中挖掘出新的突破?
他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。
杨植麟传递出的信息清晰而坚定:Kimi不想只做一个更好的模型,而是要做那个定义下一代模型架构的引领者:审视那些被沿用近十年的“旧技术”,严谨验证,大胆重构,找到突破智能上限的下一个项关键技术。
AI蓝媒汇
2026-03-17
黑鹰光伏
2026-03-16
证券之星APP
2026-03-16
证券时报网
2026-03-16
AI蓝媒汇
2026-03-14
证券时报网
2026-03-13
证券之星资讯
2026-03-19
证券之星资讯
2026-03-19
证券之星资讯
2026-03-19