|

财经

盘古大模型出现通义千问代码,否认抄袭却恐难服众!

来源:于见专栏

2025-07-06 07:26:24

(原标题:盘古大模型出现通义千问代码,否认抄袭却恐难服众!)

编辑 | 虞尔湖

出品 | 潮起网「于见专栏」

近日,Github上的一篇技术论文引发轩然大波,其核心围绕华为盘古大模型是否抄袭展开。该论文作者通过新的“模型指纹”技术,对盘古Pro MoE模型与其他模型进行了实证比较。

由于盘古模型与阿里千问的模型注意力参数平均相关性极高,盘古大模型也被指涉嫌抄袭。因此,背后的技术研发团队以及华为公司,也被推上了舆论的风口浪尖。

不过,盘古团队并以“评估方法不科学”为由否认抄袭。两拨人各执一词,也让一度沉寂的技术社区,一时之间活跃度飙升,网友对于该话题的讨论,也远未停息。

一石激起千层浪,宣称“自研”却被指抄袭

据了解,模型指纹技术的原理是提取模型每一层多头注意力机制中Q、K、V、O矩阵的标准差,将这些标准差按层排成序列并归一化,形成“指纹”,再计算两个模型之间指纹序列的皮尔逊相关系数来判断是否存在“继承”关系。

这种技术即便在模型架构发生变化或进行大规模继续训练时,指纹依然稳定,且经过验证,有已知继承关系的模型指纹高度相似,独立训练的模型指纹差异显著。

通过该技术,作者发现Pangu Pro MoE模型与Qwen-2.5 14B模型在注意力参数分布上的平均相关性高达0.927,远超其他模型对比的正常范围。



图源:Python人工智能前沿

基于此,作者有力推断:Pangu Pro MoE并非完全从零训练,而是通过“upcycling”(继续训练 + 架构调整)修改自Qwen模型;技术文档中声称Pangu是“自研”,但可能存在版权侵权和报告造假。

此外,作者还进行了更多相关分析。QKV偏置分析揭示盘古和Qwen2.5-14B在所有三种投影类型(Q、K、V)上都存在惊人相似性,两种模型展现出几乎相同的模式,尤其是早期层特有的尖峰特征及随后的收敛行为,而QKV偏置是Qwen 1-2.5代模型的独特设计特征,包括Qwen3在内的大多数开源模型已放弃这种方法。

注意力层归一化权重分析进一步强化了相似性,盘古和Qwen2.5-14B在层序列上展现出极为一致的趋势,具有平行的初始化模式和收敛行为,区别于其他模型。

在模型激活分析中,初步结果显示盘古仍然与Qwen相似,表明它们的计算模式存在显著重叠。



图源:网络,盘古模型中出现通义千问代码

此外,作者还注意到盘古的官方仓库异常包含了Qwen 2024的许可证,仓库Issue中揭露的欺诈行为,以及多位自称来自其团队的吹哨人的消息,也与作者的发现惊人的一致。

因此,论文原作者以及支持他的网友普遍认为,盘古大模型与通义千问高度相似,很难用巧合来解释。

抄袭争议中,双方各执一词

面对抄袭质疑,盘古团队在Issue里进行了回应,完全否认抄袭指控,并且认为LLM-Fingerprint的评估方法完全不科学。

盘古大模型的首席开发者在内部澄清,通过使用该评估方法,得出pangu-72b-a16b对比Qwen2.5-14b相关性为0.92,baichuan2-13b对比Qwen1.5-14b为0.87,baichuan2-13b对比pangu-72b-a16b为0.84,baichuan2-13b对比Qwen2.5-14b为0.86,认为具有不同层数的模型,在该评估方法下也产生了高度相似的结果,表明论文和指标缺乏实际意义,盘古并未涉及抄袭。



图源:新浪科技微博

而作者HostAGI完全不信服盘古团队的解释。他们认为盘古仍然显示出最高的相似度,且评估方法仅是初步比较的工具,盘古触发了警告信号。

与此同时,他们并非仅基于注意力参数作出判断,在更深入调查后,如论文中对FFN的分析以及主页上发布的许多新结果,这些都难以用“巧合”来解释,开源社区也在发现更多“巧合”,如分析梯度和KV缓存相似性。

此外,社区其他成员也参与到讨论中。qratosone询问Qwen2-MoE是否从较小的稠密模型升级改造而来,HonestAGI给予肯定答复,并指出在Qwen 2的技术报告中有提及。

对此,网友各执一词。有网友认为,需要进一步要求对同一组公认的升级模型进行直接比较的全面相关性分析,认为进行相关性分析而非仅仅是投影展示图是必要的,还要求引用技术报告支持关于Qwen升级过程的说法,并建议开源代码实现。

而HonestAGI则表示,计划在收集足够社区反馈后更新论文,感谢建设性建议,称其进一步强化关键结论,并解释Qwen2使用带噪声的升级方法为专家引入多样性,可能改变Q和K的激活导致参数分布偏移。

还有网友提及,传言称mistral-7b基于llama家族某个版本开发,建议在开源模型上增加更多实验,认为目前结果不够有说服力,需要考虑如何确保评估方法对新开源模型可靠,以及评分系统的泛化能力等。

被卷入舆论风波,未来将如何收场?

值得注意的是,社区提交记录显示,盘古某关键模块的commit时间晚于通义对应功能发布日,且未按开源规范注明参考来源。而这种“时间差”与“沉默引用”的组合,进一步加深了技术社区的疑虑。

很显然,对于以技术“安身立命”的华为而言,此次无法用巧合来解释的事件,或许会对其品牌形象、技术研发、商业合作等带来不可估量的影响。



值得注意的是,这并非华为首次被指抄袭。例如,2024年华为的三折叠手机爆卖之时,就引发了韩国网友的不满,认为其抄袭三星,声称三星手机才是折叠屏的创始者。

彼时,据@新浪科技报道,展会期间有媒体问及荣耀Magic V3和华为三折屏手机特别像,有人说是华为抄袭荣耀,也有人说荣耀率先拿到华为的图纸。最后该事件也成了难被证实的罗生门。

无独有偶,华为系汽车甚至智能驾驶在AEB(自动紧急制动)也曾陷入抄袭质疑中。最被普罗大众所熟知的,还有华为高举高打发布的鸿蒙系统。

虽然官方口口声声称鸿蒙为华为原创、代码原生的操作系统。但是关于其套壳安卓的争议之声却不绝于耳。而对于其近年不断公开宣称的芯片自研技术,也有不少网友提出质疑。实际上,华为芯片的泰山架构并非如其宣传所述是纯粹自研,而是持续购买ARM V8、V9的底层授权。

结语

通过前文的分析不难看出,这场争议暴露出的,是AI行业亟待建立参数开源与评估标准化机制。无论是从知识产权相关的法律法规层面,我国智能科技企业想要真正改变被海外企业“卡脖子”的命运,或许只有脚踏实地进行科学技术研究这条道路。

而通过华为不仅一次的陷入抄袭质疑也不难看出,盘古大模型陷入抄袭风波,不是华为第一次置身风口浪尖,也不会是最后一次。

俗话说,真理越辩越明。该事件的发生,也在警示人们,在AI行业高速发展的同时,尊重知识版权、合理合法开展行业竞争,才是技术强国的根本。

而华为作为国民级技术企业,更应在维护行业原创精神、尊重知识产权方面,做出榜样、守住创新底线。期待华为能用实际行动,为自己正名。

证券之星资讯

2025-07-04

证券之星资讯

2025-07-04

首页 股票 财经 基金 导航