盘古大模型陷抄袭风波：站在巨人的肩膀，莫让唯自研论反噬

hyde999 2025-07-07 装修装饰 4 次浏览 0个评论

2025 年 7 月 5 日下午，华为盘古大模型团队通过官方渠道（如 " 昇腾 CANN" 微信公众号）发布正式声明，回应了近日围绕其开源模型 " 盘古 Pro MoE" 是否抄袭阿里 " 通义千问 Qwen-2.5 14B" 模型的争议。声明称，盘古是基于昇腾硬件平台自研训练的混合专家模型，强调了 "MoGE 架构 " 创新，并否认抄袭。

而争议的起点则是来自 GitHub 上名为 HonestAGI 用户（该用户目前已显示 404）发布的 "LLM-Fingerprint" 分析，该分析指出，盘古 Pro MoE 与 Qwen ‑ 2.5   14B 在注意力层参数上显示出平均相关性为 0.927，远高于同行模型间的对比范围，暗示可能其通过 " 升级改造 " 获得，而非从零训练，并在圈内引发盘古 Pro MoE 的抄袭质疑。

盘古团队随后在 GitHub issue 区进行技术回应，否认指控，并指出对比方法 " 不科学 "。声明强调遵守开源许可，部分基础组件参考了开源实践。

惊人的 0.927 相关性：参数高相似度是否等同于抄袭？

众所周知，在模型训练中，即使使用相同的开源数据集和相似的模型架构，由于初始化参数的随机性、训练过程中的随机性（如 dropout、数据洗牌顺序等）以及不同的超参数设置，最终训练出的模型参数几乎不可能完全一致，这意味着，相关性达到 0.927 极不寻常，甚至远远超出了 " 巧合 " 可以解释的范畴。

而这种极不寻常，通常只意味着两种可能。一种是增量训练（Continual Pre-training），即一方（例如华为盘古 Pro MoE）在另一方已经训练好的模型（例如 Qwen-2.5 14B）基础上，使用自己的数据继续进行训练，而这种做法会保留大部分原始模型的参数结构和数值特征，导致高度相似；另外一种则是参数复制或迁移，即华为直接或经过少量修改后，将 Qwen-2.5 14B 模型的参数用到了自家的盘古 Pro MoE 模型中。

不过，也有业内对此提出了不同的看法，例如导致参数相关性高的原因很多，类似的训练目标、相近的模型规模，或设计上采用了类似的注意力机制等都可能产生参数的高相关性，尤其是在 Transformer 架构被广泛共享的背景下。况且，若无明确代码或权重直接复制记录，仅凭统计参数相关性也无法断定抄袭。

此外，上述 "LLM-Fingerprint" 的技术研究，似乎只关注了 QKV 参数相关性，缺乏对激活模式、训练流程、数据来源等多维度分析，毕竟专业评估需要多层级、多模型对比、显著统计差异分析，而非单一模型参数相关性的测算。

而华为盘古团队认为对比方法 " 不科学 " 的解释中似乎也点明了这点，同时强调了其 " 分组混合专家模型（MoGE）" 架构的独特性和创新性。

事实是，MoE（Mixture of Experts）模型本身就是一种将大模型拆分成多个 " 专家 "（子网络或者模块）的架构。如果盘古的 MoGE 架构在专家分组、路由机制等方面有显著创新，那么即便某些基础组件（如每个专家内部的 Transformer 块）的实现参考了开源代码，也不能完全等同于对整个模型的抄袭。

尽管如此，要想反驳抄袭的质疑，盘古团队还理应透明地解释其 MoGE 架构与 Qwen-2.5 的异同，并说明为何在上述架构存在独特性和创新性的前提下，参数相似度还依然如此之高

遗憾的是，这些并未出现在盘古团队的回复中，其也未详细解释 "LLM-Fingerprint" 的评估方法何以不科学，同时缺乏官方 GitHub 或其他平台的完整声明，进而导致华为的否认缺乏反证数据支撑，难以形成有力的回应。

化简为繁：用户无法证伪，华为不能证真

如上述，无论是盘古团队回复中提及的 "LLM-Fingerprint" 分析的不科学，还是业内部分观点认为，判断盘古 Pro MoE 是否抄袭，需要多层级、多模型对比、显著统计差异分析等的专业评估，都揭示出证伪的系统性和复杂性。

那么问题来了，我们能否仅在 "LLM-Fingerprint" 的层面（毕竟盘古团队回复中所指出的不科学也仅限于此），即质疑方除了前述 HonestAGI 用户采用的属于 "LLM-Fingerprint" 的参数指纹（Parameter Fingerprint），还可以使用同属于 "LLM-Fingerprint" 的其他验证方式以增加质疑的权重和说服力；而华为也可以借此反驳质疑方的质疑，也是最直接和简单的方法，同级验证中的 " 一正一反 "，质疑至少在同一技术层面的争议中归零。

这里我们需要简单说明的是，HonestAGI 提及的 "LLM-Fingerprint" 指的就是所谓的模型指纹（Model Fingerprinting），简而言之，它是指通过一组可量化的特征或统计量，对一个机器学习模型（特别是大语言模型 LLM）建立独一无二的 " 身份识别 "，类似于人类的指纹或设备的序列号，主要用来识别模型来源；检测模型抄袭、篡改或未经授权的衍生；对模型 " 去匿名化 " 等，通常包括我们上述第一部分论述的，HonestAGI 用户采用的参数指纹外，还有行为指纹、输出指纹、梯度指纹等。

不幸的是，除参数指纹外，对于用户和社区来说，基于动态验证方法的行为指纹、输出指纹、梯度指纹等这些更强、更深层、更具解释力的验证手段都无法进行。

原因很简单，盘古 Pro MoE 既未开放完整模型权重，也没有提供任何在线 API、推理或 DEMO 接口。

注：白盒（White-box）：完全可见模型内部结构与参数，如模型权重

灰盒（Grey-box）：有限开放部分中间结果，如梯度、logits

黑盒（Black-box）：只开放输入输出接口，不公开模型内部结构

例如在华为官方介绍中，盘古大模型主要定位为企业级应用、昇腾硬件加速平台上的基础模型，聚焦政企行业解决方案，相关产品多以集成形式对外提供，未见单独面向开发者或公众的 API 服务开放；华为云官网虽然提供部分 AI 服务，但并未列出针对盘古 Pro MoE 的 API 调用入口或开放平台；华为 ModelArts 或其它云服务平台未发现有盘古 Pro MoE 对外 API。

而在开源平台与模型库中，尽管盘古 Pro MoE 的相关代码和训练框架在 GitHub 开源，但未提供推理 API 或在线服务 Demo；至于相关社区也没有发现公开可用的盘古 Pro MoE Web Demo 或 API，开源爱好者和企业用户均反映无法通过接口直接调用。

最后，据多个国内行业媒体报道，盘古 Pro MoE 面向昇腾芯片定制，且目前主要作为底层基础模型，不对外提供单独 API。

这意味着仅在模型指纹领域，比基于静态验证方法的参数指纹更具说服力的其他基于 " 动态验证方法 " 的模型指纹都被华为有意或者无意间所屏蔽，只剩下无需 API，只要公开权重，即可对模型权重中特征矩阵的相似度进行静态分析的参数指纹可用。

到此，我们认为，从用户和社区端，想要再添加更有说服力的证据几乎没有可能，那么就如我们前面所述，华为自身能否通过除去其质疑不科学的参数指纹外，用其他模型指纹中的任何一种或几种进行交叉验证，来反驳能，且只能采用参数指纹进行验证的用户的质疑呢？

按理说这对于华为来说再简单不过。

但随之而来的问题是，如果华为真的自己去验证，这种类似于既当运动员，又当裁判员的做法能否服众？也许最客观、公正的做法就是更加开放，例如对外开放自己的 API 和推理或 DEMO 接口，接受社区和用户的检验，但这又和我们前述人家华为盘古 Pro MoE 多以集成形式对外提供服务的商业模式相悖。毕竟选择何种商业模式是厂商的自由。

到这里，业内是否发现，无论是社区和用户对于盘古 Pro MoE 的进一步证伪，还是华为反驳的自我证真，实际的操作非常简单，但因为我们前述的理由却变得异常复杂，且 " 合情合理 "，而这种化简为繁的操作，极有可能让此次盘古 Pro MoE 的抄袭风波，成为用户无法证伪，华为不能证真的游戏而不了了之。

站在巨人的肩膀：借鉴应有理有据有节，莫让唯自研论反噬

曾几何时，物理学巨匠艾萨克 • 牛顿在 1675 年写给罗伯特 • 胡克的信中所言的：" 如果我看得更远，那是因为我站在巨人的肩膀上 " 成为科学精神的经典象征，传达出一种谦逊、尊重前人、积累创新的价值观。

而科技发展到今天，特别是在 AI 领域，完全从零开始构建一切已不现实，因为几乎所有的研究和开发都是基于前人的努力或者成果。

例如 Transformer 架构（由谷歌 2017 年提出）已成为几乎所有现代大模型的基础。无论是 GPT、BERT、LLaMA、通义千问还是盘古，都是在其之上的继承和发展。而在开源日益流行的大模型领域更是如此。

这让使用开源模型、开源数据集、参考优秀论文等的自我实现，已经成为行业常态。而在这种背景下，创新的核心其实已经从所谓零开始的完全自研，转向是否提供了新的、有价值的东西。

以盘古 Pro MoE 为例，从其发布的论文看，面向自家的昇腾硬件就是其核心自主创新之一。因为针对特定硬件进行深度优化，本身就是重要的工程创新，可以提升训练和推理效率；又如其 MoGE 架构，如果此架构确实如其所言，解决了大规模分布式训练的负载均衡难题，无疑也是相当具有价值的架构创新。

但随之而来的疑问是，如果盘古 Pro MoE 在架构和硬件适配上有如此重要的创新，为何还需要大量借鉴，甚至可能直接使用了 Qwen 的核心参数（按照 HonestAGI 用户的参数指纹验证）呢？

结合上述，我们认为，所谓针对昇腾硬件的优化严格来说只能算是 " 部署优化 "，不涉及模型本身的原创性；而 MoGE 架构也仅是架构创新，所以二者能否支撑 " 盘古 Pro MoE 是完全独立训练的大模型 " 之说，依然值得商榷。

而提及盘古 Pro MoE 是完全独立训练的大模型，除了上述盘古 Pro MoE 的论文外，我们不得不再提及华为盘古团队对于质疑的回应。

但问题的关键在于 " 使用 " 的程度，其并没有详细说明。

而在我们看来，如果使用仅仅是参考了某个函数的实现方式，或者使用了某些基础库，这在开源社区是完全正常且被鼓励的，但如果是将一个模型的 " 核心资产 "，即人家花费大量算力和数据训练出来的权重参数进行 " 换皮 " 式使用，并声称是完全独立训练的大模型，那么即便在代码层面标注了来源，法律上合规，但在道义和学术诚信上也会引发巨大争议，尤其是在开源领域，这种道义和学术诚信上的争议，对于相关企业，乃至中国开源领域都会造成不小的负面影响。

写在最后：俗话说：" 欲戴皇冠，必承其重 "。当一家企业因为非市场因素的限制，而被部分业内和媒体频频冠以自研，且该企业借此收获大量情绪价值，并能将其转化为实际商业营收和利润之时，该企业难免受到一定的影响。

例如明明某些领域、某些技术的核心来自供应商，该企业充其量是优化或者适配，却被换上个高大上的名字或者艰涩难懂的所谓科技术语，摇身一变成为自研，久而久之，习惯成自然，自研被标签化，仿佛不自研，该企业就不成活。但稍有业内常识的人都清楚，任何产业或者产品的创新和成功，都不可能凭借一家企业的自研之力可为之。

而此次盘古大模型陷抄袭风波足以提醒我们的企业，要么是真的自研，勇于接受市场的质疑和检验；要么在严格遵守相关行业或者产业协议和规则等的前提下，站在巨人的肩膀上去发展。否则，舆论长期停留在 " 猜测 " 与 " 对抗 " 之间，最终，不仅相关企业会被所谓的自研反噬，还会极大消耗中国科技产业及自主品牌的公信力和竞争力。

转载请注明来自夏犹清建筑装饰工程有限公司，本文标题：《盘古大模型陷抄袭风波：站在巨人的肩膀，莫让唯自研论反噬》

hyde999 21719篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！