盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

hyde999 2025-07-07 装修装饰 4 次浏览 0个评论

2025 年 7 月 5 日下午,华为盘古大模型团队通过官方渠道(如 " 昇腾 CANN" 微信公众号)发布正式声明,回应了近日围绕其开源模型 " 盘古 Pro MoE" 是否抄袭阿里 " 通义千问 Qwen-2.5 14B" 模型的争议。声明称,盘古是基于昇腾硬件平台自研训练的混合专家模型,强调了 "MoGE 架构 " 创新,并否认抄袭。

而争议的起点则是来自 GitHub 上名为 HonestAGI 用户(该用户目前已显示 404)发布的 "LLM-Fingerprint" 分析,该分析指出,盘古 Pro MoE 与 Qwen ‑ 2.5   14B 在注意力层参数上显示出平均相关性为 0.927,远高于同行模型间的对比范围,暗示可能其通过 " 升级改造 " 获得,而非从零训练,并在圈内引发盘古 Pro MoE 的抄袭质疑。

盘古团队随后在 GitHub issue 区进行技术回应,否认指控,并指出对比方法 " 不科学 "。声明强调遵守开源许可,部分基础组件参考了开源实践。

惊人的 0.927 相关性:参数高相似度是否等同于抄袭?

众所周知,在模型训练中,即使使用相同的开源数据集和相似的模型架构,由于初始化参数的随机性、训练过程中的随机性(如 dropout、数据洗牌顺序等)以及不同的超参数设置,最终训练出的模型参数几乎不可能完全一致,这意味着,相关性达到 0.927 极不寻常,甚至远远超出了 " 巧合 " 可以解释的范畴。

盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

而这种极不寻常,通常只意味着两种可能。一种是增量训练(Continual Pre-training),即一方(例如华为盘古 Pro MoE)在另一方已经训练好的模型(例如 Qwen-2.5 14B)基础上,使用自己的数据继续进行训练,而这种做法会保留大部分原始模型的参数结构和数值特征,导致高度相似;另外一种则是参数复制或迁移,即华为直接或经过少量修改后,将 Qwen-2.5 14B 模型的参数用到了自家的盘古 Pro MoE 模型中。

不过,也有业内对此提出了不同的看法,例如导致参数相关性高的原因很多,类似的训练目标、相近的模型规模,或设计上采用了类似的注意力机制等都可能产生参数的高相关性,尤其是在 Transformer 架构被广泛共享的背景下。况且,若无明确代码或权重直接复制记录,仅凭统计参数相关性也无法断定抄袭。

此外,上述 "LLM-Fingerprint" 的技术研究,似乎只关注了 QKV 参数相关性,缺乏对激活模式、训练流程、数据来源等多维度分析,毕竟专业评估需要多层级、多模型对比、显著统计差异分析,而非单一模型参数相关性的测算。

而华为盘古团队认为对比方法 " 不科学 " 的解释中似乎也点明了这点,同时强调了其 " 分组混合专家模型(MoGE)" 架构的独特性和创新性。

盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

事实是,MoE(Mixture of Experts)模型本身就是一种将大模型拆分成多个 " 专家 "(子网络或者模块)的架构。如果盘古的 MoGE 架构在专家分组、路由机制等方面有显著创新,那么即便某些基础组件(如每个专家内部的 Transformer 块)的实现参考了开源代码,也不能完全等同于对整个模型的抄袭。

尽管如此,要想反驳抄袭的质疑,盘古团队还理应透明地解释其 MoGE 架构与 Qwen-2.5 的异同,并说明为何在上述架构存在独特性和创新性的前提下,参数相似度还依然如此之高

遗憾的是,这些并未出现在盘古团队的回复中,其也未详细解释 "LLM-Fingerprint" 的评估方法何以不科学,同时缺乏官方 GitHub 或其他平台的完整声明,进而导致华为的否认缺乏反证数据支撑,难以形成有力的回应。

化简为繁:用户无法证伪,华为不能证真

如上述,无论是盘古团队回复中提及的 "LLM-Fingerprint" 分析的不科学,还是业内部分观点认为,判断盘古 Pro MoE 是否抄袭,需要多层级、多模型对比、显著统计差异分析等的专业评估,都揭示出证伪的系统性和复杂性。

那么问题来了,我们能否仅在 "LLM-Fingerprint" 的层面(毕竟盘古团队回复中所指出的不科学也仅限于此),即质疑方除了前述 HonestAGI 用户采用的属于 "LLM-Fingerprint" 的参数指纹(Parameter Fingerprint),还可以使用同属于 "LLM-Fingerprint" 的其他验证方式以增加质疑的权重和说服力;而华为也可以借此反驳质疑方的质疑,也是最直接和简单的方法,同级验证中的 " 一正一反 ",质疑至少在同一技术层面的争议中归零。

这里我们需要简单说明的是,HonestAGI 提及的 "LLM-Fingerprint" 指的就是所谓的模型指纹(Model Fingerprinting),简而言之,它是指通过一组可量化的特征或统计量,对一个机器学习模型(特别是大语言模型 LLM)建立独一无二的 " 身份识别 ",类似于人类的指纹或设备的序列号,主要用来识别模型来源;检测模型抄袭、篡改或未经授权的衍生;对模型 " 去匿名化 " 等,通常包括我们上述第一部分论述的,HonestAGI 用户采用的参数指纹外,还有行为指纹、输出指纹、梯度指纹等。

不幸的是,除参数指纹外,对于用户和社区来说,基于动态验证方法的行为指纹、输出指纹、梯度指纹等这些更强、更深层、更具解释力的验证手段都无法进行。

原因很简单,盘古 Pro MoE 既未开放完整模型权重,也没有提供任何在线 API、推理或 DEMO 接口。

盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬

注:白盒(White-box):完全可见模型内部结构与参数,如模型权重
灰盒(Grey-box):有限开放部分中间结果,如梯度、logits
黑盒(Black-box):只开放输入输出接口,不公开模型内部结构

例如在华为官方介绍中,盘古大模型主要定位为企业级应用、昇腾硬件加速平台上的基础模型,聚焦政企行业解决方案,相关产品多以集成形式对外提供,未见单独面向开发者或公众的 API 服务开放;华为云官网虽然提供部分 AI 服务,但并未列出针对盘古 Pro MoE 的 API 调用入口或开放平台;华为 ModelArts 或其它云服务平台未发现有盘古 Pro MoE 对外 API。

而在开源平台与模型库中,尽管盘古 Pro MoE 的相关代码和训练框架在 GitHub 开源,但未提供推理 API 或在线服务 Demo;至于相关社区也没有发现公开可用的盘古 Pro MoE Web Demo 或 API,开源爱好者和企业用户均反映无法通过接口直接调用。

最后,据多个国内行业媒体报道,盘古 Pro MoE 面向昇腾芯片定制,且目前主要作为底层基础模型,不对外提供单独 API。

这意味着仅在模型指纹领域,比基于静态验证方法的参数指纹更具说服力的其他基于 " 动态验证方法 " 的模型指纹都被华为有意或者无意间所屏蔽,只剩下无需 API,只要公开权重,即可对模型权重中特征矩阵的相似度进行静态分析的参数指纹可用。

到此,我们认为,从用户和社区端,想要再添加更有说服力的证据几乎没有可能,那么就如我们前面所述,华为自身能否通过除去其质疑不科学的参数指纹外,用其他模型指纹中的任何一种或几种进行交叉验证,来反驳能,且只能采用参数指纹进行验证的用户的质疑呢?

按理说这对于华为来说再简单不过。

但随之而来的问题是,如果华为真的自己去验证,这种类似于既当运动员,又当裁判员的做法能否服众?也许最客观、公正的做法就是更加开放,例如对外开放自己的 API 和推理或 DEMO 接口,接受社区和用户的检验,但这又和我们前述人家华为盘古 Pro MoE 多以集成形式对外提供服务的商业模式相悖。毕竟选择何种商业模式是厂商的自由。

到这里,业内是否发现,无论是社区和用户对于盘古 Pro MoE 的进一步证伪,还是华为反驳的自我证真,实际的操作非常简单,但因为我们前述的理由却变得异常复杂,且 " 合情合理 ",而这种化简为繁的操作,极有可能让此次盘古 Pro MoE 的抄袭风波,成为用户无法证伪,华为不能证真的游戏而不了了之。

站在巨人的肩膀:借鉴应有理有据有节,莫让唯自研论反噬

曾几何时,物理学巨匠艾萨克 • 牛顿在 1675 年写给罗伯特 • 胡克的信中所言的:" 如果我看得更远,那是因为我站在巨人的肩膀上 " 成为科学精神的经典象征,传达出一种谦逊、尊重前人、积累创新的价值观。

而科技发展到今天,特别是在 AI 领域,完全从零开始构建一切已不现实,因为几乎所有的研究和开发都是基于前人的努力或者成果。

例如 Transformer 架构(由谷歌 2017 年提出)已成为几乎所有现代大模型的基础。无论是 GPT、BERT、LLaMA、通义千问还是盘古,都是在其之上的继承和发展。而在开源日益流行的大模型领域更是如此。

这让使用开源模型、开源数据集、参考优秀论文等的自我实现,已经成为行业常态。而在这种背景下,创新的核心其实已经从所谓零开始的完全自研,转向是否提供了新的、有价值的东西。

以盘古 Pro MoE 为例,从其发布的论文看,面向自家的昇腾硬件就是其核心自主创新之一。因为针对特定硬件进行深度优化,本身就是重要的工程创新,可以提升训练和推理效率;又如其 MoGE 架构,如果此架构确实如其所言,解决了大规模分布式训练的负载均衡难题,无疑也是相当具有价值的架构创新。

但随之而来的疑问是,如果盘古 Pro MoE 在架构和硬件适配上有如此重要的创新,为何还需要大量借鉴,甚至可能直接使用了 Qwen 的核心参数(按照 HonestAGI 用户的参数指纹验证)呢?

结合上述,我们认为,所谓针对昇腾硬件的优化严格来说只能算是 " 部署优化 ",不涉及模型本身的原创性;而 MoGE 架构也仅是架构创新,所以二者能否支撑 " 盘古 Pro MoE 是完全独立训练的大模型 " 之说,依然值得商榷。

而提及盘古 Pro MoE 是完全独立训练的大模型,除了上述盘古 Pro MoE 的论文外,我们不得不再提及华为盘古团队对于质疑的回应。

回应中,盘古团队强调其 " 严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明 "。这可以被解读为,其承认使用了其他开源模型的代码(可能包括 Qwen),但认为自己的使用方式在法律上是合规的。

但问题的关键在于 " 使用 " 的程度,其并没有详细说明。

而在我们看来,如果使用仅仅是参考了某个函数的实现方式,或者使用了某些基础库,这在开源社区是完全正常且被鼓励的,但如果是将一个模型的 " 核心资产 ",即人家花费大量算力和数据训练出来的权重参数进行 " 换皮 " 式使用,并声称是完全独立训练的大模型,那么即便在代码层面标注了来源,法律上合规,但在道义和学术诚信上也会引发巨大争议,尤其是在开源领域,这种道义和学术诚信上的争议,对于相关企业,乃至中国开源领域都会造成不小的负面影响。

写在最后:俗话说:" 欲戴皇冠,必承其重 "。当一家企业因为非市场因素的限制,而被部分业内和媒体频频冠以自研,且该企业借此收获大量情绪价值,并能将其转化为实际商业营收和利润之时,该企业难免受到一定的影响。

例如明明某些领域、某些技术的核心来自供应商,该企业充其量是优化或者适配,却被换上个高大上的名字或者艰涩难懂的所谓科技术语,摇身一变成为自研,久而久之,习惯成自然,自研被标签化,仿佛不自研,该企业就不成活。但稍有业内常识的人都清楚,任何产业或者产品的创新和成功,都不可能凭借一家企业的自研之力可为之。

而此次盘古大模型陷抄袭风波足以提醒我们的企业,要么是真的自研,勇于接受市场的质疑和检验;要么在严格遵守相关行业或者产业协议和规则等的前提下,站在巨人的肩膀上去发展。否则,舆论长期停留在 " 猜测 " 与 " 对抗 " 之间,最终,不仅相关企业会被所谓的自研反噬,还会极大消耗中国科技产业及自主品牌的公信力和竞争力。

转载请注明来自夏犹清建筑装饰工程有限公司,本文标题:《盘古大模型陷抄袭风波:站在巨人的肩膀,莫让唯自研论反噬》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,4人围观)参与讨论

还没有评论,来说两句吧...