同一篇数据拆分成两篇发不同的国际会议，算自我剽窃 (Self-plagiarism) 吗？

自我剽窃|2026-05-20 14:42:41|阅读量：376

一、直接回答：大概率构成自我剽窃

先给出明确结论：

将同一组数据简单拆分成两篇论文发表在不同国际会议上，在绝大多数情况下构成自我剽窃（Self-plagiarism），学术界称之为"切腊肠"式发表（Salami Slicing）。

但需要注意：并非所有数据复用都是自我剽窃。关键在于"拆分方式"和"新增贡献量"。下面详细分析判定边界。

二、什么是自我剽窃？与相关概念的区分

2.1 核心定义

概念	定义	性质
自我剽窃（Self-plagiarism）	将自己已发表的内容（数据、文字、图表）再次发表而不充分引用或说明	学术不端
重复发表（Duplicate Publication）	同一篇论文或高度相似论文投给多个期刊/会议	严重学术不端
一稿多投（Simultaneous Submission）	同一稿件同时投给多个期刊/会议审稿	严重违规
Salami Slicing（切腊肠发表）	将一个完整研究人为拆分成多篇最小可发表单元	学术不端/灰色地带
合法增量发表（Legitimate Extension）	基于已有工作进行实质性扩展后发表	合规

2.2 关键区分：自我剽窃 ≠ 一稿多投

一稿多投：同一篇稿件同时在审 → 最严重违规
自我剽窃：已发表A，再基于A的数据/文字写B并发表 → 程度视重叠量而定

两者都是学术不端，但性质和后果略有差异。

三、出版商和学术组织的官方立场

3.1 IEEE政策

IEEE对重复发表有明确规定：

禁止将已发表会议论文的内容在另一会议上重复发表
允许将会议论文扩展为期刊论文（需30%以上新内容）
要求引用自己此前的相关工作
使用iThenticate进行相似度检测，阈值通常为30%

IEEE原文立场："Authors should not submit a manuscript that has been previously published in substantially similar form."

3.2 ACM政策

ACM的规定更为细化：

提交时需声明与已发表工作的关系
使用相同数据集必须明确说明新贡献
会议论文 → 期刊扩展版有明确的增量要求（通常≥25-30%新内容）
两篇会议论文之间使用相同数据需要显著不同的研究问题和贡献

3.3 Springer / LNCS政策

明确禁止将实质性相同的工作提交给多个会议
要求作者在投稿时声明是否存在相关已发表工作
编辑有权在发现重复后撤稿

3.4 AAAI / NeurIPS / ICML等AI顶会

投稿时需勾选"本文未在其他会议/期刊上发表或在审"
对已发表workshop paper扩展为主会议论文有具体要求
NeurIPS明确：如果核心贡献已在其他venue发表，则不接受

3.5 国际出版伦理委员会（COPE）

COPE将Salami Slicing列为需要调查的学术不端行为之一，建议出版商：

调查作者意图
评估重叠程度
视情况要求撤稿或发表更正声明

四、判定标准：什么情况算、什么情况不算？

4.1 明确构成自我剽窃的情形 ✗

情形	为什么算
同一实验、同一结果，换个标题换个会议投	实质性重复，无新贡献
数据集相同，仅更换一种baseline对比方法	核心贡献未变，增量不足
拆分为"方法论文"+"实验论文"但数据完全相同	人为割裂完整工作
大段文字复制自己已发表的论文（>30%）	文本层面的自我剽窃
同一数据换一个评估指标重新跑一遍	无实质性新发现

4.2 不构成自我剽窃的合规情形 ✓

情形	为什么不算
会议短文/Workshop → 扩展为会议全文（有显著新增）	合法增量发表
会议论文 → 期刊扩展版（≥30%新内容）	出版商明确允许
相同数据集但解决完全不同的研究问题	研究问题和贡献不同
使用公开数据集，与他人用同一数据集的工作并存	公开数据集可被任何人使用
引用了自己的前期工作并明确说明增量	透明且有新贡献

4.3 灰色地带 ⚠️

情形	风险分析
同一数据集+同一方法，但应用在不同任务上	取决于方法是否有本质修改
50%数据相同 + 50%新数据，方法相同	取决于新数据带来的新发现
同一大项目的不同子模块分别发表	取决于模块间独立性
预印本(arXiv) → 会议投稿	多数会议允许，但需声明
不同语言版本（中文会议+英文会议）	部分领域允许，但需互相引用

五、"切腊肠"式发表（Salami Slicing）深度解析

5.1 什么是Salami Slicing？

将一个本可以写成一篇完整高质量论文的研究，人为拆分成多篇"最小可发表单元"（Least Publishable Unit, LPU），以增加论文数量。

类比： 一根完整的腊肠被切成很多薄片，每片单独来看都很薄、价值有限，但合在一起才是一根完整的腊肠。

5.2 判定是否为Salami Slicing的关键问题

问自己以下5个问题：

每篇论文是否能独立成立？ — 如果单独一篇缺少关键信息，说明不该拆分
每篇是否有独立的研究问题？ — 如果研究问题本质相同，不该拆分
合并后是否明显更好？ — 如果合并后质量显著提升，说明不该拆分
读者是否需要阅读两篇才能完整理解？ — 如果是，说明人为割裂了
拆分的动机是什么？ — 如果纯粹为了"多一篇论文"，动机不正当

5.3 真实案例分析

案例1：不合规的拆分 ✗

研究者用数据集D训练了模型M，论文A报告了在任务T1上的结果，论文B报告了在任务T2上的结果。两篇论文的方法章节几乎相同，仅Results不同。

问题： 方法无区别，仅更换评估任务，属于典型Salami Slicing。

案例2：合规的分别发表 ✓

研究者先在会议A发表了基于数据集D的方法M1（解决问题P1），后来在此基础上提出了改进方法M2，使用数据集D+D'（D'为新收集数据），解决了新问题P2，发表在会议B，并充分引用了论文A。

为什么合规： 有新方法、新数据、新问题，且引用了前期工作。

案例3：灰色地带 ⚠️

同一数据集D，论文A使用方法M做分类任务，论文B使用方法M做检测任务。两篇方法核心一样，但应用场景不同。

分析： 如果方法M针对不同任务有实质性修改和新的技术贡献，可能合规；如果仅换了个任务头（task head），实质性贡献不足，风险很大。

六、相似度检测工具与阈值

6.1 主流检测工具

工具	使用方	特点
iThenticate	IEEE、ACM、Springer等	行业标准，覆盖面广
Turnitin	部分学术出版商	学位论文检测主力
CrossCheck	基于iThenticate的出版商版	自动对比已发表文献
学术不端检测系统（CNKI）	中文期刊/会议	中文文献覆盖全

6.2 相似度阈值参考

相似度范围	风险等级	可能结果
<15%	低风险	通常安全（含公式、参考文献等通用内容）
15%-30%	中等风险	可能触发人工审查
30%-50%	高风险	很可能被判定为自我剽窃
>50%	极高风险	几乎确定被拒稿或撤稿

注意： 相似度数值仅为参考，最终判定取决于重叠内容的性质（方法描述重叠 vs 结果数据重叠差异很大）。

6.3 哪些内容重叠是可接受的？

✓ 数学公式和符号定义（通用表述）
✓ 实验设置的标准描述（数据集介绍、评估指标定义）
✓ 相关工作综述中的标准表述
✗ Results/Discussion中的数据和分析
✗ 核心方法描述的大段重复
✗ 图表的直接复用

七、被发现后的后果

7.1 短期后果

后果	严重程度	说明
稿件被拒	★★★☆☆	最轻后果，审稿阶段发现
论文被撤稿（Retraction）	★★★★☆	发表后发现，永久记录
被会议/出版商列入黑名单	★★★★★	一定期限内禁止投稿
通知所在单位	★★★★☆	IEEE等可能通知作者单位

7.2 长期后果

后果	影响
学术声誉受损	同行知晓后信任度下降
撤稿记录永久可查	Retraction Watch数据库公开记录
影响基金申请	评审专家可查询撤稿记录
影响职称评审	撤稿论文不计入成果，可能倒扣分
合作者受牵连	所有共同作者都可能被调查
学位可能受影响	如涉及学位论文核心成果

7.3 真实处罚案例

IEEE案例：某作者将高度相似的论文投给3个IEEE会议，被发现后3篇全部撤稿，作者被禁止向IEEE投稿3年。
ACM案例：两篇ACM会议论文被发现数据和方法高度重叠，后发表的论文被撤稿，作者收到正式警告。
国内案例：某高校教师被发现将同一数据拆分发表在国内外两个会议，评职称时两篇均被取消资格。

八、合规拆分发表的正确方法

如果确实有合理需求将相关数据用于多篇论文，以下方法可以合规操作：

8.1 确保研究问题本质不同

论文A：使用数据集D研究"如何提高模型准确率"（问题P1）
论文B：使用数据集D研究"如何减少模型推理时间"（问题P2）

前提：论文B有全新的方法设计针对P2，而非简单复用论文A的方法

8.2 确保方法有实质性差异

不能只换一个模块、改一个超参数
需要有新的算法设计、新的技术路线
两篇论文的方法章节应有显著不同

8.3 新增足够的实验和数据

合规标准	建议量
新增数据比例	≥50%的实验使用新数据或新设置
新增Baseline对比	至少3-5个新的对比方法
新增分析内容	新的消融实验、案例分析、可视化

8.4 充分引用前期工作

必须做到：

% 在论文B中明确引用论文A
In our previous work \cite{our_paper_A}, we explored [简述A的贡献].
In this paper, we extend our investigation to [B的新方向],
with the following novel contributions: ...

并在Introduction中清楚说明与前期工作的区别和增量。

8.5 投稿时主动声明

许多会议投稿系统中有以下选项：

□ This paper is based on / related to previously published work.
  Please describe the relationship: ________________

务必如实填写，不要心存侥幸。主动声明比被动发现好100倍。

九、会议论文 → 期刊扩展版的合规路径

这是学术界明确认可的数据复用场景：

9.1 通用要求

出版商	新内容要求	其他要求
IEEE	≥30%新内容	引用会议版本，说明增量
ACM	≥25%新内容	投稿时声明，附会议版PDF
Springer	≥30-50%新内容	视具体期刊要求
Elsevier	≥50%新内容	严格要求，部分期刊不接受

9.2 "新内容"包括什么？

✓ 新的实验结果和数据
✓ 新的方法模块/改进
✓ 更深入的理论分析/证明
✓ 更全面的相关工作讨论
✓ 新的案例研究/应用场景
✗ 仅增加文字量（换种说法重新描述）
✗ 仅增加参考文献数量
✗ 仅改变排版使论文看起来更长

9.3 正确的声明方式

在期刊投稿Cover Letter中：

Dear Editor,

This manuscript is an extended version of our conference paper:

[Full citation of conference paper]

The major extensions include:
1. [New contribution 1]
2. [New contribution 2]
3. [New contribution 3]

The new content accounts for approximately XX% of this manuscript.

十、预防与自查指南

10.1 投稿前自查清单

自查项	标准
☐ 两篇论文的研究问题是否本质不同？	不能仅换个角度看同一问题
☐ 方法描述重叠度是否<30%？	用iThenticate自查
☐ 实验结果是否有≥50%的新内容？	新数据/新指标/新设置
☐ 是否引用了自己的相关前期工作？	必须引用
☐ 是否在投稿时声明了关联？	必须声明
☐ 每篇论文能否独立成立？	读者不需要看另一篇才能理解
☐ 图表是否有复用？	复用图表必须标注来源

10.2 安全的做法 vs 危险的做法

✓ 安全做法	✗ 危险做法
新数据 + 新方法 + 新问题	同数据 + 同方法 + 换个任务
30%以下文本重叠 + 引用声明	大段复制粘贴自己的论文
投稿时主动声明关联	隐瞒已发表的相关工作
会议论文→期刊扩展（≥30%新增）	会议A→会议B（内容高度相似）
使用公开数据集做新研究	私有数据拆分后重复使用

十一、总结

核心判定原则：

同一数据拆分发表是否构成自我剽窃，取决于：

新贡献度：每篇是否有独立的、实质性的学术贡献？
重叠程度：方法/结果/文字的重叠是否超过合理范围？
透明度：是否引用了前期工作并在投稿时声明了关联？

一句话判定法则：

如果去掉重叠的数据和内容后，剩余部分仍然构成一篇有意义的完整论文，则合规；如果剩余部分无法独立支撑一篇论文的贡献，则属于Salami Slicing。

给研究者的最终建议：

宁可一篇高质量论文，也不要两篇低质量拆分论文
对自己的学术声誉负责，不值得为多一篇计数而冒险
如有疑问，主动与目标会议的Program Chair或Editor沟通确认