一、直接回答:大概率构成自我剽窃
先给出明确结论:
将同一组数据简单拆分成两篇论文发表在不同国际会议上,在绝大多数情况下构成自我剽窃(Self-plagiarism),学术界称之为"切腊肠"式发表(Salami Slicing)。
但需要注意:并非所有数据复用都是自我剽窃。关键在于"拆分方式"和"新增贡献量"。下面详细分析判定边界。

二、什么是自我剽窃?与相关概念的区分
2.1 核心定义
| 概念 | 定义 | 性质 |
|---|---|---|
| 自我剽窃(Self-plagiarism) | 将自己已发表的内容(数据、文字、图表)再次发表而不充分引用或说明 | 学术不端 |
| 重复发表(Duplicate Publication) | 同一篇论文或高度相似论文投给多个期刊/会议 | 严重学术不端 |
| 一稿多投(Simultaneous Submission) | 同一稿件同时投给多个期刊/会议审稿 | 严重违规 |
| Salami Slicing(切腊肠发表) | 将一个完整研究人为拆分成多篇最小可发表单元 | 学术不端/灰色地带 |
| 合法增量发表(Legitimate Extension) | 基于已有工作进行实质性扩展后发表 | 合规 |
2.2 关键区分:自我剽窃 ≠ 一稿多投
- 一稿多投:同一篇稿件同时在审 → 最严重违规
- 自我剽窃:已发表A,再基于A的数据/文字写B并发表 → 程度视重叠量而定
两者都是学术不端,但性质和后果略有差异。
三、出版商和学术组织的官方立场
3.1 IEEE政策
IEEE对重复发表有明确规定:
- 禁止将已发表会议论文的内容在另一会议上重复发表
- 允许将会议论文扩展为期刊论文(需30%以上新内容)
- 要求引用自己此前的相关工作
- 使用iThenticate进行相似度检测,阈值通常为30%
IEEE原文立场:"Authors should not submit a manuscript that has been previously published in substantially similar form."
3.2 ACM政策
ACM的规定更为细化:
- 提交时需声明与已发表工作的关系
- 使用相同数据集必须明确说明新贡献
- 会议论文 → 期刊扩展版有明确的增量要求(通常≥25-30%新内容)
- 两篇会议论文之间使用相同数据需要显著不同的研究问题和贡献
3.3 Springer / LNCS政策
- 明确禁止将实质性相同的工作提交给多个会议
- 要求作者在投稿时声明是否存在相关已发表工作
- 编辑有权在发现重复后撤稿
3.4 AAAI / NeurIPS / ICML等AI顶会
- 投稿时需勾选"本文未在其他会议/期刊上发表或在审"
- 对已发表workshop paper扩展为主会议论文有具体要求
- NeurIPS明确:如果核心贡献已在其他venue发表,则不接受
3.5 国际出版伦理委员会(COPE)
COPE将Salami Slicing列为需要调查的学术不端行为之一,建议出版商:
- 调查作者意图
- 评估重叠程度
- 视情况要求撤稿或发表更正声明
四、判定标准:什么情况算、什么情况不算?
4.1 明确构成自我剽窃的情形 ✗
| 情形 | 为什么算 |
|---|---|
| 同一实验、同一结果,换个标题换个会议投 | 实质性重复,无新贡献 |
| 数据集相同,仅更换一种baseline对比方法 | 核心贡献未变,增量不足 |
| 拆分为"方法论文"+"实验论文"但数据完全相同 | 人为割裂完整工作 |
| 大段文字复制自己已发表的论文(>30%) | 文本层面的自我剽窃 |
| 同一数据换一个评估指标重新跑一遍 | 无实质性新发现 |
4.2 不构成自我剽窃的合规情形 ✓
| 情形 | 为什么不算 |
|---|---|
| 会议短文/Workshop → 扩展为会议全文(有显著新增) | 合法增量发表 |
| 会议论文 → 期刊扩展版(≥30%新内容) | 出版商明确允许 |
| 相同数据集但解决完全不同的研究问题 | 研究问题和贡献不同 |
| 使用公开数据集,与他人用同一数据集的工作并存 | 公开数据集可被任何人使用 |
| 引用了自己的前期工作并明确说明增量 | 透明且有新贡献 |
4.3 灰色地带 ⚠️
| 情形 | 风险分析 |
|---|---|
| 同一数据集+同一方法,但应用在不同任务上 | 取决于方法是否有本质修改 |
| 50%数据相同 + 50%新数据,方法相同 | 取决于新数据带来的新发现 |
| 同一大项目的不同子模块分别发表 | 取决于模块间独立性 |
| 预印本(arXiv) → 会议投稿 | 多数会议允许,但需声明 |
| 不同语言版本(中文会议+英文会议) | 部分领域允许,但需互相引用 |
五、"切腊肠"式发表(Salami Slicing)深度解析
5.1 什么是Salami Slicing?
将一个本可以写成一篇完整高质量论文的研究,人为拆分成多篇"最小可发表单元"(Least Publishable Unit, LPU),以增加论文数量。
类比: 一根完整的腊肠被切成很多薄片,每片单独来看都很薄、价值有限,但合在一起才是一根完整的腊肠。
5.2 判定是否为Salami Slicing的关键问题
问自己以下5个问题:
- 每篇论文是否能独立成立? — 如果单独一篇缺少关键信息,说明不该拆分
- 每篇是否有独立的研究问题? — 如果研究问题本质相同,不该拆分
- 合并后是否明显更好? — 如果合并后质量显著提升,说明不该拆分
- 读者是否需要阅读两篇才能完整理解? — 如果是,说明人为割裂了
- 拆分的动机是什么? — 如果纯粹为了"多一篇论文",动机不正当
5.3 真实案例分析
案例1:不合规的拆分 ✗
研究者用数据集D训练了模型M,论文A报告了在任务T1上的结果,论文B报告了在任务T2上的结果。两篇论文的方法章节几乎相同,仅Results不同。
问题: 方法无区别,仅更换评估任务,属于典型Salami Slicing。
案例2:合规的分别发表 ✓
研究者先在会议A发表了基于数据集D的方法M1(解决问题P1),后来在此基础上提出了改进方法M2,使用数据集D+D'(D'为新收集数据),解决了新问题P2,发表在会议B,并充分引用了论文A。
为什么合规: 有新方法、新数据、新问题,且引用了前期工作。
案例3:灰色地带 ⚠️
同一数据集D,论文A使用方法M做分类任务,论文B使用方法M做检测任务。两篇方法核心一样,但应用场景不同。
分析: 如果方法M针对不同任务有实质性修改和新的技术贡献,可能合规;如果仅换了个任务头(task head),实质性贡献不足,风险很大。
六、相似度检测工具与阈值
6.1 主流检测工具
| 工具 | 使用方 | 特点 |
|---|---|---|
| iThenticate | IEEE、ACM、Springer等 | 行业标准,覆盖面广 |
| Turnitin | 部分学术出版商 | 学位论文检测主力 |
| CrossCheck | 基于iThenticate的出版商版 | 自动对比已发表文献 |
| 学术不端检测系统(CNKI) | 中文期刊/会议 | 中文文献覆盖全 |
6.2 相似度阈值参考
| 相似度范围 | 风险等级 | 可能结果 |
|---|---|---|
| <15% | 低风险 | 通常安全(含公式、参考文献等通用内容) |
| 15%-30% | 中等风险 | 可能触发人工审查 |
| 30%-50% | 高风险 | 很可能被判定为自我剽窃 |
| >50% | 极高风险 | 几乎确定被拒稿或撤稿 |
注意: 相似度数值仅为参考,最终判定取决于重叠内容的性质(方法描述重叠 vs 结果数据重叠差异很大)。
6.3 哪些内容重叠是可接受的?
- ✓ 数学公式和符号定义(通用表述)
- ✓ 实验设置的标准描述(数据集介绍、评估指标定义)
- ✓ 相关工作综述中的标准表述
- ✗ Results/Discussion中的数据和分析
- ✗ 核心方法描述的大段重复
- ✗ 图表的直接复用
七、被发现后的后果
7.1 短期后果
| 后果 | 严重程度 | 说明 |
|---|---|---|
| 稿件被拒 | ★★★☆☆ | 最轻后果,审稿阶段发现 |
| 论文被撤稿(Retraction) | ★★★★☆ | 发表后发现,永久记录 |
| 被会议/出版商列入黑名单 | ★★★★★ | 一定期限内禁止投稿 |
| 通知所在单位 | ★★★★☆ | IEEE等可能通知作者单位 |
7.2 长期后果
| 后果 | 影响 |
|---|---|
| 学术声誉受损 | 同行知晓后信任度下降 |
| 撤稿记录永久可查 | Retraction Watch数据库公开记录 |
| 影响基金申请 | 评审专家可查询撤稿记录 |
| 影响职称评审 | 撤稿论文不计入成果,可能倒扣分 |
| 合作者受牵连 | 所有共同作者都可能被调查 |
| 学位可能受影响 | 如涉及学位论文核心成果 |
7.3 真实处罚案例
- IEEE案例:某作者将高度相似的论文投给3个IEEE会议,被发现后3篇全部撤稿,作者被禁止向IEEE投稿3年。
- ACM案例:两篇ACM会议论文被发现数据和方法高度重叠,后发表的论文被撤稿,作者收到正式警告。
- 国内案例:某高校教师被发现将同一数据拆分发表在国内外两个会议,评职称时两篇均被取消资格。
八、合规拆分发表的正确方法
如果确实有合理需求将相关数据用于多篇论文,以下方法可以合规操作:
8.1 确保研究问题本质不同
论文A:使用数据集D研究"如何提高模型准确率"(问题P1)
论文B:使用数据集D研究"如何减少模型推理时间"(问题P2)
前提:论文B有全新的方法设计针对P2,而非简单复用论文A的方法
8.2 确保方法有实质性差异
- 不能只换一个模块、改一个超参数
- 需要有新的算法设计、新的技术路线
- 两篇论文的方法章节应有显著不同
8.3 新增足够的实验和数据
| 合规标准 | 建议量 |
|---|---|
| 新增数据比例 | ≥50%的实验使用新数据或新设置 |
| 新增Baseline对比 | 至少3-5个新的对比方法 |
| 新增分析内容 | 新的消融实验、案例分析、可视化 |
8.4 充分引用前期工作
必须做到:
% 在论文B中明确引用论文A
In our previous work \cite{our_paper_A}, we explored [简述A的贡献].
In this paper, we extend our investigation to [B的新方向],
with the following novel contributions: ...
并在Introduction中清楚说明与前期工作的区别和增量。
8.5 投稿时主动声明
许多会议投稿系统中有以下选项:
□ This paper is based on / related to previously published work.
Please describe the relationship: ________________
务必如实填写,不要心存侥幸。主动声明比被动发现好100倍。
九、会议论文 → 期刊扩展版的合规路径
这是学术界明确认可的数据复用场景:
9.1 通用要求
| 出版商 | 新内容要求 | 其他要求 |
|---|---|---|
| IEEE | ≥30%新内容 | 引用会议版本,说明增量 |
| ACM | ≥25%新内容 | 投稿时声明,附会议版PDF |
| Springer | ≥30-50%新内容 | 视具体期刊要求 |
| Elsevier | ≥50%新内容 | 严格要求,部分期刊不接受 |
9.2 "新内容"包括什么?
- ✓ 新的实验结果和数据
- ✓ 新的方法模块/改进
- ✓ 更深入的理论分析/证明
- ✓ 更全面的相关工作讨论
- ✓ 新的案例研究/应用场景
- ✗ 仅增加文字量(换种说法重新描述)
- ✗ 仅增加参考文献数量
- ✗ 仅改变排版使论文看起来更长
9.3 正确的声明方式
在期刊投稿Cover Letter中:
Dear Editor,
This manuscript is an extended version of our conference paper:
[Full citation of conference paper]
The major extensions include:
1. [New contribution 1]
2. [New contribution 2]
3. [New contribution 3]
The new content accounts for approximately XX% of this manuscript.
十、预防与自查指南
10.1 投稿前自查清单
| 自查项 | 标准 |
|---|---|
| ☐ 两篇论文的研究问题是否本质不同? | 不能仅换个角度看同一问题 |
| ☐ 方法描述重叠度是否<30%? | 用iThenticate自查 |
| ☐ 实验结果是否有≥50%的新内容? | 新数据/新指标/新设置 |
| ☐ 是否引用了自己的相关前期工作? | 必须引用 |
| ☐ 是否在投稿时声明了关联? | 必须声明 |
| ☐ 每篇论文能否独立成立? | 读者不需要看另一篇才能理解 |
| ☐ 图表是否有复用? | 复用图表必须标注来源 |
10.2 安全的做法 vs 危险的做法
| ✓ 安全做法 | ✗ 危险做法 |
|---|---|
| 新数据 + 新方法 + 新问题 | 同数据 + 同方法 + 换个任务 |
| 30%以下文本重叠 + 引用声明 | 大段复制粘贴自己的论文 |
| 投稿时主动声明关联 | 隐瞒已发表的相关工作 |
| 会议论文→期刊扩展(≥30%新增) | 会议A→会议B(内容高度相似) |
| 使用公开数据集做新研究 | 私有数据拆分后重复使用 |
十一、总结
核心判定原则:
同一数据拆分发表是否构成自我剽窃,取决于:
- 新贡献度:每篇是否有独立的、实质性的学术贡献?
- 重叠程度:方法/结果/文字的重叠是否超过合理范围?
- 透明度:是否引用了前期工作并在投稿时声明了关联?
一句话判定法则:
如果去掉重叠的数据和内容后,剩余部分仍然构成一篇有意义的完整论文,则合规;如果剩余部分无法独立支撑一篇论文的贡献,则属于Salami Slicing。
给研究者的最终建议:
- 宁可一篇高质量论文,也不要两篇低质量拆分论文
- 对自己的学术声誉负责,不值得为多一篇计数而冒险
- 如有疑问,主动与目标会议的Program Chair或Editor沟通确认
