2026年3月25日 · TurnitinAPI 编辑部

理解 Turnitin Similarity Score —— 为什么 15% 和 45% 不只是数字

很多用户看到 similarity 超过 15% 就慌，其实这不是绝对标准。本文拆解 Turnitin 相似度分数背后的计算方式与常见误区。

Turnitin科普Similarity

Turnitin 最让人焦虑的一个东西，就是那个彩色条——0-24% 蓝色、25-49% 黄色、50-74% 橙色、75%+ 红色。很多学生看到自己的论文 42% 就慌了：是不是要被判抄袭？其实远没这么简单。

相似度 ≠ 抄袭

相似度分数（Similarity Score） 衡量的是一件很机械的事情：这篇文档的文本，有多少比例能在 Turnitin 的比对库里找到字面匹配或高度相似的片段。

这个库包括：

上一次某个学生提交的作业
互联网上的网页
已出版的学术期刊、会议论文、书籍
部分机构的自建库（视订阅而定）

所以以下情况都会拉高相似度，但它们完全不是抄袭：

引用（已标注来源）：一段正确 citation 的长直引，仍会被标为匹配
参考文献列表：所有 bibliography 都会匹配到其他学术论文
常见短语：“In this paper, we propose…”、“The results show that…”
公式、表格的公共标签：方法论段落中大量通用术语

正确的读法

看 Similarity 报告时，至少要做三件事：

1. 看颜色条但别只看总分

右侧的 Match Overview 面板会按来源分组。看每个来源的 % 贡献：

如果 43% 里有 30% 来自”学生论文”那通常是引用了同门师兄的参考文献，没问题
如果 43% 里有 25% 来自”某一篇互联网博客”，那才是真的警报

2. 筛选低门槛匹配

Turnitin 默认把 < 1% 的匹配也显示出来。在 Filters and Settings 里把 Exclude matches that are less than 设到 1% 或更高，能把噪声去掉。

还可以：

排除引用（Exclude Quotes）：给正确格式的引用打折
排除 Bibliography：剔除参考文献的假警报
排除小段：n 词以下的匹配不计入

3. 导出完整 PDF 自己过一遍

API 直接返回的 similarity.pdf 里有可交互的高亮，点击每段匹配可以看到具体来源。机构阅卷老师会先看这份而不是那个彩色数字。

AI 检测的读法

AI 检测报告独立于 similarity。它返回两个值：

AI 整体概率（AI Probability Overall）：0-100% 的概率，表示这篇文档有多大可能由 AI 生成
分段着色：按段落把”疑似 AI 生成”的文本高亮

重要：

AI 检测有 1-2% 的误判率。对人工撰写的高度工整、专业术语密集的文本（法律意见书、技术规范）可能误报
Turnitin 的 AI 检测专门针对 GPT-3.5/4 系列训练。最新模型的检测准确率可能低一些
在我们的 API 里两个报告是独立可选的，只要 similarity 不要 AI 也行

我们能帮你什么？

同一份文档同时返回 Similarity + AI 两份报告，JSON 结构化分值方便你们的系统做决策
所有报告都是真·Turnitin 真报告，不是某个第三方伪造品
失败全额退款，不需要赌

有其他关于 Turnitin 使用方式的问题？欢迎来信。