跳到主要内容

理解 Turnitin Similarity Score —— 为什么 15% 和 45% 不只是数字

很多用户看到 similarity 超过 15% 就慌,其实这不是绝对标准。本文拆解 Turnitin 相似度分数背后的计算方式与常见误区。

Turnitin科普Similarity

Turnitin 最让人焦虑的一个东西,就是那个彩色条——0-24% 蓝色、25-49% 黄色、50-74% 橙色、75%+ 红色。很多学生看到自己的论文 42% 就慌了:是不是要被判抄袭?其实远没这么简单。

相似度 ≠ 抄袭

相似度分数(Similarity Score) 衡量的是一件很机械的事情:这篇文档的文本,有多少比例能在 Turnitin 的比对库里找到字面匹配或高度相似的片段

这个库包括:

  • 上一次某个学生提交的作业
  • 互联网上的网页
  • 已出版的学术期刊、会议论文、书籍
  • 部分机构的自建库(视订阅而定)

所以以下情况都会拉高相似度,但它们完全不是抄袭:

  1. 引用(已标注来源):一段正确 citation 的长直引,仍会被标为匹配
  2. 参考文献列表:所有 bibliography 都会匹配到其他学术论文
  3. 常见短语:“In this paper, we propose…”、“The results show that…”
  4. 公式、表格的公共标签:方法论段落中大量通用术语

正确的读法

看 Similarity 报告时,至少要做三件事:

1. 看颜色条但别只看总分

右侧的 Match Overview 面板会按来源分组。看每个来源的 % 贡献:

  • 如果 43% 里有 30% 来自”学生论文”那通常是引用了同门师兄的参考文献,没问题
  • 如果 43% 里有 25% 来自”某一篇互联网博客”,那才是真的警报

2. 筛选低门槛匹配

Turnitin 默认把 < 1% 的匹配也显示出来。在 Filters and Settings 里把 Exclude matches that are less than 设到 1% 或更高,能把噪声去掉。

还可以:

  • 排除引用(Exclude Quotes):给正确格式的引用打折
  • 排除 Bibliography:剔除参考文献的假警报
  • 排除小段:n 词以下的匹配不计入

3. 导出完整 PDF 自己过一遍

API 直接返回的 similarity.pdf 里有可交互的高亮,点击每段匹配可以看到具体来源。机构阅卷老师会先看这份而不是那个彩色数字。

AI 检测的读法

AI 检测报告独立于 similarity。它返回两个值:

  • AI 整体概率(AI Probability Overall):0-100% 的概率,表示这篇文档有多大可能由 AI 生成
  • 分段着色:按段落把”疑似 AI 生成”的文本高亮

重要:

  • AI 检测有 1-2% 的误判率。对人工撰写的高度工整、专业术语密集的文本(法律意见书、技术规范)可能误报
  • Turnitin 的 AI 检测专门针对 GPT-3.5/4 系列训练。最新模型的检测准确率可能低一些
  • 在我们的 API 里两个报告是独立可选的,只要 similarity 不要 AI 也行

我们能帮你什么?

  1. 同一份文档同时返回 Similarity + AI 两份报告,JSON 结构化分值方便你们的系统做决策
  2. 所有报告都是真·Turnitin 真报告,不是某个第三方伪造品
  3. 失败全额退款,不需要赌

有其他关于 Turnitin 使用方式的问题?欢迎来信。