您的AI检测分数代表什么?

亚历克斯·罗伊特曼
2026年3月17日

你将一名学生的论文或一名自由撰稿人的文章输入AI检测工具。屏幕上弹出一个醒目的大数字:65% AI。接下来你会怎么做?

AI检测分数与传统的评分标准不同,后者通常只有“通过”和“未通过”两种明确结果。在“完全由AI生成”与“经AI编辑”之间,其界限正不断演变,而Pangram的检测系统也在随之不断进化。

本指南将简单的百分比数据转化为通俗易懂的语言。我们将详细讲解AI评分检测工具如何计算百分比、置信区间意味着什么,以及如何确定触发操作的合适AI检测阈值。

这个百分比究竟说明了什么?

如果您使用人工智能检测工具扫描一份文档,系统会给出一个人工智能检测百分比,例如“50%”。这个百分比并不意味着文档中有50%的内容是伪造的或由人工智能生成的。它的意思是,根据人工智能检测工具的判断,该文档中有50%的内容包含由人工智能生成或辅助撰写的文字。

AI检测分数

AI检测分数示例

先进的AI检测工具不会将文档视为一个巨大的文本块。相反,这些工具会将文本分解为片段、句子和段落。这些独立的文本块会被作为片段进行评分。

如果你在一篇10页的论文中获得了30%的得分,这通常意味着其中大约三页的文本呈现出大型语言模型(LLM)典型的特征。这些特征包括缺乏突发性、语法可预测性等。该得分并不意味着文档中有30%的内容是由人工智能生成的。

解读 AI 评分谱

如果您正在使用人工智能检测工具,且某份文档的检测结果较低(例如,30%由人工智能生成),这通常表明该文档属于混合型文档。混合型文档通常由人类撰写,随后借助人工智能工具进行编辑。另一方面,如果检测结果较高(例如85%),则强烈表明该文本完全由人工智能生成。

AI生成内容与人工撰写内容的混合

AI生成内容与人工撰写内容的混合

当作者出现以下情况时,AI检测分数往往处于中低水平:

  • 使用Grammarly等工具。
  • 要求像ChatGPT这样的自然语言处理模型(LLM)“润色”它们撰写的段落。
  • 使用人工智能将母语翻译成英语。

当文本的语言特征极具AI生成特征时,AI检测率往往会很高。这通常意味着该文本的作者向大型语言模型(LLM)输入了提示词,然后将该模型的直接输出内容稍作修改后直接复制粘贴。

AI 分数检测工具准确吗?

我们无法验证其他工具的检测结果,但像 Pangram 这样的企业级 AI 检测工具准确率极高(99.98%)。为了帮助您评估其准确性,大多数企业级 AI 检测工具都会提供“置信区间”,用以显示模型对其自身检测百分比的确定程度。

对于“AI检测工具是否准确?”这一问题的答案,其根源在于两个事实:一是使用统计模型来判断一段文本是否由AI生成;二是这些模型基于概率而非绝对确定性进行运作。

“高置信度”标记表示该文本与已知的LLM训练数据模式相符。正因为该文本与已知的LLM训练数据模式相符,因此AI检测结果的准确率是合理的。这并不意味着AI检测结果绝对准确,但其准确性应该较高。

“低置信度”标记表示文本中存在某些人工智能特征,但模型缺乏足够的数据来做出明确判断。许多“低置信度”标记是由于文本片段过于简短,无法进行准确评估所导致的。

如果你使用的AI检测工具对书面内容仅进行非黑即白的评估,那么像Pangram这样的工具就能帮助你识别出那些表明由AI生成的具体段落。

“喜忧参半”的结果

在现代工作流程中,最常见的状况是“混合”内容,即结合了人工和AI写作/编辑的内容。正因如此,像Pangram 3.0这样的工具才会将文本按以下等级进行分类:纯人工、轻度AI辅助、中度AI辅助以及纯AI生成。

AI评分结果参差不齐

AI评分结果参差不齐

将AI生成的文本按程度进行分类非常重要,因为如果一名学生仅仅因为使用了拼写检查工具,就被判定为“轻度AI辅助”文本并只得到10%的分数,那么他就不应与提交了95%“完全由AI生成”的论文的学生受到同等对待。高亮显示的功能可以准确指出哪些部分是由AI生成的。

哪些AI评分阈值需要采取行动?

虽然没有一个放之四海皆准的“临界值”来决定是否需要采取纠正措施,但根据最佳实践,AI检测分数低于20%通常表明只是常规的数字写作辅助;而分数高于60%时,往往需要直接与作者沟通,以核实文章的真实性

您应设置一个符合您AI使用政策的AI检测阈值。例如,如果您的政策规定“允许使用AI进行头脑风暴,但不得用于起草文本本身”,那么当检测结果达到40%时就需要进行核查。或者,如果您的政策规定“写作过程中的任何环节均不得使用AI”,那么即使检测结果仅为15%,也可能需要进行核查。

您收到的 AI 检测分数是一种诊断工具。如果分数较高,您可以利用 Pangram 标出的段落以及“AI 短语”报告,与作者坐下来,请他们解释自己的起草过程。这有助于澄清疑问、提供指导,并最终达成双方都期待的成果。

AI检测并非简单的“通过/未通过”二元判定

Pangram 是一款功能精妙的分析工具,能够清晰呈现当今写作背后的运作机制。通过准确理解 AI 评分的含义,专业人士既能坚定地恪守诚信标准,又能公平对待写作者。

别再猜测这些数字的含义了。借助 Pangram 的分段分析,您可以获得关于文本作者身份的详细且通俗易懂的洞察。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。