你将一名学生的论文或一名自由撰稿人的文章输入AI检测工具。屏幕上弹出一个醒目的大数字:65% AI。接下来你会怎么做?
AI检测分数与传统的评分标准不同,后者通常只有“通过”和“未通过”两种明确结果。在“完全由AI生成”与“经AI编辑”之间,其界限正不断演变,而Pangram的检测系统也在随之不断进化。
本指南将简单的百分比数据转化为通俗易懂的语言。我们将详细讲解AI检测工具如何计算百分比、置信区间意味着什么,以及如何确定触发操作的合适AI检测阈值。
如果您使用人工智能检测工具扫描一份文档,系统会给出一个人工智能检测百分比,例如“50%”。因此,根据该检测工具的显示,该文档中有50%的内容是由人工智能生成或辅助撰写的。
AI检测分数示例 先进的AI检测工具不会将文档视为一个巨大的文本块。相反,这些工具会将文本分解为片段、句子和段落。这些独立的文本块会被作为片段进行评分。
如果你在一篇10页的论文中获得了30%的分数,这很可能意味着其中大约三页的内容展现了大型语言模型(LLM)典型的特征模式。
如果您正在使用人工智能检测工具,且某份文档的检测结果分数较低(例如,30%由人工智能生成),这通常表明该文档属于混合文档。混合文档通常是由人类撰写,随后借助人工智能工具进行编辑,或者在原文中添加了由人工智能生成的文本。
人工智能生成与人工撰写内容的混合当作者出现以下情况时,通常会触发AI辅助检测评分:
当文本的语言特征极度符合AI生成模式时,AI检测率往往会很高。这通常意味着该文本的作者向大型语言模型(LLM)输入了提示词,然后将该模型的直接输出内容复制粘贴下来,并稍作修改。
我们无法验证其他工具的结果,但像Pangram这样的企业级AI检测工具准确率极高(99.98%)。为了帮助您评估其准确性,大多数企业级AI检测工具都会提供一个“置信度”指标,显示模型对其自身检测结果的确定程度。
对于“AI检测工具是否准确?”这一问题的答案,其依据在于两个事实:首先,我们使用统计模型来判断一段文本是否由AI生成;其次,这些模型运作时依赖的是概率,而非绝对的确定性。
如果您使用的AI检测工具对书面内容仅进行非黑即白的评估,那么像Pangram这样的工具可以帮助您识别出那些表明由AI生成的具体段落。
现代工作流程中的一种现实情况是“混合”内容,即结合了人工和AI写作/编辑的内容。正因如此,像Pangram 3.0(及以上版本)这样的工具会将文本按以下等级进行分类:纯人工、轻度AI辅助、中度AI辅助以及纯AI生成。
AI评分结果参差不齐将人工智能生成的文本按程度进行分类非常重要,因为在学校或编辑政策中,得分10%的“轻度AI辅助”文本与得分95%的“完全由AI生成”的论文可能会受到不同的对待。高亮显示的功能可以准确地告诉你哪些部分是由AI生成的。
虽然没有一个放之四海皆准的“临界值”来决定是否需要采取纠正措施,但根据最佳实践,AI检测分数低于20%通常表明只是常规的数字写作辅助。而分数高于60%时,往往需要直接就该文章的真实性进行沟通。
您应设置一个符合您AI使用政策的AI检测阈值。例如,如果您的政策允许“使用AI进行头脑风暴,但不得用于起草文本本身”,那么40%的检测结果可能需要进一步核查。或者,如果您的政策规定“写作过程中的任何环节均不得使用AI”,那么即使是15%的检测结果,也可能需要进一步核查。
您收到的 AI 检测分数是一种诊断工具。如果分数较高,您可以利用 Pangram 标出的段落和“AI 短语”报告,与作者坐下来,请他们解释自己的起草过程。这有助于厘清问题、提供指导,并最终达成双方都期待的成果。
Pangram 是一款功能精妙的分析工具,能够揭示当今写作背后的运作机制。通过准确理解 AI 评分的含义,专业人士既能坚定地恪守诚信标准,又能公平对待写作者。
别再猜测这些数字的含义了。借助 Pangram 的分段分析,您可以获得关于文本作者身份的详细且通俗易懂的洞察。

亚历克斯·罗伊特曼(Alex Roitman)是人工智能内容检测公司Pangram Labs的增长主管。他的工作重点在于研究人工智能生成的文本如何重塑写作、教育以及人们对开放网络的信任。