宣布与Proofig建立全新合作伙伴关系!了解更多

为何困惑度和突发性无法检测人工智能

布拉德利·艾米
2025年3月4日

当你在网上搜索AI检测器的工作原理时,通常会看到许多资料提及"困惑度"和"突发性"这两个术语。它们究竟意味着什么?为何最终无法有效识别AI生成的内容?今天我将剖析困惑度与突发性的本质,并阐明它们为何不适用于检测AI写作。 我们还将深入探讨其失效根源:为何基于困惑度与突发性的检测器会错误判定《独立宣言》为AI生成,以及这类检测器为何对非母语英语使用者存在偏见。让我们开始吧!

什么是困惑度和突发性?

我们将从一个非技术性的、不精确的困惑度定义开始,只是为了大致了解困惑度是什么以及它在做什么。关于困惑度的更多背景知识,我发现这篇两分钟的解释性文章非常有用。

困惑度是指从特定语言模型或大型语言模型的角度来看,文本中每个词的意外性或惊喜程度。

例如,以下是两句话。为便于演示,我们聚焦于每句话的最后一个词。在第一个例子中,最后一个词的困惑度较低;而在第二个例子中,最后一个词的困惑度较高。

低困惑度

今天午餐,我吃了一碗*汤*。

高困惑度

今天午饭,我吃了一碗*蜘蛛*。

第二句之所以具有高困惑度,是因为语言模型在训练数据集中极少遇到人们吃蜘蛛碗的例子,因此当句子以"蜘蛛"结尾时,对语言模型而言非常意外——毕竟通常会以"汤"、"三明治"或"沙拉"等常见食物收尾。

困惑(perplexity)与"困惑的"(perplexed)同源,意指"迷茫"或"困惑不解"。可将困惑理解为语言模型的混乱状态:当模型遭遇与训练过程中所读取、吸收的内容相比陌生或意外的表达时,我们便可视其为被该表达所扰乱或迷惑。

好的,明白了,那么突发性呢?突发性是指困惑度在文档中的变化情况。如果文档中散布着一些出人意料的词汇和短语,我们就会说该文档具有较高的突发性。

基于困惑度和突发性的检测器如何工作?

遗憾的是,大多数商业检测器(除Pangram外)并未公开其检测方法。但根据现有描述可知,人类文本被认为具有更高的熵值和突发性,而AI生成的文本则具有较低的概率和突发性。

我们可以在下方看到可视化效果!我从Huggingface下载了GPT-2模型,并计算了两组文档中所有文本的困惑度:一组是人类撰写的餐厅评论,另一组是AI生成的评论。随后我将低困惑度文本标记为蓝色,高困惑度文本标记为红色。

困惑度可视化:人工智能与人类文本对比

如您所见,AI生成的文本整体呈现深蓝色,表明其熵值普遍较低且分布均匀。而人工生成的文本虽以蓝色为主,但其中夹杂着红色峰值。这正是我们所说的突发性较高。

正是这个理念催生了困惑度检测器和突发性检测器。不仅最早的商用AI检测器基于此理念,它还启发了诸如DetectGPT和Binoculars等学术研究。

公平地说,这些复杂度和突发性检测器确实有时能发挥作用!但我们不认为它们能在必须避免误判的高风险场景中可靠运行——例如在课堂上,错误的AI检测可能破坏师生信任,更糟的是,在法律案件中甚至可能制造出不准确的证据。

缺陷一:训练集中的文本被错误地归类为人工智能

对于不了解大型语言模型(LLM)创建过程的人来说,在这些模型能够部署并作为聊天机器人使用之前,必须先经历一个称为训练的过程。在训练期间,语言模型会接触数十亿条文本,并从所谓的"训练集"中学习其底层的语言模式。

本文暂不深入探讨训练流程的具体机械细节,但有一项关键要点不容忽视:在优化过程中,大型语言模型会直接受到激励,以最小化其训练集文档的困惑度!换言之,模型会随着时间推移逐渐学习到,在训练过程中反复出现的文本片段应尽可能降低困惑度。

为什么这会成为问题?

由于模型被要求使训练集文档达到低困惑度,困惑度和突发性检测器会将常见训练集文档归类为AI生成,即使这些训练集文档实际上是由人类撰写的!

这就是为什么基于困惑度的AI检测器会将《独立宣言》判定为AI生成:由于《独立宣言》是广为人知的历史文献,在无数教科书和网络文章中被反复引用,它频繁出现在AI训练数据集中。 由于训练过程中每次遇见该文本时内容完全相同,模型在识别《独立宣言》时便能将其内容记忆于心,进而自动为所有词元赋予极低的困惑度,这也会导致突发性指标同样处于极低水平。

我对《独立宣言》进行了相同的可视化分析——结果显示相同的AI特征:全文呈现深邃而统一的蓝色,表明每个单词的困惑度都很低。从基于困惑度和突发性的检测器角度来看,《独立宣言》与AI生成的内容完全无法区分。

有趣的是,我们注意到《独立宣言》的第一句话呈现出比其他部分更深的蓝色和更低的困惑度。这是因为该句是该段落中被引用次数最多的部分,在GPT-2训练集中出现的频率也最高。

《独立宣言》的困惑度可视化

同样地,我们发现其他常见的大语言模型训练数据源在使用困惑度和突发性检测器时,也会出现较高的误报率。维基百科因其高质量和开放许可而成为非常常见的训练数据集:正因如此,它极易被误判为AI生成内容——因为语言模型直接针对维基百科条目进行了降低困惑度的优化。

随着人工智能持续发展并日益先进,这个问题正日益恶化,因为最新语言模型对数据的需求极其庞大:就在您阅读本文的此刻,OpenAI、谷歌和Anthropic的爬虫程序仍在疯狂抓取互联网数据,持续为语言模型训练提供训练素材。 出版商和网站所有者是否该担忧:允许这些爬虫抓取网站内容用于大型语言模型训练,未来可能导致其内容被误判为AI生成?企业考虑向OpenAI授权数据时,是否该权衡风险——一旦大型语言模型吸收这些数据,这些数据又可能被错误预测为AI生成?我们认为这是完全不可接受的失败案例,且随时间推移正日益恶化。

缺陷二:困惑度与突发性在不同语言模型中表现各异

将困惑度和突发性作为检测指标的另一个问题在于,它们是相对特定语言模型而言的。例如,对GPT模型可接受的阈值,对Claude模型可能并不适用。当新模型出现时,它们的困惑度同样会有所不同。

所谓的"黑箱"困惑度检测器需要选择一种语言模型来测量实际困惑度。但当该语言模型的困惑度与生成器的困惑度不一致时,就会产生严重失准的结果,而随着新模型版本的发布,这个问题只会愈演愈烈。

缺陷三:商业模型未必能揭示困惑

闭源供应商并不总是提供每个令牌的概率分布,因此对于ChatGPT、Gemini和Claude等闭源商业模型,你甚至无法计算其困惑度。最多只能使用开源模型来测量困惑度,但这会遇到与缺陷二相同的难题。

缺陷四:非母语英语文本(ESL)被错误归类为人工智能生成

一种观点逐渐形成:人工智能检测技术对非英语母语者存在偏见,这一观点得到了斯坦福大学2023年对91篇托福作文的研究支持。尽管Pangram通过广泛基准测试非英语母语文本并将其纳入训练集,使模型能够识别和检测这类文本,但基于困惑度的检测器在非英语母语文本上确实存在较高的误报率。

其原因在于,英语学习者书写的文本通常具有较低的熵值和突发性。我们认为这并非偶然:在语言学习过程中,学生的词汇量明显受限,且无法构建出超出语言模型常规范畴的复杂句式结构——这类句式往往具有较高的意外性。 我们认为,掌握既能保持语言规范性又能展现高熵值与高突发性的写作能力,是需要通过长期语言实践才能获得的高阶技能。

非英语母语者——我们认为由此延伸至神经多样性学生或残障学生——更容易被困惑度检测器识别出来。

缺陷五:基于困惑度的检测器无法进行迭代式自我改进

我们认为基于困惑度的检测器最大的缺陷在于,它们无法随着数据和计算规模的增长而自我改进——这也正是Pangram团队选择采用深度学习方法的原因。

这意味着什么?随着Pangram通过我们的主动学习算法积累更多人类文本经验,其性能将逐步提升。正是如此,我们才将误报率从2%降至1%,再降至0.1%,如今已降至0.01%。而基于困惑度的检测器无法通过接触更多数据实现性能提升。

资源与延伸阅读

结论

计算与AI生成文本相关的统计指标,与构建能够可靠检测AI生成文本的生产级系统之间存在巨大差异。虽然基于困惑度的检测器抓住了人类写作与AI写作本质差异的关键维度,但正如本文所述,若要同时保持足够低的误报率以满足生产应用需求,就无法使用基于困惑度的检测器来可靠地识别AI生成文本。

在教育等需要重点规避误报的环境中,我们期待更多研究转向基于深度学习的方法,而非依赖困惑度、突发性等度量指标。

我们希望这能帮助您理解,为何Pangram选择不采用困惑度和突发性来检测AI生成的文本,而是专注于可扩展的可靠方法。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。