宣布与Proofig建立全新合作伙伴关系!了解更多
在Pangram的工作中,降低误报率是最关键的任务之一。这意味着要最大限度减少人类撰写的文本被误判为AI生成的概率。 今天我们将阐述Pangram在各类文本检测中的误报率表现,说明如何通过模型评估机制确保误报率降至最低,并最终揭示我们构建行业最低误报率AI检测软件的核心技术方案。
在人工智能检测领域,误报是指检测器错误地将人类创作的样本判定为人工智能生成。相反,漏报是指将人工智能生成的样本错误判定为人类创作。
人工智能检测中的假阳性与假阴性
上图展示了两种错误类型。若红色代表负类,绿色代表正类,则被预测为绿色的红色X属于假阳性,被预测为红色的绿色O属于假阴性。
在统计学中,"第一类错误"和"第二类错误"这两个术语具有完全相同的含义:第一类错误即假阳性,第二类错误即假阴性。 统计学家(尤其是医学统计领域从业者)也使用"敏感度"和"特异度"来区分这两类错误率。机器学习科学家则采用"精确度"和"召回率"的表述。尽管这些术语存在细微的技术差异,但出于教学目的,本文将统一使用"假阳性"和"假阴性"——我认为这是对这两类错误最直观的表述。
在AI检测中,误报远比漏报危害更大。反复指控独立完成作业、未使用AI辅助的学生存在AI抄袭行为,会严重破坏师生间的信任,并给学生带来巨大焦虑与压力。反之,漏报可能意味着作弊者偶尔会漏网,这种结果相对不那么糟糕。
值得注意的是,在其他检测问题中,假阴性造成的危害远大于假阳性:例如,在癌症筛查测试中,测试错误地判定患者患癌的情况,远比测试完全漏诊患者实际存在的癌症要好得多。 若检测错误判定患者患癌,虽然患者可能需要再次接受随访、额外检查和治疗,但这远比漏诊癌症要好得多——后者将危及患者生命。
回到AI检测领域,误报造成的危害远大于漏报,但两者都至关重要:持续漏检AI生成的文本,或错误地将其判定为人类创作,同样会削弱工具的价值。因此在Pangram,我们的基本策略是尽可能同时降低误报率和漏报率,但将误报问题视为更优先的处理目标。
答案是:这要看情况!
总体而言,我们测得误报率约为万分之一:有时略高,有时略低,具体取决于文本类型及其他变量。
我们通过多种文本类型来衡量Pangram的误报率,这些文本类型被称为"领域"。以下是我们针对每个领域内部测量的最新误报率数据(虽非详尽无遗):
| 域名 | 假阳性率 |
|---|---|
| 学术论文 | 0.004% |
| 产品评论(英文) | 0.004% |
| 产品评论(西班牙语) | 0.008% |
| 产品评论(日语) | 0.015% |
| 科学摘要 | 0.001% |
| 代码文档 | 0.0% |
| 国会记录 | 0.0% |
| 食谱 | 0.23% |
| 医学论文 | 0.000% |
| 美国商业评论 | 0.0004% |
| 好莱坞电影剧本 | 0.0% |
| 维基百科(英文版) | 0.016% |
| 维基百科(西班牙语) | 0.07% |
| 维基百科(日语版) | 0.02% |
| 维基百科(阿拉伯语) | 0.08% |
| 新闻报道 | 0.001% |
| 书籍 | 0.003% |
| 诗歌 | 0.05% |
| 政治演讲 | 0.0% |
| 社交媒体问答 | 0.01% |
| 创意写作,短篇小说 | 0.009% |
| 操作指南文章 | 0.07% |
通常,当满足以下条件时,Pangram表现最佳:
我们认为这些因素正是Pangram在论文、创意写作和评论领域表现最优的原因。尽管新闻报道、科学论文和维基百科条目更具公式化与技术性特征,但这些领域拥有海量数据资源,因此Pangram已能精准识别文本中细微的写作模式。 最后,食谱和诗歌等领域表现最弱,因为这类文本通常篇幅较短,且多非完整句式(使大型语言模型难以在文本中注入其独特风格),同时在网络上的出现频率也普遍低于其他领域。
实际而言,这意味着什么?虽然Pangram在所有领域仍具有相对可靠性,但当文本篇幅较长、采用完整句式且需要作者更多原创性输入时,Pangram的准确性会更值得信赖。 因此我们建议避免使用该工具处理以下内容:简短的项目符号列表和纲要、数学公式、极短的单句式回答,以及高度公式化的文本(如长篇数据列表、电子表格、模板化写作和操作手册)。
我们无法对竞争对手进行同样全面的基准测试,原因很简单——其成本将高得令人望而却步。不过,我们可以参考竞争对手自称的误报率数据。
Turnitin在其官网上报告的误报率
Turnitin最新白皮书显示,其学术写作检测系统在文档层面的误报率为0.51%,即每200份文档约有1份被错误标记为AI生成。这意味着每200份学生提交的作业中,就有1份会被错误判定为人工智能创作。
在学术论文的类似数据集上测得的假阳性率为0.004%,即每25,000篇论文中仅有1篇。
这存在显著差异。在大型研究型大学中,每年可能提交10万篇论文。这意味着Turnitin系统会标记500篇误报论文,而Pangram系统仅有4篇误报。
GPTZero在其官网上报告的误报率
GPTZero声称其误报率为1%,这比Turnitin高出2倍,比Pangram高出250倍。
我们通过内部基准测试,在VIP通用数据集的小型子集上对比了GPTZero与Pangram的表现,以确保公平性。结果发现其误报率高达2.01%,比此前报告的数值更为严重。
Copyleaks在其网站上报告的误报率
Copyleaks宣称其误报率为0.2%,即每500次检测中有1次误报,若属实,其误报率将比Pangram高出50倍。
此外,孤立呈现的裸数据并不能说明全部情况。我们无法得知数据来源,也无法判断评估过程中可能存在的潜在偏差。正因如此,我们进行了全面的基准测试,并发布了这篇详细阐述模型评估流程的文章。
回顾去年由Liam Dugan及其合著者发表的RAID研究(即我们发布的调研综述文章中的第2项研究),我们特别想指出下图所示内容。
RAID研究中不同探测器的假阳性率
大多数检测器会设定一个"阈值",即当文本置信度高于该阈值时,模型判定为AI文本;低于该阈值时,则判定为人类文本。通过调整阈值,可权衡误报率与漏报率之间的取舍。
在此图表中,x轴表示移动阈值导致的误报率,y轴表示召回率:即在该阈值下评估时,能够被归类为AI文档的AI文档所占的比例。
简而言之,当竞争对手的检测器被强制设定为低于1%的误报率时,它们将无法正常工作;也就是说,当阈值足够低以产生1%的误报率时,它们将无法检测到任何AI。
在任何新模型获准部署至我们的仪表盘和API之前,Pangram都需经过极其严格的审批和测试流程。
在质量保证过程中,我们针对误报现象设计了三类测试,每类测试都在定量评估与定性评估之间取得平衡。我们的评估包括:
大规模保留数据集。每组包含约10,000至10,000,000个样本。这些是ChatGPT问世前(2022年)的大型开放式互联网数据库,我们从中选取了未经训练的保留数据集,专门用于评估目的。
中等规模VIP数据集。每套约含1000个样本。这些数据集由工程师或标注人员从可靠来源手工采集,经人工目视检查,并亲自验证为人工书写内容。尽管训练有素的专家擅长通过目视识别AI生成内容,但偶尔也会出现疏漏,因此我们定期审核数据并进行清理以确保准确性。
挑战数据集。每组约含10-100个示例。这些数据包含先前报告的误判案例、用户提交的棘手案例,以及我们希望测试系统表现的各类特殊文本范例。 我们同时收集特殊文本范例,如食谱、诗歌、电影剧本等在大规模语言模型训练集中代表性不足的文体。这些范例同样被视为挑战集,也是检验模型在"分布外"场景下整体表现的基准测试。
除了这三类质量保证措施外,我们还实施单元测试。这些单元测试通俗而言,就是检测模型是否存在所谓"令人难堪的失败"。当前的单元测试套件要求我们对《独立宣言》等文献、文学名句以及我们网站的文案和博客文章进行人类文本预测。若任何一项单元测试失败,我们将阻止新模型的部署并重启设计流程。 我们在评估中的核心理念之一,就是对这类"令人难堪的失败"保持高度警惕,通过持续追踪监控确保新模型发布时绝不会出现此类退化现象。
Pangram使用的三类评估集示意图:大规模保留集(1000万+样本)、中规模VIP集(1000+样本)以及挑战集(10-100样本)。
那些对数学和科学有天赋的人可能会问:为什么需要定性评估?样本越多不是越好吗?
对此我的回应是:样本量并非越多越好。正如一位睿智的先知所言,世上有谎言、该死的谎言,还有统计数据。但说真的,我们认为当你创建大规模数据集时,总会引入某种偏见。 当数据集庞大到无法逐例检查时,你无从知晓模型是否过度拟合了数据中的偏差——这可能导致模型在测试阶段表现优异,却在现实世界中彻底失灵。(顺带一提,我们认为这正是众多在线AI检测器标榜"99%准确率",实际测试却相去甚远的根源。)
在Pangram项目初期,当我们首次将维基百科纳入训练集时,曾发生过一个有趣的案例,生动说明了多种测试集的重要性。我们最初的失败尝试之一在保留集上表现优异,但在VIP集(人工收集的维基百科文章)上却表现极差。 最终我们发现,在使用的Huggingface数据集中,人类文本部分的 国际音标姓名发音被以极其诡异的方式重新格式化,导致模型产生了过拟合:它仅根据姓名格式判断文档属于AI还是人类。 在保留集上表现优异,但在现实世界中却惨不忍睹——因为模型失去了这个关键线索!这正是测试集的重要性所在:它必须准确反映Pangram在现实世界中将遇到的文本类型。
在Pangram向客户交付模型前,我们需经过严格的签核流程,该流程包含定量与定性双重评估:我们对模型进行压力测试,并对其相对于当前模型的表现进行细致审查。
定量评估:意味着在所有保留数据集、VIP数据集和挑战案例上的假阳性率指标不应进行回归分析。
定性评估:多数情况下,部分示例会得到改进,部分示例则会退化。我们尽可能通过人工审查退化的具体示例,确保失败案例具有可解释性。这通常涉及细微差别且取决于所测试的特定假设,但总体而言,我们需要确保失败案例不呈现特定模式——这类模式在部署后可能泛化为现实世界中的系统故障。
氛围测试/红队演练:最后,当定量与定性评估完成后,我们会将模型发送给团队进行"氛围测试",让他们实际操作体验一段时间。对于某些更新版本,我们还会在公开发布前安排内部测试人员或测试用户进行验证(通常我们鼓励他们尝试找出模型失效的案例!)
回溯式A/B测试:我们对历史预测结果进行离线推理,并对比旧模型与新模型的差异。虽然我们未必能获取先前推理数据的真实标签,但我们仍致力于发现可能揭示实际失败案例的规律性模式。
总而言之,尽管我们在用指标和统计数据衡量模型性能时极为严谨科学,但我们并不只依赖数字来揭示全貌。我们同样信任自己的观察力、直觉和模式识别能力,以此来审视模型并发现指标可能遗漏的错误模式。我们还依靠测试团队、红队成员和测试用户来发掘团队可能忽略的漏洞。
保持较低的误报率是我们研究使命的核心。以下是我们迄今为止为实现业界领先的错误率所采用的部分技术。
尽管竞争对手的AI检测器可能宣称"专为学术界/学校/课堂/教育工作者打造",但这实际上可能意味着其训练数据集仅包含学术写作。
另一方面,我们开发Pangram的初衷正是为了验证"痛苦教训"的价值:相较于仅基于特定领域数据训练的专用模型,那些通过海量多元数据训练的通用学习算法更能发挥效用。
这意味着我们用各种类型的文本训练AI检测器:创意写作、技术文档、科学论文、百科条目、评论文章、网站内容、博客帖子……不胜枚举。其原理如同全面的人文教育——接触多元学科与写作风格,能帮助模型在遇到新案例时更好地理解和泛化。 遵循人工智能训练的普遍趋势,ChatGPT等大型语言模型并非针对特定应用场景的数据进行训练,而是基于通用的大规模文本数据进行训练,从而获得通用智能。我们同样采用这一策略训练AI检测器,使其能够有效识别大型语言模型可能生成的各类通用文本。
我们已详细阐述过主动学习算法,该算法运用了名为"硬负样本挖掘"的技术,我们认为这正是我们能够将误报率降至近乎零的主要原因。
本质上,这种方法之所以有效,是因为现实中的多数案例都是"简单案例"——一旦模型掌握了人类文本与AI文本的基本模式,就能轻松识别数据集中绝大多数内容的来源。然而这只能达到约99%的准确率。 要争取最后几个百分点的准确率,必须寻找最难训练的案例:这类案例可理解为人类刻意模仿AI语言模型的写作风格,却纯属偶然的巧合。 为发现这类"硬性负例",我们对训练大型语言模型所用的互联网级数据集进行大规模检索,再通过合成镜像技术生成语感相似的AI文本。更多细节请参阅我们的工作原理页面。
我们设计优化目标时,确保模型在训练过程中优先处理假阳性而非假阴性。当模型错误判定人类文档时,其承受的惩罚权重远高于错误判定AI文档的情况。这种机制迫使模型采取保守策略,仅在绝对确定的情况下才将文档判定为AI生成。
这涉及RAID中描述的阈值选择。我们基于对评估集中数百万文档的分析来选择阈值,以在假阳性率和假阴性率之间实现合理权衡。通过阈值选择,我们力求在保持假阴性率处于合理范围的同时,不牺牲假阳性率的准确性。
我们热衷于与研究人员合作以提升软件的整体准确性,并致力于推动人工智能检测领域的公开基准测试与透明化。如需洽谈合作事宜、建立协作关系,或进一步了解Pangram的准确性表现,请联系info@pangram.com。