宣布与Proofig建立全新合作伙伴关系!了解更多

Pangram AI检测在ESL上的准确度如何?

布拉德利·艾米
2025年4月23日

针对AI检测器的常见批评是它们对非母语英语使用者存在偏见。非母语英语使用者撰写的文本被称为ESL(英语作为第二语言),或更准确地说,ELL(英语语言学习者)。在之前的文章中,我们已阐明基于困惑度和突发性等指标的其他AI检测器为何容易出现这种缺陷

非英语母语者缺乏深厚的词汇量和复杂英语句式结构的掌控能力,因此无法写出高突发性的文本。正因如此,以往的人工智能检测尝试均未能达到预期效果:常将ESL写作误判为AI生成文本,从而在ESL检测中呈现出高误报率

关于人工智能检测与ESL的先前研究

斯坦福大学一项引人注目的研究于2023年7月由梁伟新、周杰等学者发表,该研究指出GPT检测器对非英语母语写作者存在偏见。 尽管该研究样本量较小(仅采用91篇托福考试作文),且存在方法论缺陷(测试时将GPT-4修改的人类文本标记为"人类"),但总体而言, 结果显示:七款测试AI检测器(本研究未测试Pangram)均对ESL写作存在严重偏见——超过60%的人类ESL写作样本被误判为AI生成。

2024年8月,负责管理研究生入学考试GRE的考试服务中心ETS开展了一项更近期的研究。这项大规模研究分析了约2000份非英语母语者在GRE考试中的写作样本,测试了他们自行训练的简单机器学习检测器——这些检测器基于人工设计的特征(包括困惑度)进行训练。 尽管实验设置高度简化且人为设计,且该研究与现实存在显著差异,但他们并未发现自身检测器对非母语英语存在偏见。此外,他们并未研究实际应用中的商业检测器。然而该研究揭示了一个有趣现象:当训练集中非母语英语数据得到充分体现时,由此产生的偏见便能得到有效缓解。

Pangram在ESL上的表现

为评估Pangram在ESL数据集上的误报率,我们将其AI检测器应用于四个公开的ESL数据集(这些数据集在训练阶段被完全隔离,确保训练与测试数据之间不存在泄露)。

我们研究的数据集包括:

结果如下。

数据集假阳性率样本量
椭圆0.00%3,907
ICNALE0.018%5,600
PELIC0.045%15,423
梁托福0%91
总体而言0.032%25,021

Pangram的总体误报率为0.032%,这与我们0.01%的一般误报率相比并未显著偏高。

全字母句 vs. TurnItIn

我们直接将Pangram与TurnItIn进行对比,采用的正是TurnItIn在其AI写作检测器公开评估中使用的相同数据集。

我们使用与TurnItIn相同的数据集评估"L1"(非英语母语者)和"L2"(英语作为第二语言者)的英语水平。由于TurnItIn不评估超过300单词的文档,我们在评估前对数据集应用了相同的过滤规则。

数据集全字母表FPRTurnItIn 格式规范
L2英语 300+单词0.02%1.4%
L1 英语 300+ 词0.00%1.3%

我们发现,在处理非母语英语文本时,Pangram的准确度比TurnItIn高出两个数量级;且根据本研究,Pangram在检测母语英语文本时未出现任何误报。

全字母句 vs. GPTZero

GPTZero在梁氏托福研究的原始数据集上自报假阳性率为1.1%,但该数据集中仍有6.6%的内容被误判为"可能的AI内容"。

相比之下,Pangram在梁氏托福数据集上未报告任何误报,且我们对每个示例都高度确信。

Pangram如何降低英语作为第二语言写作中的误报率?

在Pangram,我们对非母语英语的处理极为重视,因此我们采用了多种策略来降低AI写作检测模型的误报率。

数据

机器学习模型在训练分布之外的表现不佳,因此我们特别注意确保数据集中包含非英语母语文本。

然而,我们并未止步于此。当其他AI写作检测器仅专注于学生写作和学术论文时,我们通过广泛的文本类型对模型进行训练。 仅基于论文训练的AI写作检测器常存在训练数据中缺乏非正式英语的缺陷。相比之下,我们采用社交媒体、评论及网络文本等非正式语料,这些文本更贴近非母语者或英语学习者的真实表达,能更准确地反映非标准英语的特征。

我们还特别注意纳入可能包含非母语英语写作的资源,即使这些资源并非专门的ESL数据集。例如,使用外国域名的网站上的英文文本就是非母语英语写作的重要来源。

多语言能力

与其他AI检测器不同,我们不仅限于英语领域。事实上,我们对模型的语言完全不设限制:我们将利用互联网上存在的任何语言来训练模型,使其在所有常用语言中都能表现出色。

我们此前曾撰文介绍过卓越的多语言处理能力,并坚信那些使Pangram在其他语言中表现优异的技术,同样能很好地推广应用于英语作为第二语言(ESL)领域。

虽然我们无法确切知道哪些机制促成了良好的泛化与迁移能力,但我们推测ESL几乎可被视为英语的邻近语言。通过优化模型使其在所有语言上表现优异,该模型便不会过度拟合任何特定语言的表达风格、语法结构或词汇选择——这些特征往往与特定语言中表达思想的常见方式紧密相关。 通过分析所有语言的人类文本,我们让模型学习到全人类的写作方式,而非仅限于英语母语者。这使得模型更不易错误聚焦于母语者惯用的习语模式。

主动学习

我们的主动学习方法使Pangram的识别精度远超竞争对手,且将人类文本误判为AI文本的情况显著减少。

通过在训练与硬负样本挖掘之间反复交替,我们能找到最接近AI生成文本的人类示例用于训练。这种方法不仅能筛选出与AI文本最相似的真实人类文本——这有助于模型理解非母语者文本与AI文本间的细微差异——还能帮助我们发现与非母语者文本相似的优质迁移样本,从而整体提升模型的模式学习能力。

提示策略

在为模型创建AI训练示例时,我们力求使用尽可能多样的提示语,以便模型能够泛化到不同的写作风格。例如,我们常在提示语末尾添加修饰语,如"用高中生的风格写这篇作文"或"用非英语母语者的风格写这篇文章"。

通过生成如此多样的写作风格,该模型不仅学会了人工智能语言模型的默认写作方式:它还掌握了人工智能文本背后的基本模式。

从统计学角度出发,我们设计合成镜像管道时确保模型最终能对无关特征(如主题、写作水平或语气)保持不变。通过采用与人类文本特征相匹配的提示方式,我们通过使每种特征的人类文本与AI文本样本数量相等,从而构建了这种不变性。

严格评估与质量保证

最后,在批准每个新模型更新之前,我们都会采用极其全面且严格的评估和质量保证流程

在评估过程中,我们同时关注质量与数量。例如,梁氏托福数据集仅包含91个样本,若仅使用该数据集,我们对ESL任务的假阳性率只能获得非常粗略的估计。 若仅因单个样本判定错误,系统将报告1.1%的误报率,这将导致我们无法区分真实误报率低于1%的模型差异。

由于我们力求将误报率控制在远低于1%的水平(目标误报率介于万分之一至十万分之一之间),因此需要测量数百万个样本才能验证达到该级别的准确性。

大规模评估还能帮助我们更好地理解模型展现的故障模式,并通过获取更优质的数据、针对故障案例设计更优的算法策略,逐步修正这些问题。

在ESL平台上,人工智能检测器值得信赖吗?

通过我们的测量、详细评估结果及可解释的缓解策略,我们认为Pangram在非英语母语者群体中表现出足够的准确性,足以在教育环境中部署应用。

然而,仅拥有足够公正的人工智能检测工具并不足以杜绝学术诚信流程中的所有偏见形式。教育工作者应意识到,偏见可能以无意识的方式显现。例如,若教育者因潜意识中怀疑英语非母语者(ESL学生)不够诚实,而更倾向于对其提交的作业使用人工智能检测工具,这本身就是一种偏见。

此外,教师需意识到,相较于英语母语者,非英语母语者在学术领域存在固有劣势。英语作为第二语言的学生更倾向于借助ChatGPT等外部工具提升写作能力,但过度使用此类工具会触发人工智能检测软件的警报。因此我们推荐采用珀金斯人工智能评估量表,以便与学生明确沟通哪些人工智能辅助工具被允许使用,哪些则不可使用。

最后,我们知道学生会在压力下作弊,尤其当他们感到自我效能不足(特别是与同龄人比较时),以及当他们认为使用作弊工具是取得成功的唯一途径时。我们鼓励教育工作者主动解决这些问题:为学生提供支持,明确告知可获得的合法帮助渠道,并重新审视评估策略——不应要求那些在课堂上本就处于劣势的学生具备完美的英语能力。

全字母句应作为维护学术诚信的工具,使教育工作者能够理解支持学生学习的最佳方式。

如需进一步了解我们的研究以及我们在人工智能检测软件中消除偏见的方法,请通过info@pangram.com 与我们联系。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。