宣布与Proofig建立全新合作伙伴关系!了解更多
第三方研究表明Pangram是性能最强大的AI检测器
来自休斯顿大学、加州大学伯克利分校、加州大学欧文分校及初创公司Esperanto AI的研究人员发现,在众多商业与开源方法中,Pangram是性能最稳健的人工智能文本检测器。在题为《Esperanto:通过评估合成短语增强人工智能文本来源检测的稳健性》的论文中,研究人员探讨了语言翻译对人工智能检测器效能的影响。
众所周知,通过将AI生成的文本先用谷歌翻译转换为外语,再将其回译为英语,可以帮助攻击者(或单纯是聪明的、时间紧迫的学生)规避AI检测程序。在Pangram,我们内部将这种攻击称为"双重翻译",研究人员则称之为"回译"。 以下是双重翻译的示例:我们让ChatGPT生成文本,先将其翻译为日语,再译回英语。由于翻译软件并非完美且存在多种表达同义词的方式,部分短语会发生变化——这种效果类似于Quillbot等改写工具的作用。
ChatGPT生成的文本
双重翻译文本
双重翻译的例子
许多竞争对手的系统对此漏洞缺乏抗性。上图展示了市场上较为常见的竞争对手AI检测器之一。我们发现该模型能直接识别ChatGPT生成的AI文本,但经过双重翻译后,其AI检测准确率仅为15%。
GPTZero结果
一款流行的竞品工具能正确识别原始AI文本,却将经过两次翻译的文本错误地归类为人类撰写。
然而,Pangram能够将原始ChatGPT文本和双重翻译文本均预测为99.99%的AI文本。我们不仅能预测这是AI生成的文本,更能确信其原始来源正是GPT-4。研究人员着手从宏观层面、大规模地研究这一现象。
全字母句结果
Pangram正确识别出原始文本和双重翻译文本均为AI生成
仅凭一个例子不足以证明我们的检测器具有鲁棒性而其他检测器不具备。在该研究中,研究人员收集了数千篇经确认由人类撰写的新闻文章、科学论文摘要、Reddit帖子和产品评论。随后他们利用GPT-3.5-Turbo、LLaMA 3、Mistral、Phi3和Yi等模型生成了多个AI文本样本。
总体而言,即便在采用翻译攻击之前,许多开源方法和商业检测器实际上也完全无效。
首先,我们设定了一个阈值:这意味着选择一个百分比临界点,超过该值的文档将被判定为AI生成。大多数AI检测器最终输出的是一个百分比值。为使所有检测器处于可比条件下,阈值被设定为使每个模型的假阳性率均为1%。随后,检测器的准确性可通过真阳性比例进行比较:在该阈值下,每个检测器能识别出多少AI生成的样本?
本文研究的其他许多方法完全无法检测人工智能内容。例如,在某些领域,ZeroGPT和GPTZero在任何阈值下都无法达到1%的假阳性率;而像RADAR和LLMDet这样被广泛引用的学术论文,其准确率甚至不足50%。
评估性能的建议指标是测量1%假阳性率下的真阳性率(TPR):即在假阳性率恒定为1%的条件下,模型能多大程度上检测出AI生成的文本?ZeroGPT在大多数领域甚至无法在任何阈值下达到1%的假阳性率,而像RADAR和LLMDet这样广受引用的学术论文在此指标上也仅能达到50%以下的水平。
与此同时,Pangram在所有领域均实现了96%以上的召回率(假阳性率为1%),甚至在具有挑战性的评论数据集上也达到了85%的召回率——该数据集包含仅有40-50个单词的评论(远低于我们针对商业环境中AI检测推荐的单词数量阈值)。
经过双重翻译攻击后,许多检测器完全失效。例如,GPTZero在新闻领域的准确率从97%骤降至42%,在评论领域的准确率则从65%跌至9%。研究人员得出结论:"GPTZero和ZeroGPT的检测结果表明其缺乏抵御反向翻译技术的稳健性……而Pangram展现出一定程度的稳健性,尤其在处理长文本时表现更为突出。"
完整结果如下所示。Pangram在所有类别中均表现优异。
AI检测器对比结果表
来自世界语论文的结果表,展示了Pangram的稳健性
这项研究进一步佐证了我们的主张:Pangram是当前市场上唯一能可靠运行于学术及商业环境的人工智能检测软件,且无法被双重翻译等技巧所规避。
这绝非偶然或巧合。Pangram的稳健性证明了其强大的模型具备泛化能力,该模型依托海量数据集和我们精准的主动学习方法构建而成。虽然任何人都能开发出部分甚至多数情况下有效的AI检测工具,但唯有我们这种可扩展的方法才能实现可靠且稳定的准确性——即使文本被修改或篡改,该方法也不会完全失效。
我们始终致力于提升人工智能检测模型的性能与稳健性。我们紧跟对抗性机器学习领域的最新研究进展,并持续对自有模型进行测试,以防范潜在攻击与规避手段。
更多相关内容即将推出!