宣布与Proofig建立全新合作伙伴关系!了解更多
Pangram Labs人工智能生成文本分类器的训练流程
在Pangram Labs,我们致力于打造最顶尖的人工智能文本检测模型,以保护互联网免受虚假、欺骗性及低质量内容的泛滥侵蚀。我们坚信,在大型语言模型赋能的世界里,人类需要配备最强大的工具包来辨别真相,而我们正致力于提供满足这一需求的先进技术。
Pangram Labs 开发了一款强大的分类器,用于检测可能被用于垃圾信息或欺诈内容的人工智能生成文本。我们的模型相较于现有方案究竟提升了多少?在本篇博客中,我们将通过全面的性能分析展示模型优势,并首次发布公开技术白皮书。
这篇博客文章将涵盖以下几个主题:
如需了解更深入的技术细节(包括方法论),请参阅我们的《全字母文本分类器技术报告》。
我们使用近2000份文档进行了竞争性基准测试,以确定关键准确性指标,包括整体准确率、误报实例和漏报实例。
Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.
整体准确性比较
大型语言模型(LLMs)如ChatGPT在2023年迎来爆发式增长,人工智能能力由此达到转折点。这些驱动人工智能助手的模型能够回答问题、进行头脑风暴、撰写内容,同时还能以极具说服力的人类语气表达。这带来了诸多积极影响——信息获取前所未有的便捷,助手能帮我们节省处理琐碎事务的时间。 然而,任何人都能几乎不费吹灰之力生成逼真的人类文本——这本身也带来诸多弊端。垃圾邮件发送者能编写更难被过滤的邮件;电商卖家能在数分钟内制造数千条看似真实的评论;不法分子可借助数千个基于LLM的机器人在社交媒体上操纵公众舆论。
遗憾的是,这些社会风险无法在LLM层面得到缓解——语言模型无法判断请求是否合法,也无法区分其是否属于垃圾邮件发送者制造的成千上万条请求之一。正因如此,我们需要在应用层部署内容过滤器,以确保人类空间保持人性化。
我们听过太多对这行工作的质疑。有人说这个问题根本解决不了,有人说AI检测器已被证明"根本不起作用",还有人说只需调整提示词就能绕过检测。甚至有人断言:即便现在可行,明年也会更难,等到通用人工智能问世时就彻底没戏了。
我们的观点略有不同。我们坚信,解决这个问题不仅是可能的,更是必要的。无论难度多大,无论需要投入多少时间来打造用户能够使用且信任的产品,我们都义不容辞。若无我们的努力,互联网将在数年内被AI垃圾信息淹没,人类的声音终将被噪音淹没。
对我们而言,确保问题得到解决意味着持续提升评估集的难度。早期评估很容易达到100%的准确率,但很快发现这无法反映真实世界的准确性。通过构建更严苛的评估体系,我们得以客观衡量技术进步。 我们认为当前基准测试难度已略高于现实世界中的垃圾信息生成水平,且该基准已接近极限。当我们公布新数据时,其他方法的表现看似可能更差,但实际情况是:我们将采用更严苛的评估集,让最强大的AI在极限状态下生成看似真实的文本,而我们的目标仍是保持99%的识别准确率。
这个问题永远无法彻底解决,但随着大型语言模型能力日益增强,我们必须稳步前进,避免被甩在后面。这是我们当初选择的道路,也将是我们坚持到底的目标。
在我们的技术报告中,我们对比了Pangram Labs与两款主流AI检测工具,以及2023年最先进的学术AI检测方法。
我们比较:
我们的基准测试包含1,976份文档——其中一半由人类撰写,另一半则由八种最流行的大型语言模型生成,包括ChatGPT和GPT-4。
整体准确性比较
关于这些数字含义的简要说明:
为具体说明假阳性率——9%意味着每11份人工文档中就有1份会被标记为AI生成。2%的假阳性率意味着每50份人工文档中就有1份会被标记为AI生成。而0.67%则意味着每150份人工文档中才有1份会被标记为AI生成。
同样地,10%的漏检率意味着每十份AI文件中就有一份未被检测出来,而1.4%的漏检率则意味着每七十份AI文件中仅有一份未被检测出来。
请考虑这些结果的含义。误报率达9%的检测模型不可信——否则虚假指控将层出不穷。而误报率达10%的检测模型将放行大量AI垃圾信息,导致用户在任何攻击下仍会遭受信息洪流的侵袭。
我们的基准测试分为两个不同维度:文本领域和原始大型语言模型。所谓"文本领域"或简称为"领域",是指特定类别的写作范畴。例如,中学作文与科学论文的风格迥异,而科学论文又与电子邮件截然不同。通过将结果划分为不同领域,我们能够更全面地了解自身优势所在,并明确需要重点改进的方向。
文本域的准确性
结果表明,在所有十个评估领域中,Pangram Labs 的表现均优于 GPTZero 和 Originality。
其中电子邮件领域取得的成果尤为突出,因为Pangram Labs的训练数据中并未包含任何电子邮件内容。我们在电子邮件领域的表现完全得益于训练出一个强大的模型,该模型能够泛化到大型语言模型(LLM)所能生成的大多数文本类别。
AI文档正确分类,按来源LLM
按模型来源划分的大型语言模型揭示了另一种情况:竞争性AI检测模型在能力较弱的开源模型上表现更佳,但在ChatGPT(gpt-3.5-turbo)上表现不佳,面对OpenAI最强大的大型语言模型GPT-4时则举步维艰。我们评估了GPT 3.5 Turbo和GPT-4模型的多个版本,因其在实际应用中最为常见。
我们发现,我们是唯一能够可靠检测GPT-4文本的模型,并且在测试的其他所有模型上都表现优于竞争对手。
一个有趣的发现是,我们的竞争对手在开源模型上的表现远优于闭源的GPT和Gemini模型。 我们推测这源于过度依赖困惑度和突发性特征——尽管这些特征具有价值,但困惑度和突发性仅能在开源模型上精确计算:在闭源模型中只能进行近似估算。这彰显了我们基于深度学习方法的优势——它不依赖困惑度这类脆弱特征,能学习更微妙的潜在模式。
我们常被问到一个问题:当新语言模型发布时会发生什么?是否需要针对每个新模型进行训练才能检测其输出?简而言之,不需要。OpenAI在过去几周内发布了两个新版大型语言模型。我们未对这些新模型进行任何训练,但评估后发现我们的模型表现依然相当出色!
这些新版本与OpenAI此前发布的版本类似。因此我们接着要问的是——在完全不同的模型家族上,我们的表现如何?为解答这个问题,我们用分类器从未接触过的众多开源模型对我们的模型进行了评估。
由开源大型语言模型(LLM)生成的文本,在训练过程中未被Pangram Labs所见。
相当不错!这很大程度上得益于许多开源模型要么基于羊驼家族模型,要么使用相似的开源训练集——这让我们有信心实现泛化能力,而无需对每个开源模型都进行单独训练。
话虽如此,我们的数据管道设计得足以在大型语言模型API发布后数小时内生成新的训练集——唯一限制因素是API的调用速率限制。我们深知大型语言模型仍在持续进步,随着我们向通用人工智能迈进,保持数据更新并确保能捕捉到最先进的人工智能代理将变得日益重要。
先前研究发现,商业大型语言模型检测器普遍存在针对非母语者(ESL,即英语作为第二语言学习者)的偏见。为验证这一结论,研究人员采用托福考试(Test of English as a Foreign Language)的91篇作文作为基准数据,对多种检测器进行了测试。
我们将训练集中的91篇托福作文保留出来,用于评估Pangram Labs在基准测试中的表现。由于我们在降低ESL假阳性率方面的工作,托福基准测试中报告的假阳性率为0%——这意味着该基准测试中所有人类撰写的作文均未被错误归类为AI生成。
托福基准比较
检测人工智能生成的内容并非易事。我们采用基于Transformer架构的深度学习模型进行训练,通过两种关键方法将模型的准确率提升至全新高度。
我们训练集中的每份文档都标记为"人类"或"AI"。在机器学习中,我们称这些文档为"样本"。
我们拥有数百万来自公共数据集的人类示例用于训练,但没有同等规模的人工智能数据集。 我们通过为每个真实案例配对"合成镜像"来解决这一问题——该术语指基于人类文档生成的AI文档。我们通过向大型语言模型(LLM)请求相同主题、相同长度的文档来实现。在部分案例中,我们让LLM以人类文档的首句为起点进行生成,从而使AI文档呈现更多样化的特征。
早期训练模型时,我们遇到了瓶颈。尝试增加训练样本后,最终发现模型已达到"饱和"状态——更多训练样本无法进一步提升模型性能。
标度律实验
该初始模型的表现令人不满意——在许多领域中,其误报率仍超过1%。我们发现问题不仅在于需要更多样本,更需要更具挑战性的样本。
我们通过以下方式识别更具挑战性的示例:以初始模型为基础,在公开数据集中扫描数千万个人类示例,寻找模型误判的最具挑战性文档。随后为这些文档生成合成镜像,将其加入训练集。最后重新训练模型并重复该流程。
Pangram Labs人工智能生成文本分类器的训练流程
通过这种训练方法,我们成功将误报率降低了100倍,并交付了一个令我们引以为豪的模型。
各领域假阳性率表
我们将这种方法称为基于合成镜面的硬负样本挖掘,并在技术报告中对其流程进行了更详细的阐述。
显然,我们的旅程远未结束。我们已蓄势待发,准备通过一系列创新方案将性能推向新高度。我们将持续优化评估集,力求将误报率精确追踪至百分之一以下。同时计划扩展模型以支持非英语语言,并着力解析和捕捉模型失效场景。敬请期待我们的后续行动!
有任何疑问或建议?请通过info@pangram.com 联系我们!