宣布与Proofig建立全新合作伙伴关系!了解更多
我们欣喜地看到马里兰大学与微软合作研究人员珍娜·罗素、玛泽娜·卡平斯卡和莫希特·伊耶尔的最新研究成果,该研究表明Pangram是目前最优的AI检测系统,也是唯一能在检测AI生成内容方面超越训练有素的人类专家的系统。点击此处阅读完整论文。

除了研究自动化AI检测器的有效性外,研究人员还深入探讨了训练有素的人类专家如何捕捉信号,从而识别AI生成内容的特征标志。我们认为这项研究为AI检测的可解释性与可理解性迈出了重要一步,并期待进一步探索这一研究方向。
在本篇博客中,我们将阐述该研究的亮点及其对未来大语言模型检测技术发展的意义。
我们曾撰文探讨过如何识别AI写作及人类基准测试,以及如何利用这些方法获取关于AI生成文本的宝贵直觉,从而帮助我们开发更优质的模型。
通常,当我们开始尝试训练自己识别AI生成的评论、文章、博客或新闻时,起初并不擅长。需要一段时间才能逐渐捕捉到文本由ChatGPT或其他语言模型生成的特征迹象。 例如在研究评论时,我们通过大量数据逐渐发现ChatGPT偏爱以"我最近有幸"开篇;阅读AI科幻故事时,又常见到"在某年某月"这类固定句式。但随着时间推移,这些模式会逐渐内化为我们的认知基准,从而实现精准识别。
研究人员还想知道,专家是否也能通过训练来识别AI生成的文章。他们在Upwork平台上培训了五名标注员来识别AI生成内容,并将他们通过肉眼识别AI的能力与非专家进行了对比。
虽然我们预期这两类人群在识别AI撰写文本的能力上存在差异,但研究人员发现的差距远超预期。非专家在识别AI生成文本时的表现与随机猜测无异,而专家的识别准确率极高(平均真阳性率超过90%)。

我们发现最有趣的部分是"专业标注者能看到什么,而非专业人士看不到什么?"这一章节。研究人员要求参与者解释他们认为某段文字是否由人工智能生成的理由,随后对参与者的评论进行了分析。
以下是直接摘自论文的分析:
非专家常会错误地将注意力集中在某些语言特征上,而专家则不然。例如在词汇选择方面,非专家往往将任何"花哨"或低频词汇的出现视为AI文本的标志;相反,专家对AI过度使用的特定词汇和短语(如"遗嘱"、"关键"等)更为熟悉。 非专家还认为人类作者更可能构建语法正确的句子,因此将长句归因于AI,但事实恰恰相反:人类比AI更容易使用语法错误或冗长句式。 最后,非专家倾向将任何中性语体的文本归因于AI,这导致大量误判——因为正式的人类写作也常采用中性语体。"(Russell, Karpinska, & Iyyer, 2025)
在附录中,作者列出了ChatGPT常用的"AI词汇表"——这项功能我们近期已在Pangram仪表盘中推出,专门标注常用AI短语!

根据我们的经验,尽管许多人认为人工智能会使用复杂而"花哨"的词汇,但实践中我们发现,人工智能反而更倾向于使用陈词滥调的比喻性词汇,这些词汇往往毫无意义。非正式地说,大型语言模型更像是那些试图显得聪明的人——他们只是在使用自以为能显得聪明的词句。
在Pangram,我们经常被问到这样一个问题:如何跟上最先进的模型发展?当语言模型不断进步时,是否意味着Pangram将失去作用?这是否会演变成一场猫鼠游戏,最终被OpenAI这类前沿实验室击败?
研究人员也对此产生了疑问,并研究了多种人工智能检测方法在对抗OpenAI迄今发布的最先进模型o1-pro时的表现。
研究人员发现,Pangram在检测o1-pro输出时准确率达100%,而检测"人化"o1-pro输出时仍保持96.7%的准确率(稍后将详细说明)!相比之下,其他自动检测工具在基础o1-pro输出检测中甚至未能突破76.7%的准确率。
Pangram是如何实现这种概括能力的?毕竟在研究当时,我们的训练集中甚至没有包含任何o1-pro数据。
与所有深度学习模型一样,我们坚信规模与计算能力的力量。首先,我们以强大的基础模型为起点,该模型如同大型语言模型本身,是在海量训练语料库上预训练而成的。其次,我们构建了专为大规模处理而设计的数据管道。Pangram能够从其包含一亿份人类文档的训练语料库中进行细微模式识别。
我们不仅构建论文、新闻或评论类数据集,更致力于收集现存人类文本数据的最广泛样本,使模型能够从最高质量、最多样化的数据分布中学习各类人类写作特征。实践证明,这种通用型AI检测方法远优于为每个文本领域单独构建模型的专精策略。
与我们庞大且高质量的人类数据集相辅相成的是,我们构建了基于合成数据管道和主动学习的搜索算法。为获取算法所需的AI数据,我们运用了详尽的提示词库及所有主流开源与闭源AI模型来生成合成数据。 我们采用合成镜像提示(相关原理详见技术报告)与硬负例挖掘技术:通过筛选数据池中错误率最高的样本,生成与人类数据高度相似的AI示例,并持续重训模型直至消除所有错误。此方法能高效将模型的假阳性率与假阴性率降至零。
简而言之,我们的泛化能力源于预训练数据的规模、用于合成数据生成所采用的提示词与大型语言模型的多样性,以及主动学习和硬负样本挖掘方法带来的数据效率。
此外,我们不仅致力于实现卓越的分布外性能,更力求让尽可能多的通用大型语言模型保持分布内特性。为此,我们构建了强大的自动化数据提取管道,能够从最新模型中实时获取数据,确保新模型一经发布即可立即投入训练,始终保持模型更新。 我们发现不同模型间的性能平衡并非取舍关系:每次将新LLM纳入训练集时,模型的泛化能力都会得到提升。
在当前系统中,我们并未发现模型性能提升会导致其更难被识别。实际上,新一代模型往往更容易被识别。例如,我们发现当Claude 3发布时,其识别准确率反而高于Claude 2。
在我们最近的博客系列中,我们阐述了人工智能人性化工具的定义,并发布了一款在人性化AI文本生成方面性能显著提升的模型。令人欣喜的是,第三方机构已通过o1-pro人性化文章数据集验证了我们的主张。
在人化o1-pro文本上,我们实现了96.7%的准确率,而次优的自动化模型仅能检测出46.7%的人化文本。
我们对逐句改写的GPT-4o文本也实现了100%准确率。
我们欣喜地看到Pangram在独立的人工智能检测能力研究中表现优异。我们始终乐于支持学术研究,并为任何希望研究我们检测器的学者提供开放访问权限。
除了对自动检测器的性能进行基准测试外,我们还欣喜地看到研究开始着手解决人工智能检测的可解释性问题:不仅要判断文本是否由人工智能生成,更要探究其背后的原因。我们期待进一步探讨这些成果如何帮助教师和教育工作者通过肉眼识别人工智能生成的文本,以及我们计划如何将这项研究融入更具可解释性的自动化检测工具中。
如需了解更多信息,请访问我们的网站pangram.com或通过info@pangram.com 与我们联系。