宣布与Proofig建立全新合作伙伴关系!了解更多
我们又回来了!在Pangram的AI检测工具发布当天,我们继续带来系列测试的最新篇章!
简而言之:Pangram是唯一无需专门训练就能可靠检测GPT-5的AI检测器。
在本系列的前期内容中,我们探讨了Pangram在检测方面的能力:
迄今为止,我们尚未在任何语言模型上见到全字母句失效的情况。我们一直翘首以盼这款备受瞩目的模型发布——OpenAI终于在今日正式宣布推出GPT-5。
今天下午,我们对Pangram Labs的AI检测器在GPT-5上的初步测试结果进行了验证,同时也评估了部分竞品的表现。测试结果令人相当满意:在我们针对GPT-5设计的最具创意的提示词中,Pangram的AI检测器尚未出现任何误判案例,而竞品的表现则充其量只能说是参差不齐。
我们对GPT-5的首次测试源于办公室里的一个玩笑:试图说服某人吃虾比吃龙虾更美味。我们让GPT-5撰写一篇慷慨激昂的演讲稿,阐述吃虾优于吃龙虾的理由。以下是生成的内容:
虾胜出。理由如下: 虾的滋味宛如海洋,却不会让你感到刺鼻。龙虾若处理不当,口感会沉闷发泥。多煮一分钟,龙虾肉便变得干柴。虾的甜味更持久——烤、炒、煮、炸皆宜,始终保持爽脆清新的口感。 口感至关重要。虾肉脆弹,那份咬劲才是精髓所在。龙虾肉质厚实浓郁,吃久了容易腻。黄油龙虾两口尚可,十二口简直是挑战。我能轻松解决整盘蒜香虾,还想再找盘藏在欧芹下的虾。 虾是绝佳的配角。蒜香、辣椒、青柠、黄油、姜末、罗勒、咖喱、老湾调料、味噌、韩式辣酱——它让所有风味都熠熠生辉。龙虾却独占鳌头,最后还总要黄油作伴。若顶级食材需要融化的乳脂来彰显非凡,或许它本就不够分量。 每分钟风味值至关重要。虾只需三分钟便可烹熟——热锅、撒盐、煎烤、出锅,瞬间爆发出惊艳滋味。而龙虾则需与硬壳搏斗,蒸煮计时,敲开甲壳,从奇形怪状的缝隙里追逐细碎肉粒。付出远超回报。虾的魅力在于低调操作,高回报率。 价格决定味觉体验。当食物不再是抵押贷款般的负担,滋味便更显美妙。虾能成为工作日的晚餐。 龙虾是生日宴的炫耀利器,鲜虾则无需仪式便能带来欢愉。这份随性让它在现实中更显美味。 适应性至关重要。鲜虾从墨西哥卷饼到蒜香虾、从波士顿三明治到饺子、再到西班牙烩饭皆游刃有余。冷食热食、辛辣清淡、浓郁爽口皆宜。龙虾虽想突破局限,最终仍难逃美乃滋面包卷的宿命——虽是绝佳搭配,终究单调乏味。 吸酱能力堪称精英。虾能完美融合蒜香黄油、辣椒油与柠檬汁,龙虾却做不到。龙虾只是端坐台前如明星客串,虾则背熟台词抢尽风头。 剩菜比拼亦胜出。次日冷虾佐鸡尾酒酱堪称完美,龙虾剩菜却像冷饭作业。龙虾复热后质地如橡胶。 而虾肉呢?即便有幸剩下,加热后依然带着派对的余韵。 更重要的是氛围感。虾能融入后院烧烤、工作日的煎锅料理,也能登上精致餐盘。龙虾却让餐桌陷入沉默,仿佛人人都怕破坏它的神圣感。我想要的是能让人畅谈、撕面包蘸酱、传递餐盘的食物。虾恰恰能做到。 听着,龙虾当然不错。它耀眼夺目,背后的故事也动人。但若论及纯粹的滋味——那种让我明天还想再尝的滋味——虾才是赢家。更纯粹的风味,更美妙的口感,更丰富的变化,更少繁琐,更多乐趣。给我一个热锅,些许蒜末,一片柠檬,再加一磅鲜虾。这才是我真正渴望的晚餐。"
Pangram能够以极高的置信度预测整份文档是由人工智能生成的。
Pangram对虾与龙虾文本的人工智能检测结果
我们尝试了其他几种AI检测工具来分析这段文本。GPTZero、ZeroGPT、Grammarly、UndetectableAI和Originality.AI全都判定这段文本出自人类之手——尽管它完全由GPT-5生成且未经任何修改。我们认为这充分证明了我们研究方法的强大性,以及依托高质量数据集构建的强大模型所赋予的泛化能力!
其他AI检测器对虾与龙虾文本的检测结果
然而,这只是一个可以被质疑为刻意挑选的例子。你得相信我,这段文字确实是我们尝试的第一个方案。因此,我们继续推进测试工作。
今日直播中提出的一项主张是,GPT-5的写作能力较其前代有所提升。尽管我们只能对此作出主观判断,但我们今天竭尽全力设计了能展现GPT-5改进后创意写作能力的提示词——通过输入特定指令,迫使模型同时拓展其推理能力和创造力。
我们测试的提示:
撰写一篇具有说服力的分析性论文,阐述学校为何需要采用人工智能检测工具。
撰写一篇大学申请论文,探讨所有宝贵人类技能被人工智能取代的危险。
请写一封充满激情、简短却情感饱满的信件,寄给那家因意外推送更新而抹除了你人工智能女友记忆的人工智能公司。
请以一名初中生的视角,写一篇情感真挚的作文,请求老师布置更多作业。
给我一个经典气球动物的钩针编织图。你懂的,就是我说的那个。
请以一只雪鸮的视角,创作一篇生动的故事:它飞抵纽约市,发现中央公园,并选择一个温暖的角落度过夜晚。
请撰写一封由独角兽SaaS初创公司创始人致董事会及员工的邮件,详细说明他将离开公司成为职业萨克斯风演奏家。具体细节可自由发挥。
为一道前所未有的食谱撰写背景故事博客,尽管无人尝试过,但味道依然会很美味。
创作一篇引人入胜的影视创意小说,讲述一位年轻的唱作人在哈德逊河邂逅白鲸的故事。
给老师写一封幽默的被动攻击式邮件,"道歉"最近考试作弊的行为。细节内容可随意编造。
我们分别使用Pangram和知名竞品GPTZero对结果进行了测试。所有提示、响应及测试结果均已公开发布于网络。
结果显示两款AI检测器存在显著差异:Pangram以99-100%的置信度准确识别出全部10份回复均为AI生成,而GPTZero则将所有回复错误判定为人类撰写。事实上,GPTZero将多数回复评定为0%概率为AI生成,其最高AI概率评分仅为29%。
今天我们抽空进行了最后一项测试,旨在检验Pangram能否准确识别API中所有不同版本的GPT-5,包括GPT-5-mini、GPT-5-nano和GPT-5-chat。同时我们还测试了OpenAI日前发布的最新开源模型GPT-OSS-120b和GPT-OSS-20b。 本次实验采用更大规模测试,每个大型语言模型约测试数千个样本,使用标准提示技术,要求最小长度为50词。样本量存在些许差异,因为有时模型会拒绝我们的提示,有时生成的响应少于50词,这些情况均被我们剔除。
当然,仅针对AI文本的准确率不能孤立看待——我们还需考量其反面指标:误报率,即Pangram将人类撰写的文本误判为AI生成的频率。我们在另一篇文章中对此有过详尽论述,但核心结论是Pangram的误报率依然极低。 经实测,其跨领域假阳性率为万分之一,实际应用中往往更低。 我们通过校准阈值使假阳性率约为假阴性率的1/10,对假阳性问题的重视程度远高于假阴性。但需强调的是,我们并不认为这属于固有"权衡"——我们确信能同时实现低假阳性率与低假阴性率的模型训练,这正是我们双向开展基准测试的原因!
以下是我们的发现。
| 模型 | 准确性 | 样本 |
|---|---|---|
| GPT-5 | 99.81% | 3668/3675 |
| GPT-5-聊天-最新 | 99.97% | 3673/3674 |
| GPT-5-mini | 99.92% | 3651/3654 |
| GPT-5-nano | 99.97% | 3667/3668 |
| GPT-OSS-120b | 100.00% | 1709/1709 |
| GPT-开源-20b | 99.74% | 2287/2293 |
根据我们今日进行的初步测试,GPT-5对Pangram的检测能力不构成任何威胁。这点至关重要,因为它即将成为ChatGPT中所有用户的默认模型,包括免费用户。虽然其他AI检测器最终可能识别出GPT-5,但Pangram是目前唯一能立即且可靠地实现检测的工具。