宣布与Proofig建立全新合作伙伴关系!了解更多
当前的人工智能检测市场由多家大型企业主导。您可能听说过这些公司:Pangram、GPTZero、Turnitin、ZeroGPT等。
许多公司都会定期更新模型并公布其性能数据。近期,GPTZero推出了夏季模型更新,并发布了其在多种新型模型上的最新性能指标。本文将对比GPTZero新模型与Pangram人工智能检测工具(包括最新GPT-5模型)的检测效果。
| 模型 | 全字母句检测率 | GPTZero检测率 | 更优检测器 |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | 全字母句 |
| GPT-5-聊天-最新 | 99.97% | 未经测试 | 不适用 |
| GPT-5-mini | 99.92% | 92.2% | 全字母句 |
| GPT-5-nano | 99.97% | 96.1% | 全字母句 |
| GPT-OSS-120b | 100.00% | 未经测试 | 不适用 |
| GPT-开源-20b | 99.74% | 未经测试 | 不适用 |
| GPT4.1 | 99.48% | 96.8% | 全字母句 |
| GPT4.1-迷你版 | 99.94% | 98.7% | 全字母句 |
| o3 | 99.86% | 89.9% | 全字母句 |
| o3-迷你版 | 100.00% | 98.4% | 全字母句 |
| 双子座2.5专业版 | 99.91% | 95.7% | 全字母句 |
| 双子座2.5闪存 | 99.75% | 98.2% | 全字母句 |
| 克劳德十四行诗4 | 99.91% | 99.1% | 全字母句 |
注:GPTZero未向公众公开其内部评估数据集,因此这些数据并非来自完全相同的文档。此外,GPTZero亦未披露其测试文档的数量,故我们无法进行数量对比。但针对Pangram的性能数据,我们针对每个模型评估了数千份文档,并覆盖了广泛领域及多种提示方案,以模拟真实使用场景。
此外,Pangram的精准性不仅体现在标记最多AI文档上,其在保持低误报率方面同样处于市场领先地位。我们高度重视避免将人工撰写的文档误判为AI生成内容。下表展示了Pangram与GPTZero报告的误报率差异:
| 全字母句 | GPTZero | |
|---|---|---|
| 假阳性率(%) | 0.01% | 1% |
| 假阳性率(#) | ~每10,000份文件中约有1份 | ~每100份文件中就有1份 |
GPTZero误报率博客文章
在此我们看到GPTZero的性能表现,其误报率(FPR)为1%。
Pangram与GPTZero在同行评审的人工智能研究论文中也展开了正面交锋。马里兰大学近期发表的《频繁使用ChatGPT进行写作任务的人群能准确识别AI生成文本》研究对此进行了最佳诠释。该研究考察了专业人类标注者区分人类创作与AI生成文本的能力。
作为研究的一部分,人类标注者与市售及开源检测器进行了对比测试。Pangram的表现优于每位人类检测者,同时也优于所有商业替代方案,包括GPTZero。
| GPT-4o | 克劳德 | |
|---|---|---|
| 全字母句 | 100% | 100% |
| GPTZero | 100% | 97.6% |
| 注释者1 | 96.7% | 100% |
| 注释者 2 | 96.7% | 100% |
| 注释者3 | 86.7% | 80% |
| 注释者4 | 90.0% | 96.7% |
| 注释者5 | 93.3% | 93.3% |
Pangram旗舰模型与GPTZero的差异不仅限于此。两者均为"多语言"模型,意味着它们不仅能检测英语内容,还能识别其他语言的AI文本。Pangram支持互联网前20大语言的检测,而GPTZero仅支持英语、法语和西班牙语。以下是各模型测试所涵盖的语言:
| 语言 | 全字母句子的误报率(FPR) | GPTZero 误报率 (FPR) | 全字母AI检测率 | GPTZero AI检测率 |
|---|---|---|---|---|
| 西班牙语 | 0.00% | 5.6% | 100.0% | 96.4% |
| 法语 | 0.00% | 3.1% | 100.0% | 93.1% |
| 阿拉伯语 | 0.10% | 未经测试 | 100.0% | 未经测试 |
| 捷克 | 0.00% | 未经测试 | 99.89% | 未经测试 |
| 德语 | 0.00% | 未经测试 | 99.68% | 未经测试 |
| 希腊 | 0.00% | 未经测试 | 99.79% | 未经测试 |
| 波斯语 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 印地语 | 0.00% | 未经测试 | 99.58% | 未经测试 |
| 匈牙利语 | 0.10% | 未经测试 | 99.05% | 未经测试 |
| 意大利语 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 日语 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 荷兰 | 0.10% | 未经测试 | 100.0% | 未经测试 |
| 波兰语 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 葡萄牙语 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 罗马尼亚 | 0.10% | 未经测试 | 100.0% | 未经测试 |
| 俄罗斯 | 0.00% | 未经测试 | 100.0% | 未经测试 |
| 瑞典 | 0.00% | 未经测试 | 99.89% | 未经测试 |
| 土耳其 | 0.00% | 未经测试 | 99.79% | 未经测试 |
| 乌克兰 | 0.00% | 未经测试 | 99.89% | 未经测试 |
| 乌尔都语 | 0.00% | 未经测试 | 98.84% | 未经测试 |
| 越南语 | 0.00% | 未经测试 | 99.89% | 未经测试 |
| 中文 | 0.00% | 未经测试 | 99.89% | 未经测试 |
有关Pangram在多语言文本处理方面的更多信息,请参阅此博客文章。
此外,两种模型在训练过程中都特别关注非母语英语(ESL)文本的表现,因为人们普遍担心AI检测器可能对非英语母语者存在偏见。GPTZero和Pangram都专门针对ESL文本发布了检测结果。具体对比如下:
| 假阳性率 | 样本量 | |
|---|---|---|
| 全字母句 | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
要了解Pangram处理ESL文本的方法,请参阅这篇博客文章:https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
对于正在寻找AI检测方案的用户而言,另一个关切点在于其对未发布模型的检测性能。随着AI技术战的持续升级,大型AI实验室与新兴初创企业不断推出重要模型。关键在于,AI检测方案必须能够持续准确识别那些其未直接训练过的模型。
GPT-5的近期发布为我们提供了绝佳的验证机会!新模型发布后短短数小时内,Pangram团队便针对多种提示词类型测试了GPTZero与Pangram的性能表现。具体结果如下:
| 全字母句 | GPTZero | |
|---|---|---|
| 文件1 | 100% | 2% |
| 文件2 | 100% | 0% |
| 文件3 | 100% | 0% |
| 文件4 | 100% | 0% |
| 文件5 | 100% | 9% |
| 文件6 | 99% | 0% |
| 文件7 | 100% | 0% |
| 文件8 | 100% | 0% |
| 文件9 | 100% | 29% |
| 文件10 | 100% | 0% |
| 文件11 | 100% | 10% |
注:GPTZero已发布模型更新,宣称在GPT-5上表现更优!有关我们原始对比的更多细节,请参阅此博客文章。此外,我们鼓励用户自行完成测试,以比较任意时间点的性能表现。
最终,Pangram始终是检测AI生成内容的强劲可靠之选。无论您需要的是教育、出版、内容审核,还是更独特的需求,我们都能提供精准公正的AI检测服务。欢迎访问我们的博客了解更多详情,或通过info@pangram.com联系我们。