宣布与Proofig建立全新合作伙伴关系!了解更多
今日,OpenAI发布了GPT-4.5:这是目前最新且规模最大的前沿语言模型,也是ChatGPT的重要更新版本。尽管其基准统计数据尚未达到DeepSeek R1和OpenAI O3等推理模型的水平,但GPT-4.5仍是今年迄今规模最大、最受期待的模型发布,我们对此充满期待。 OpenAI宣称该模型在写作质量方面实现重大突破,社交媒体上已涌现大量关于其性能的热议。
我们想解答一个许多人关心的问题:随着模型不断改进,我们还能用GPT-4.5检测出AI生成的文本吗?今天我们进行了一次快速测试来验证。
我们首先选取了11个典型提示,这些提示代表了日常写作任务中可能向ChatGPT提出的请求。
以下是我们使用的提示:
我们力求使提示词尽可能多样化,同时努力编写出能充分展现与前代GPT模型显著质的差异的提示:换言之,只要存在让模型发挥创造力、展现"惊艳"特质的机会,我们便竭尽所能为GPT-4.5创造这样的条件。
| 提示 | 全字母句 | 主要竞争对手1 | 主要竞争对手2 |
|---|---|---|---|
| 考拉保护 | 100% | 100% | 100% |
| 报纸电子邮件 | 100% | 100% | 67% |
| 室温半导体 | 100% | 56% | 86% |
| 校服 | 85% | 100% | 80% |
| 诗歌日记 | 100% | 100% | 15% |
| 密室逃脱评测 | 100% | 81% | 56% |
| 俄罗斯电影电子邮件 | 100% | 100% | 91% |
| 火星着陆场景 | 100% | 43% | 7% |
| 科莫多巨蜥脚本 | 98% | 88% | 0% |
| 万圣节分手诗 | 100% | 100% | 0% |
| 威尼斯追逐场景 | 100% | 49% | 9% |
Pangram能够检测出全部11篇GPT-4.5生成的文章,即使训练集中完全没有GPT-4.5的数据。 相比之下,两大主流AI检测竞品表现参差不齐。当Pangram能对11篇样本中的10篇给出98%及以上AI概率的精准判定时,竞品系统常表现出高度不确定性,甚至在最糟情况下仍以高置信度判定文本为人类创作。
Pangram本身是一个大型机器学习模型,已处理过数百万例人类与AI生成的文本数据。大型模型通常具有更强的泛化能力,能够捕捉到其他模型无法识别的AI文本中微妙的模式。 我们的主动学习方法在提升敏感度的同时进一步降低了误报率,使模型能够大规模高效运行,并比竞争对手更有效地推广至新型大型语言模型。此外,我们对数据质量与多样性的专注,最终造就了这款在理解细微细节方面经验远超其他模型的解决方案。
是的,我们的AI检测工具在识别GPT-4.5生成的文本方面仍然非常有效。
因此,若您正好奇当更强大、更先进的新模型问世时,Pangram的表现如何——它已通过近期最受期待的人工智能版本测试,且全程无需重新训练。若您不希望人工智能检测软件在OpenAI下次模型更新时突然失效,请立即尝试Pangram。
如需了解更多研究详情或获取免费试用额度,可在GPT-4.5平台上体验我们的模型,请通过info@pangram.com联系我们。