立即识别 Twitter、LinkedIn、Substack 等平台上的真人与 AI 内容。快来获取我们的全新 Chrome 扩展程序。

了解更多
产品更新

人工智能检测器能否识别GPT-4.5?

人工智能检测器能否识破GPT-4.5? | Pangram Labs

GPT-4.5 发布

今日,OpenAI发布了GPT-4.5:这是目前最新且规模最大的前沿语言模型,也是ChatGPT的重要更新版本。尽管其基准统计数据尚未达到DeepSeek R1和OpenAI O3等推理模型的水平,但GPT-4.5仍是今年迄今规模最大、最受期待的模型发布,我们对此充满期待。 OpenAI宣称该模型在写作质量方面实现重大突破,社交媒体上已涌现大量关于其性能的热议。

人工智能检测器能否跟上新型人工智能模型的步伐?

我们想解答一个许多人关心的问题:随着模型不断改进,我们还能用GPT-4.5检测出AI生成的文本吗?今天我们进行了一次快速测试来验证。

全字母句 vs. 竞争对手

我们首先选取了11个典型提示,这些提示代表了日常写作任务中可能向ChatGPT提出的请求。

以下是我们使用的提示:

  1. 请为我撰写一篇300字的短文,内容关于秘鲁的考拉保护工作。
  2. 请以我的名义——阿盖尔·J·巴金斯——给《华盛顿邮报》全体员工写一封邮件,说明我将终止本报刊登自由派评论专栏。
  3. 请为我撰写一篇400字的摘要,宣布全球首款室温半导体问世(这次是真的)。必要时可虚构名称和实验室。
  4. 以小学生的视角撰写一篇有说服力的文章,阐述不应强制推行校服制度。
  5. 写一篇12岁女孩的复杂日记条目,她对诗歌感兴趣,窗外还有几只蝴蝶。
  6. 请详细点评马里兰州巴尔的摩市一家阿拉伯之夜主题密室逃脱,该密室由名叫罗伯特的工作人员负责,其场景设计非常出色。
  7. 请代笔撰写一封来自俄罗斯某部地下独立电影导演的邮件,致函奥斯卡奖项负责人,恳请解除制裁限制其参评资格。必要时可虚构细节。
  8. 为小说中某个场景创作一段创意小说:一群年轻主角在NASA设计的模拟训练中,竭力让一架加固型火星飞行器着陆——而这场训练本就注定会出错。
  9. 为电影场景编写剧本:身无分文的纽约金融男远程恳求佛罗里达优步司机,从他那廉价的飓风高发公寓里救出他的科莫多巨蜥。
  10. 写一首诗,描述一对年轻情侣在万圣节夜晚穿着戏服分手的故事。要求幽默风趣,字数控制在200字内。
  11. 创作一篇虚构故事,描述一辆悬浮摩托车在威尼斯追逐一幅摇摇欲坠的无价画作的惊险追逐。

我们力求使提示词尽可能多样化,同时努力编写出能充分展现与前代GPT模型显著质的差异的提示:换言之,只要存在让模型发挥创造力、展现"惊艳"特质的机会,我们便竭尽所能为GPT-4.5创造这样的条件。

结果——AI检测器与GPT-4.5的较量

提示全字母句主要竞争对手1主要竞争对手2
考拉保护100%100%100%
报纸电子邮件100%100%67%
室温半导体100%56%86%
校服85%100%80%
诗歌日记100%100%15%
密室逃脱评测100%81%56%
俄罗斯电影电子邮件100%100%91%
火星着陆场景100%43%7%
科莫多巨蜥脚本98%88%0%
万圣节分手诗100%100%0%
威尼斯追逐场景100%49%9%

即使训练集里没有任何 GPT-4.5 数据,Pangram 也能检测出全部 11 篇由 GPT-4.5 撰写的文章。 相比之下,两家领先的AI检测竞争对手表现最多也只是时好时坏。Pangram能够自信地将11个样本中的10个判定为98%或更高的AI生成概率,而竞争对手往往表现出高度的不确定性,甚至在最坏的情况下,会以极高的置信度判定文本为人类所写。

泛字句为何能如此出色地推广到新模型?

Pangram本身是一个大型机器学习模型,已处理过数百万例人类与AI生成的文本数据。大型模型通常具有更强的泛化能力,能够捕捉到其他模型无法识别的AI文本中微妙的模式。 我们的主动学习方法在提升敏感度的同时进一步降低了误报率,使模型能够大规模高效运行,并比竞争对手更有效地推广至新型大型语言模型。此外,我们对数据质量与多样性的专注,最终造就了这款在理解细微细节方面经验远超其他模型的解决方案。

结论——AI检测器对GPT-4.5是否依然有效?

是的,我们的AI检测工具在识别GPT-4.5生成的文本方面仍然非常有效。

因此,若您正好奇当更强大、更先进的新模型问世时,Pangram的表现如何——它已通过近期最受期待的人工智能版本测试,且全程无需重新训练。若您不希望人工智能检测软件在OpenAI下次模型更新时突然失效,请立即尝试Pangram。

如需了解更多研究详情或获取免费试用额度,可在GPT-4.5平台上体验我们的模型,请通过info@pangram.com联系我们。


埃利亚斯·马斯鲁尔

Elyas Masrour 是 Pangram 的创始工程师。自马里兰大学毕业后,他作为 Pangram 的第二名员工加入公司,此后构建了多项关键基础设施,包括模型服务 API、基于角色的访问控制以及支持性证据处理管道。Elyas 还与研究团队紧密合作,共同开展对抗性鲁棒性、模型可解释性以及异构混合内容检测等项目。 工作之余,埃利亚斯热衷于探索人类创造力和表达的方方面面,包括电影制作、阅读以及城市探索。

查看Elyas Masrour的更多内容
布拉德利·艾米
布拉德利·埃米首席技术官,联合创始人

布拉德利是一位人工智能研究员,在工业领域构建深度学习产品方面造诣深厚。他近期曾领导生成式人工智能药物发现公司Absci的深度学习研究团队,此前还担任特斯拉自动驾驶核心计算机视觉团队成员。

在攻读研究生期间,布拉德利与斯坦福视觉实验室合作发表了多篇深度学习研究论文。他拥有斯坦福大学物理学学士学位和人工智能硕士学位。除人工智能外,他对教育学、哲学充满热情,同时还是位狂热的高尔夫球手。

查看布拉德利·埃米的更多内容

相关阅读

Pangram 3.0 API 迁移指南
产品更新

Pangram 3.0 API 迁移指南

2026年1月5日
全字母文本更新:GPT-4o、Claude 3、LLaMA 3
产品更新

全字母文本更新:GPT-4o、Claude 3、LLaMA 3

2024年5月22日
隆重推出Pangram 3.0,新增AI辅助检测功能
产品更新

隆重推出Pangram 3.0,新增AI辅助检测功能

2025年12月11日
Pangram是唯一一款在识别AI内容方面超越人类专家的AI检测器。
产品更新

Pangram是唯一一款在识别AI内容方面超越人类专家的AI检测器。

2025年1月29日
如何在Google文档中检测AI生成内容
产品更新

如何在Google文档中检测AI生成内容

2025年1月31日
第三方研究表明Pangram是性能最强大的AI检测器
产品更新

第三方研究表明Pangram是性能最强大的AI检测器

2024年10月30日