立即识别Twitter、LinkedIn、Substack等平台上的真人与AI账号。快来获取我们的全新Chrome扩展程序。

今天,我们发布了 Pangram 3.3。与 Pangram 3 系列之前的模型一样,Pangram 3.3 基于我们在 ICLR 2026 论文中提出的 EditLens 架构。
在过去的几周里,您可能已经注意到,OpenAI 和 Anthropic 最新发布的模型生成的部分文本被错误地标记为人类创作。在本次更新中,我们重点针对这些新发布模型生成的内容,致力于降低误判率——即模型错误地将 AI 生成的文本标记为人类创作的概率。
一如既往,我们致力于保持业界领先的误报率。我们绝不会发布任何以将更多人工撰写的文本误判为AI生成的文本为代价,从而降低整体漏报率的模型。在 Pangram 3.3 中,您不会看到误报率的上升。
除了能改善 Claude 4.7 和 GPT 5.4+ 等模型的漏检率外,Pangram 3.3 在拟人化文本、长篇文档以及英语作为第二语言(ESL)写作基准测试中的表现也更为出色。
与前一版本相比,Pangram 3.3 在检测最新一代大型语言模型(包括 Claude 4.7 和 GPT 5.4+)生成的纯文本方面表现更为出色。在我们的内部评估中,与 Pangram 3.2 相比,其对 GPT-5.5 Pro 生成的文本的检测准确率提高了 3 倍,对 Claude Opus 4.7 生成的文本的检测准确率则提高了 4 倍以上。
Pangram 3.3 在人性化检测评估中表现显著提升,其检测出的商业化人性化文本数量是前代模型的两倍。此外,Pangram 3.3 在检测对抗性提示的 LLM 输出方面也更具优势——即用户指示 LLM 规避检测的情况:在我们的内部对抗性数据集上,其表现较前代 Pangram 模型提升了 3 倍。
我们之前的模型有时会将较长的AI生成文档(超过2000词)误分类为“混合”类型,特别是会将文本末尾的部分误标为“纯人工生成”。Pangram 3.3 显著降低了长篇合成文本的此类分类错误。
尽管由于在诗歌等高难度领域取得的进展,我们的总体误报率有所下降,但我们发现,对于经过谷歌翻译处理的人类撰写的文本,其误报率出现了小幅上升。我们深知翻译是大型语言模型(LLMs)的一个常见应用场景,因此正在探索如何在未来模型中对AI翻译文本进行建模并报告结果。
过去六个月里,AI 助手的应用呈现爆发式增长。我们开始看到,人机协同写作流程正演变为一种协作模式,在该模式下,经过多轮迭代,由人类撰写和 AI 生成的文本在同一文档中交织融合。 我们当前的主要工作重点之一,就是改进对这类合著文档的建模。我们很高兴能基于EditLens平台,为您提供关于混合作者文本的最准确分析结果,同时帮助用户理解文本被AI“轻度”或“中度”辅助的含义。
与我们之前的两个模型一样,您随时可以在我们的模型卡片中查看当前模型在不同领域和数据集上的表现。

凯瑟琳·泰(Katherine Thai)是人工智能检测初创公司Pangram Labs的创始人工智能研究科学家。她于2025年12月在马萨诸塞大学阿默斯特分校获得计算机科学博士学位,导师为莫希特·伊耶(Mohit Iyyer),其研究主要致力于评估大型语言模型(LLMs)在文学分析相关任务中的表现。