介绍 Open Pangram

凯瑟琳·泰
2026年3月24日

🤗 模型与数据集

源代码

我们非常自豪且兴奋地向大家介绍两款基于我们2026年ICLR论文中提出的EditLens技术开发的Pangram模型。这两款轻量级模型遵循CC BY-NC-SA 4.0许可协议,可供非商业用途使用,且可在MacBook上运行。

我们为什么要发布 Pangram 的开源版本?

我们一直致力于人工智能检测技术的发展,并希望帮助其他研究人员在此领域取得进展。 此前,我们曾通过发布《EditLens》论文向学术界做出贡献,该论文展示了分析和分类人工智能生成内容的新方法;我们还对同行评审和 美国报纸进行了大规模分析,并为研究人员提供了API资助。通过发布EditLens模型检查点、训练数据集和源代码,我们希望研究人员能够在此基础上继续开展研究。

编辑镜头与 AI 辅助检测

随着生成式人工智能应用的发展,AI检测技术也必须随之演进。OpenAI最近的一项研究发现,ChatGPT收到的所有与写作相关的请求中,有三分之二涉及修改用户提供的文本,而非从头开始生成文本。 鉴于人类与AI共同创作文本这一新兴范式,我们开发了一个创新的检测框架,用于评估AI对文本的贡献程度。Pangram用户可能已经注意到,我们的模型会返回诸如“轻度AI辅助”或“中度AI辅助”等结果。 这些分类得益于我们在ICLR 2026研究论文《EditLens:量化文本中AI编辑的程度》中提出的技术。该论文介绍了一种AI检测模型,其返回的分数范围为0到1,其中0表示完全由人类撰写的文本,1表示完全由AI生成的文本。随着数据集和源代码的发布,现在任何人都可以训练自己的EditLens模型。

数据集

我们发布了EditLens数据集,其中包含6万个训练样本、2400个验证样本和6000个测试样本。每个数据集子集均包含来自4个领域的纯人工撰写文本、纯AI生成文本以及经AI编辑的文本。 AI编辑文本是通过将编辑提示应用于来自以下5个领域之一的人工撰写源文本生成的:新闻(Narayan等人,2018;See等人,2017)、创意写作(Fan等人,2018)、亚马逊评论(Zhang等人,2015)、 谷歌评论(Li et al., 2022)以及教育相关网络内容(Lozhkov et al., 2024)。

用于生成人工智能生成和人工智能编辑文本的模型是 OpenAI 的 gpt-4.1-2025-04-14 , Anthropic 的 克劳德·十四行诗-4-20250514 ,以及谷歌的gemini-2.5-flash.

EditLens 数据集还包含两个域外评估子集:来自保留源文本域(电子邮件)的 6,000 个样本,以及由 Meta 的 Llama-3.3-70B-Instruct-Turbo .

此外,我们发布了一个由我们收集的数据集,其中包含近1800篇经过Grammarly修改的文本。该数据集由200篇人工撰写的原始文本及其9种不同的修改版本组成。每种修改(例如“简化此句”)均来自Grammarly原生文字处理器的修改建议。 这200篇人工撰写的源文本采样自Persuade 2.0(Crossley等人,2024)、ELLIPSE(Crossley等人,2023)、BAWE(Nesi等人,2004)、 ICNALE(Ishikawa 等,2007)、CLASSE(Crossley 等,2024)或 PIILO(Holmes 等,2023)数据集之一中抽取的。

您可以在HuggingFace 上探索这两个数据集。

模型

pangram/editlens_Llama-3.2-3B 该模型使用QLoRA进行了微调,最大序列长度为1024个令牌。基础模型拥有30亿个参数。

pangram/editlens_roberta-large该模型拥有3.55亿个参数,在最大序列长度为512个令牌的条件下进行了微调。

这两个模型均按照EditLens论文中描述的方法进行了1个 epoch的训练。这两个模型的额外超参数和训练代码可在EditLens的GitHub仓库中找到。您可以从HuggingFace下载模型检查点。

评价

对于二分类和三分类,我们通过在保留的验证集上进行校准来确定阈值。

在二元评估中,我们寻找能够最大化F1分数的阈值,以区分完全由人类撰写和完全由AI生成的文本。二元评估中不包含AI编辑的文本。

对于三分类评估,我们确定了两个阈值。首先,我们将评估数据分为三类:人工、AI 和 AI 编辑。然后,我们确定一个下阈值,用于将人工类与 [AI, AI 编辑] 数据的并集区分开;同时确定一个上阈值,用于将 AI 类与 [人工, AI 编辑] 数据的并集区分开。这两个阈值均通过最大化 F1 分数来确定。

域内测试集

二分类结果

2,038篇人类撰写的文本和2,046篇AI生成的文本

探测器宏 F1FPRFNR
Pangram 3.2(当前量产型号)1.0000.0000.000
Pangram OSS:editlens_Llama-3.2-3B1.0000.0000.000
Pangram OSS:editlens_roberta-large0.9970.0020.003
Fast-DetectGPT0.8950.1210.088
双筒望远镜0.8860.1280.101

三元分类结果

2,038篇人类撰写的文本、2,046篇AI生成的文本以及2,031篇经AI编辑的文本

探测器准确性宏 F1人类 F1AI F1AI编辑的F1
Pangram 3.2(当前量产型号)0.9200.9200.9260.9570.876
Pangram OSS:editlens_Llama-3.2-3B0.8950.8950.8950.9480.842
Pangram OSS:editlens_roberta-large0.8810.8810.9000.9230.819
Fast-DetectGPT0.5850.5450.2460.8310.558
双筒望远镜0.5690.5230.2130.8110.545

保留域名(安然公司电子邮件)

二分类结果

1,992篇人类撰写的文本和1,847篇AI生成的文本

探测器宏 F1FPRFNR
Pangram 3.2(当前量产型号)0.9990.0010.001
Pangram OSS:editlens_Llama-3.2-3B0.9980.0010.004
Pangram OSS:editlens_roberta-large0.9660.0010.068
Fast-DetectGPT0.9410.0790.036
双筒望远镜0.9140.1550.011

三元分类结果

1,992篇人类撰写的文本、1,847篇AI生成的文本以及2,308篇经AI编辑的文本

探测器准确性宏 F1人类 F1AI F1AI编辑的F1
Pangram 3.2(当前量产型号)0.9050.9090.8980.9560.872
Pangram OSS:editlens_Llama-3.2-3B0.8630.8680.8550.9360.812
Pangram OSS:editlens_roberta-large0.6950.6730.8470.5150.657
Fast-DetectGPT0.6250.5890.2610.8860.619
双筒望远镜0.6180.5750.2660.8570.601

预训练模型(Llama 3.3 70B Instruct)

二分类结果

2,038篇人类撰写的文本和2,038篇AI生成的文本

探测器宏 F1FPRFNR
Pangram 3.2(当前量产型号)1.0000.0000.000
Pangram OSS:editlens_Llama-3.2-3B1.0000.0000.000
Pangram OSS:editlens_roberta-large0.9870.0020.025
Fast-DetectGPT0.9390.1210.000
双筒望远镜0.9360.1280.000

三元分类结果

2,038篇人类撰写的文本、2,038篇AI生成的文本以及1,881篇经AI编辑的文本

探测器准确性宏 F1人类 F1AI F1AI编辑的F1
Pangram 3.2(当前量产型号)0.9520.9510.9460.9850.923
Pangram OSS:editlens_Llama-3.2-3B0.9210.9200.9180.9650.877
Pangram OSS:editlens_roberta-large0.8600.8590.9080.8790.791
Fast-DetectGPT0.5620.5060.2620.8170.440
双筒望远镜0.5400.4780.2270.7960.411

第三方基准测试

非英语母语者(Liang 等,2023)

91篇人类撰写的文本

探测器FPR
Pangram 3.2(当前量产型号)0.000
Pangram OSS:editlens_Llama-3.2-3B0.055
Pangram OSS:editlens_roberta-large0.099
双筒望远镜0.560
Fast-DetectGPT0.670

人体检测器(Russell 等,2024)

150篇人类撰写的文本和150篇AI生成的文本

探测器宏 F1FPRFNR
Pangram 3.2(当前量产型号)1.0000.0000.000
Pangram OSS:editlens_Llama-3.2-3B0.9870.0270.000
Pangram OSS:editlens_roberta-large0.9600.0200.060
双筒望远镜0.8460.0870.220
Fast-DetectGPT0.7350.4870.013

RAID,随机抽取的10k样本(Dugan等人,2024)

2,058篇人类撰写的文本和7,942篇AI生成的文本

Detectorc宏 F1FPRFNR
Pangram 3.2(当前量产型号)0.9920.0020.007
Fast-DetectGPT0.9410.0780.028
双筒望远镜0.9390.1000.024
Pangram OSS:editlens_Llama-3.2-3B0.9300.0030.062
Pangram OSS:editlens_roberta-large0.7360.0070.288

Grammarly 数据集

在这些箱线图中,我们展示了所收集的Grammarly数据集的分数分布情况,并按所做的修改进行了分组。值得注意的是,对于诸如“修正任何错误”这类仅涉及语法和拼写的小幅修正,EditLens给出的评分非常低,接近人类评分;而对于“使其更详细”这类更具“增补性”的修改,则给出了更高的评分。

Pangram OSS 各编辑指令的分数分布:editlens_Llama-3.2-3B

Pangram OSS 不同编辑指令下的分数分布:editlens_roberta-large

Open Pangram 应该用于什么?

我们鼓励研究人员在人工智能检测研究中将 Open Pangram 模型作为基准。我们希望这些数据集和源代码能帮助研究人员进一步拓展我们的工作。

Open Pangram 不应用于哪些用途?

禁止将 Open Pangram 用于商业用途。在教育或专业环境中,严禁使用 Open Pangram 模型来执行任何形式的人工智能使用政策。如需获取误报率处于行业领先水平的更精准模型,请联系我们了解企业级服务申请研究 API 授权

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。