宣布与Proofig建立全新合作伙伴关系!了解更多

Pangram 3.0:量化文本中人工智能编辑的程度

凯瑟琳·泰
2025年12月11日

*注:我们的新模型Pangram 3.0基于已发表的研究成果:《EditLens:量化文本中AI编辑的程度》。

大型语言模型(如ChatGPT、Claude和Gemini)的快速普及,彻底改变了我们撰写、修改和处理文本的方式。 OpenAI最新研究发现,用户向ChatGPT提出的写作相关请求中,三分之二要求模型修改用户提供的文本,而非从零生成内容。用户越来越多地要求模型基于人类撰写的草稿进行语法优化、论点重组或语气调整。

人类撰写但经AI编辑的文本兴起对AI检测工具有何影响?现有多数工具仅能将文本归类为三种类型:纯人工、纯AI或混合文本。这种框架无法区分经大型语言模型语法修正的段落与经模型扩展添加细节的段落。

为全面捕捉文本中AI编辑的完整谱系,我们推出Pangram 3.0模型,该模型旨在量化AI在文本创作中的介入程度。不同于传统模型仅提供"纯人工""纯AI"或"混合"的分类结果,Pangram会输出一个对应AI干预"强度"的评分。

同质性与异质性混合作者身份

Pangram 3.0 处理了我们称之为同质混合作者文本的情况。让我们来解析同质混合作者异质混合作者之间的区别。

异质性文本中,每个文本段落的作者身份可直接归因于人类或AI。如下例所示,人类开始撰写评论后,请求ChatGPT进行补充。此类情况下,人类与AI文本段落之间存在一个或多个边界。 可根据生成者身份(人类或AI)为每句话甚至每个词标注来源。异质混合文本检测(亦称精细化AI文本检测)此前已由Kushnareva等人(2024)Wang等人(2023) 及Lei等人(2025)进行过研究。

同质化情况下,作者身份因编辑过程而变得难以区分。延续餐厅点评的例子,若人类撰写简短点评后要求ChatGPT补充细节,最终生成的便是同质化混合文本。 此时人类撰写的文字与AI生成的内容已无法分离:AI虽用新词重构了人类文本,但文本背后的思想与内涵完全源自人类初稿(试想某位作者未注明出处地改写他人作品——这正是典型的剽窃行为!)。

图2:异质混合人-AI作者文本示例(左)与同质混合作者文本示例(右)

图1中的三篇编辑文本均属于同质混合作者案例。从这三个例子中,我们能清晰看出"修正所有错误"提示生成的文本与"使其更具描述性"提示生成的文本存在显著差异。 当我们将生成的文本与原始人工文本进行对比时,这种差异尤为显著。但借助Pangram 3.0,即使仅有编辑后的文本,我们也能量化这种差异,从而帮助用户更清晰地理解人工智能在特定文本中的渗透程度。

图3:Pangram 3.0模型在训练阶段的整体流程图。模型训练完成后,用户可输入任意文本,系统将预测该文本中人工智能辅助的程度。

创建人工智能编辑的数据集

为了训练模型识别文本中的人工智能编辑程度,我们需要创建一个训练数据集,其中包含经过人工智能编辑的文本,并标注每段文本中的人工智能编辑程度。我们从不同领域的开源数据集中抽取了完全由人类撰写的原始文本:新闻、评论、教育类网络文章以及Reddit写作提示。 随后,我们运用三款商用大语言模型(GPT-4.1、Claude Sonnet 4、Gemini 2.5 Flash)执行303种编辑指令,如"使描述更生动"或"能否帮我提升论文分数"。最终为每篇人工文本生成完全由AI创作的版本(亦称"合成镜像文本",详见Pangram技术报告)。 最终数据集包含6万个训练样本、6千个测试样本及2.4千个验证样本。

我们如何判断文本是由人工智能编辑的?

由于在数据集创建过程中我们能够获取未经编辑的原始文本,通过对比原始文本及其AI编辑版本,我们得以量化文本中AI编辑的程度。我们采用一种名为余弦距离的文本相似度指标,在0到1的量表上评估AI对人工撰写原始文本的修改程度——完全由人类撰写的文本评分为0,完全由AI生成的文本评分为1。 为验证该评分是否符合人类对AI编辑的感知,我们开展了一项研究:聘请3位对AI生成文本有丰富接触经验的专家,要求他们从两篇AI编辑文本中挑选出编辑痕迹更明显的文本。研究结果表明,标注者普遍认同我们选择的文本相似度度量标准。

训练模型预测AI编辑痕迹

在获得标注数据集后,我们开始训练模型。 我们的模型仅基于AI编辑过的文本进行训练,这反映了用户使用Pangram 3.0的实际场景:教师若想了解学生使用AI的程度,只能获取学生的最终提交稿,而无法查看任何草稿版本。模型通过训练,能够根据给定文本预测我们在前文赋予的AI编辑评分。图3展示了模型在训练阶段和测试阶段的输入与输出。

人工智能辅助检测的实践应用

以下是关于作家石黑一雄的人类撰写的段落:

阅读英国作家石黑一雄的作品,会让人在多重层面感受到挫败感。石黑笔下令人沮丧的写作才华在于:无论读者对人物和情节投入多少情感,挫败感始终如影随形。在语言层面,读者会发现重复、冗长,以及大量修饰性形容词的随意使用。 每当书中人物说出"容我长话短说"之类的话,石黑便已让我产生生理性抵触。这些叙述者虽皆受雇于人,却无一具备专业说书人的素养。信息传递缓慢、模糊且颠倒时序,剥夺了读者理解情节所需的具体事实依据。

以下是Pangram 3.0对ChatGPT生成的段落进行AI编辑后的特征描述,我们应用了不同的提示词:

提示AI助手(编辑镜头)评分全字母句 3.0 结果
收拾一下,我正准备把论文投给文学期刊。0.52查看原文及轻微编辑后的结果
让语言更生动0.79查看原文及适度编辑后的结果
请用石黑一雄的风格重写此文0.89查看文本及完全由AI生成的结果

Grammarly案例研究

Grammarly是一款基于订阅的人工智能写作助手,允许用户在原生文字处理器中直接使用大型语言模型(LLMs)编辑文本。我们收集了一组数据集,其中使用Grammarly对197篇人工撰写的文本应用了9种默认编辑提示,包括"简化表达"、"使行文流畅"和"增强描述性"等指令。 随后我们运用Pangram 3.0对所有编辑文本进行评分。图4展示了按编辑提示分类的AI辅助评分分布情况。值得注意的是,Pangram 3.0将"修正所有错误"视为最轻微的编辑,而"概括内容"和"增加细节"则被判定为侵入性更强的编辑——这种结果或许出乎意料。

图4:基于Grammarly数据集的Pangram 3.0(EditLens)评分分布。评分按所应用的编辑操作分组。所有编辑均为Grammarly文字处理器中默认可用选项。

随着你应用更多AI编辑,AI辅助评分将随之提升

我们进行了一项实验:对同一文本应用5次大型语言模型编辑,并在每次编辑后使用Pangram 3.0重新评分。如图5所示,总体而言,随着每次渐进式编辑的实施,AI辅助评分(EditLens)呈现上升趋势。

图5:同一文档经过5次渐进式AI编辑后的Pangram 3.0评分。

国际学习表示会议(ICLR)案例研究

十一月,人工智能研究人员对国际学习表示会议(ICLR)上疑似由人工智能生成的投稿和同行评审占比过高表示担忧。该会议是人工智能与机器学习领域的顶级学术会议之一。卡内基梅隆大学教授格雷厄姆·纽比格悬赏征集能对本届ICLR投稿及评审进行人工智能检测的方案,我们Pangram团队欣然应允。

作为本次分析的一部分,我们对本评审周期提交至ICLR的所有同行评审以及2022年提交的评审报告运行了Pangram 3.0系统,以验证其误报率(FPR)。 在2022年评审中,Pangram 3.0对"轻度编辑"与"完全人工"的FPR约为1/1000,对"中等编辑"与"完全人工"的FPR为1/5000,对"深度编辑"与"完全人工"的FPR则达1/10000。 我们发现完全由AI生成与完全人工撰写之间不存在混淆。在今年的评审中,Pangram 3.0发现超过半数的评审包含某种形式的AI辅助。图6展示了Pangram 3.0评分在2026篇ICLR评审中的分布情况。

图6:Pangram 3.0对2026篇ICLR评审文章的预测分布

若想深入了解我们的方法论和研究结果,请查阅我们撰写的分析博客文章

Pangram 3.0 如何处理非英语母语者使用人工智能辅助生成的文本?

我们公布了分析结果及所有评审的Pangram 3.0评分,使评审者能够核查该系统对其撰写评审的评分情况。由此,我们得以收集到关于Pangram 3.0在真实文本中表现的实证反馈。

针对我们分析的X平台回复中,一个常见议题是:当非英语母语者撰写文本后,再使用大型语言模型(LLMs)进行翻译或润色时,AI助手如何评分这些文本?以下分享部分评审者的反馈,他们普遍认同Pangram对评审过程的描述:

我们很高兴与您分享本次产品更新。如需了解Pangram 3.0 AI辅助检测(EditLens)的更多技术细节,请查阅我们的研究论文:https://arxiv.org/abs/2510.03154

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。