宣布与Proofig建立全新合作伙伴关系!了解更多

Pangram如何检测AI生成的内容

查看技术报告PDF

概述

Pangram Text旨在检测AI生成的内容,其误报率接近于零。我们采用严格的训练方法最大限度地减少错误,使模型能够通过分析和理解文本中的细微线索来识别AI文本。

初始培训流程

我们的分类器采用传统语言模型架构。它接收输入文本并将其分词。随后,模型将每个词元转换为嵌入向量——即代表词元含义的数值向量。

输入数据经过神经网络处理后,生成输出嵌入向量。分类器头部将该嵌入向量转换为0或1的预测结果,其中0代表人工标注结果,1代表AI生成的标注结果。

我们基于一个规模虽小但多样性强的数据集训练初始模型,该数据集包含约100万份由公众及授权人类撰写的文本。数据集还涵盖了GPT-4及其他前沿语言模型生成的AI文本。训练结果是一个能够可靠预测文本作者是人类还是AI的神经网络。

通过迭代实现持续改进

硬负面挖掘

初始模型已相当有效,但我们希望最大限度提高准确性并降低误报率(即错误地将人类撰写的文档判定为AI生成)。为此,我们专门为AI检测模型开发了一套算法。

基于初始数据集,我们的模型缺乏足够信号来实现从99%准确率到99.999%准确率的飞跃。虽然模型能快速学习数据中的初始模式,但要精确区分人类文本与AI文本,模型必须接触到极端边界案例。

我们通过以下方式解决此问题:利用模型在大规模数据集中搜索假阳性结果,并在重新训练前用这些额外困难实例增强初始训练集。经过数轮迭代后,最终模型不仅实现了近乎零的假阳性率,还在保留测试集上展现出整体性能的提升。

人类人工智能镜像提示
镜像提示
我们设计了数据集的人工智能部分,使其在风格、语调和语义内容上与人类部分高度相似。针对每个人类示例,我们生成一个人工智能生成的示例,该示例在尽可能多的维度上与原始文档相匹配,以确保我们的模型能够仅基于大型语言模型写作的特定特征来学习分类文档。
再培训
我们使用更新后的训练集训练模型,并在每个步骤评估模型性能。通过这种方法,我们能够减少错误并提升模型精度,其效果远超常规训练所能达到的水平。
模型再训练示意图

了解更多

arXiv.org
全字母文本分类器AI生成文本的技术报告
欢迎查阅我们在arXiv平台发布的完整技术白皮书,其中深入探讨了训练细节、性能表现及其他实验内容!
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。