宣布与Proofig建立全新合作伙伴关系!了解更多
我们的分类器采用传统语言模型架构。它接收输入文本并将其分词。随后,模型将每个词元转换为嵌入向量——即代表词元含义的数值向量。
输入数据经过神经网络处理后,生成输出嵌入向量。分类器头部将该嵌入向量转换为0或1的预测结果,其中0代表人工标注结果,1代表AI生成的标注结果。
初始模型已相当有效,但我们希望最大限度提高准确性并降低误报率(即错误地将人类撰写的文档判定为AI生成)。为此,我们专门为AI检测模型开发了一套算法。
基于初始数据集,我们的模型缺乏足够信号来实现从99%准确率到99.999%准确率的飞跃。虽然模型能快速学习数据中的初始模式,但要精确区分人类文本与AI文本,模型必须接触到极端边界案例。
我们通过以下方式解决此问题:利用模型在大规模数据集中搜索假阳性结果,并在重新训练前用这些额外困难实例增强初始训练集。经过数轮迭代后,最终模型不仅实现了近乎零的假阳性率,还在保留测试集上展现出整体性能的提升。