宣布与Proofig建立全新合作伙伴关系!了解更多
注意: 我们已更名为Pangram Labs!详情请参阅我们的博客文章。
在Checkfor.ai,我们致力于成为业界顶尖的人工智能文本检测工具,以践行保护互联网免受低质量AI生成内容污染的使命。用户评论平台正是我们亟需守护的核心领域之一。
虚假网络评论最终会损害企业和消费者的双重利益,而ChatGPT的出现更使大规模评论欺诈变得轻而易举。
ChatGPT在Yelp上生成的评论
维护用户对在线评论的信任,是Checkfor.ai使命的重要组成部分,旨在守护网络上人类创作内容的真实性。
我叫布拉德利·艾米,是Checkfor.ai的首席技术官。我曾在斯坦福大学担任人工智能研究员,在特斯拉自动驾驶团队担任机器学习科学家期间交付过生产级模型,并在Absci领导研究团队构建了利用大型神经网络设计药物的平台。 在自动驾驶和药物研发领域,99%的准确率根本不够格。这意味着每100名行人中可能有1人被自动驾驶车辆撞伤,或每100名患者中就有1人因设计缺陷药物遭遇致命副作用。
虽然检测AI生成的文本未必关乎生死,但我们Checkfor.ai致力于打造符合同等质量标准的模型与软件系统。我们的检测器必须经受住诸如改写、高级提示工程等对抗性攻击,以及"undetectable.ai"等规避检测工具的考验。 我们致力于彻底解决这一难题(而非仅追求99%的检测率),因此工程团队的首要任务便是构建极具抗干扰性的评估平台。
一家软件1.0时代的网络安全公司绝不会在没有单元测试的情况下发布产品。作为软件2.0时代的我们,需要等效于单元测试的方案——只不过这些测试对象是拥有数百万甚至数十亿参数的大型模型,它们可能呈现随机行为,必须在覆盖广泛分布的尾部案例时仍能正确运行。 我们不能仅凭"99%测试集准确率"就草草收场:必须通过专门评估,针对现实世界中可能遇到的各类实例进行严格测试。
一个好的测试集能够回答具体问题,并最大限度地减少混杂变量的数量。
定向测试题及其对应测试集的示例包括:
有几个原因导致你不能简单地将测试集中的所有内容合并后直接报告一个数值。
正因如此,这类基准测试完全偏离了目标。它们缺乏聚焦性,未能检验我们期望模型展现的具体行为。有偏见的测试集只在模型表现最佳时展现其优势,却无法检验模型面对真实世界案例时的表现。
人工智能文本检测在现实世界中的应用实例之一,是识别Yelp平台上的AI生成评论。Yelp致力于严格监管其评论平台,查阅其2022年《信任与安全报告》即可发现,该平台高度重视打击欺诈性、收受酬劳、受利益驱动或其他不诚实的评论行为。
幸运的是,Yelp也发布了一个出色的开源数据集。我们从该数据集中随机抽取了1000条评论,同时使用最常用的LLM模型ChatGPT生成了1000条合成评论。
需要特别指出的是,ChatGPT的评论数据源自Yelp真实商家及其Kaggle数据集:这种设计能防止模型通过过度拟合细节(如商家分布差异)来作弊。在评估阶段,我们测试模型是否真正学会利用文本中的正确特征来区分真实与虚假评论。
我们利用这组数据集来确定哪些AI检测模型能够真正区分ChatGPT生成的评论与真实评论!
我们最简单的指标是准确率:每个模型正确分类了多少个样本?
虽然99.85%与96%的差异乍看之下似乎不大,但当我们考虑错误率时,就能更好地理解这些数字的含义。
Checkfor.ai 预计每 666 次查询才会失败一次,而 Originality.AI 预计每 26 次查询就会失败一次,GPTZero 则每 11 次查询就会失败一次。这意味着我们的错误率比 Originality.AI 低 25 倍以上,比 GPTZero 低 60 倍以上。
为了分析假阳性与假阴性(在机器学习术语中,我们更关注精确率和召回率这两个高度相关的统计指标),我们可以考察混淆矩阵——真阳性、假阳性、真阴性与假阴性的相对比例分别是多少?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.
在人工智能文本检测中,虽然较低的误报率更为重要(我们不希望错误地指控真实人类从ChatGPT剽窃),但较低的漏报率同样不可或缺——我们绝不能容忍高达10%至20%的人工智能生成内容漏网。
最终,我们希望模型在明确文本为人类所写或由ChatGPT生成时,能够表达出高度的信心。
参照Mitchell等人发表的优秀学术论文《DetectGPT》所采用的可视化策略,我们绘制了三种模型对AI生成评论与真实评论的预测直方图。由于三种模型的准确率均超过90%,采用对数刻度的y轴最能有效呈现各模型置信度的特征分布。

在此图中,x轴代表模型将输入评论判定为AI生成的概率。y轴则显示模型对真实文本(蓝色柱状图)或AI文本(红色柱状图)给出该特定概率的频率。 我们发现,当采用这种"软性"预测(而非简单二元判定)时,Checkfor.ai 在划定清晰决策边界和生成更可靠预测方面,均显著优于 GPTZero 和 Originality.AI。
GPTZero倾向于在0.4至0.6概率区间预测过多样本,其峰值模式集中在0.5附近。另一方面,Originality.AI的误报问题在分析软预测时显得尤为突出。 许多真实评论即使未达到0.5的阈值,也极易被误判为AI生成。这使得用户难以信任模型能可靠识别AI文本——只需对评论进行微小扰动,攻击者便可通过反复编辑使文本降至检测阈值以下,从而绕过检测器。
另一方面,我们的模型通常具有很强的决策能力。我们通常能够做出自信的决策。对于具有深度学习或信息论背景的读者,我们实现了真实分布与预测分布之间最低的交叉熵/KL散度。
将真实文本以高置信度标记为真实显然具有价值(参见推特上这张幽默的示意图)。尽管这位教育工作者显然误解了AI概率值代表AI撰写的文本比例,但当检测器对真实文本的真实性缺乏信心时,确实会留下误解的空间。
https://twitter.com/rustykitty_/status/1709316764868153537
关于Checkfor.ai预测的3个错误,遗憾的是其中两个错误的预测置信度相当高。我们的检测器并非完美无缺,目前正积极校准模型以避免此类高置信度的误判。
我们正在开源用于评估真实与虚假Yelp评论的数据集,以便未来模型能利用这一重要基准测试其检测器的准确性。
我们的主要收获是:
Checkfor.ai 同时展现出较低的假阳性率和假阴性率。 该系统不仅能以高精度区分真实与AI生成的评论,更能以高置信度实现精准识别。 未来我们将持续发布此类博客文章,并在不断学习中公开分享对模型的客观评估。敬请关注,并欢迎随时分享您的见解!