宣布与Proofig建立全新合作伙伴关系!了解更多
图片由谷歌DeepMind提供。
今日我们欣喜地展示了快速适应市场新型大型语言模型的能力——通过发布模型更新,我们实现了对GPT-4o、Claude 3和LLaMA 3生成的AI文本近乎完美的检测准确率。
我们最新发布的模型在检测新型生成内容方面表现相当出色,即便训练集中未包含任何此类样本。然而,我们不满足于仅仅"相当出色"——我们致力于不断突破人工智能检测技术的边界,为客户实现最高可能的检测精度。
为检验我们在新一代语言模型上的表现,我们重新构建了包含25,000个样本的评估集,涵盖来自多个语言模型的难以分类的人类文本与AI生成文本。该新评估集中约40%的内容由GPT-4o、Claude 3和LLaMA 3生成的多样化文本构成,涵盖新闻、评论、教育等多个文本领域。
我们会在可用时使用新模型的所有版本:例如,我们会从Claude 3的Opus、Sonnet和Haiku版本中均匀抽样。
在将最新的大型语言模型纳入训练数据集后,我们发现针对新一代语言模型生成的文本,我们的检测准确率再次达到近乎完美的水平。
| LLM | 全字母文本三月准确度 | 全字母文本可能准确性 | % 改进 |
|---|---|---|---|
| 所有 | 99.54% | 99.84% | +0.30% |
| GPT-4o | 99.78% | 100% | +0.22% |
| 克劳德3 | 99.12% | 99.76% | +0.64% |
| LLaMA 3 | 99.58% | 99.97% | +0.39% |
除了提升新模型的性能外,我们还发现纳入最新一代模型的训练数据,实际上能使若干旧模型的性能获得微幅提升。
我们发现,在不降低旧模型评估集检测准确率的前提下,我们实际上提升了对GPT-3.5和(常规)GPT-4模型的检测能力。具体而言,模型此前未能识别的8个GPT-3.5案例现已通过检测,13个GPT-4案例也成功通过检测。 由此我们得出结论:本模型在提升对GPT-4o、Claude 3及LLaMA 3检测能力的同时,并未削弱对旧版模型的识别能力。
我们从一开始就意识到大型语言模型的前沿领域将快速演变,因此在设计系统架构时就充分考虑了这一特性。我们的系统能够在新的API公开后数小时内完成数据再生成,并启动新模型的训练工作。
当新模型发布时,生成新数据集并重新训练模型只需简单修改配置即可。我们拥有标准的提示模板库,这些模板专为输入大型语言模型设计,可生成类人文本——其内容与我们数据集的人类文本高度相似但并非完全相同。这项名为"基于合成镜像的硬负面挖掘"的技术流程已在我们的技术报告中详细阐述。
该新型号的发布时间安排如下:
5月13日:GPT-4o正式发布并接入OpenAI API。 5月14日:数据集管道完成更新,创建了新的训练集和评估集。 5月15-16日:基于新数据集训练了AI检测模型。 5月17日:完成质量检测与系统性检查后,该模型正式发布。
我们构建的基础设施使我们能够快速适应,包括将新模型的文本在短短一周内整合到生产检测系统中。
随着新型模型越来越好,它们应该更难被检测出来,对吧?我们至今仍未找到支持这一诱人却最终谬误的论点的证据。
从观测结果来看,我们发现能力更强的模型由于其更独特的风格,实际上比能力较弱的模型更容易被检测出来。例如,我们发现旧模型在检测克劳德·欧普斯(Claude Opus)作品时比检测十四行诗和俳句更有效。
正如我们在LMSYS排行榜所见,众多基础模型正渐近式地趋近GPT-4的水平,但尚未有模型能以显著优势胜出。 从宏观角度审视现状:当多家基础模型公司采用相同的注意力机制架构,并以整个互联网作为训练数据时,所有模型生成的语言最终呈现高度相似性也就不足为奇了。经常与语言模型交互的人会立刻明白我们所指的含义。
从观察层面来看,我们仍然发现当要求大型语言模型进行富有创造力和真实性的写作时——例如撰写观点文章、评论或创意短篇小说——它们生成的内容依然缺乏想象力且平淡无奇。我们认为这本质上源于其优化目标的特性:在预测高概率补全内容的同时,刻意回避分布之外的原创思想与创意。
我们珍视人类同胞的原创文字,是因为它可能为我们提供全新的视角或不同的思维方式,而非因为它只是人们可能说出的平庸之语。只要这种价值依然成立,人工智能检测就永远有其存在的必要,解决之道也永远存在。