宣布与Proofig建立全新合作伙伴关系!了解更多
两个月前,Pangram发布了首款多语言AI检测模型。如今,我们准备宣布一项更新!Pangram现已正式支持互联网前20大语言,并在更多语言上表现优异。我们特别注意到阿拉伯语、日语、韩语和印地语的检测性能显著提升。
我们在官方支持数据集中评估了每种语言约2000份文档。人类创作部分包含真实评论、新闻报道和维基百科条目。人工智能部分则是一组由GPT-4o根据不同长度、风格和主题提示生成的论文、新闻报道及博客文章。
| 语言 | 准确性 | 假阳性率 | 假阴性率 |
|---|---|---|---|
| 阿拉伯语 | 99.95% | 0.10% | 0.00% |
| 捷克 | 99.95% | 0.00% | 0.11% |
| 德语 | 99.85% | 0.00% | 0.32% |
| 希腊 | 99.90% | 0.00% | 0.21% |
| 西班牙语 | 100.00% | 0.00% | 0.00% |
| 波斯语 | 100.00% | 0.00% | 0.00% |
| 法语 | 100.00% | 0.00% | 0.00% |
| 印地语 | 99.79% | 0.00% | 0.42% |
| 匈牙利语 | 99.49% | 0.10% | 0.95% |
| 意大利语 | 100.00% | 0.00% | 0.00% |
| 日语 | 100.00% | 0.00% | 0.00% |
| 荷兰 | 99.95% | 0.10% | 0.00% |
| 波兰语 | 100.00% | 0.00% | 0.00% |
| 葡萄牙语 | 100.00% | 0.00% | 0.00% |
| 罗马尼亚 | 99.95% | 0.10% | 0.00% |
| 俄罗斯 | 100.00% | 0.00% | 0.00% |
| 瑞典 | 99.95% | 0.00% | 0.11% |
| 土耳其 | 99.90% | 0.00% | 0.21% |
| 乌克兰 | 99.95% | 0.00% | 0.11% |
| 乌尔都语 | 99.44% | 0.00% | 1.16% |
| 越南语 | 99.95% | 0.00% | 0.11% |
| 中文 | 99.95% | 0.00% | 0.11% |
以下是我们为改进多语言支持所做的关键变更:
我们针对互联网规模的数据开展了一项主动学习数据活动,重点关注互联网前20大语言。
我们改进了分词器,以更好地支持非英语语言。
我们增加了基础模型和LoRA适配器的参数数量。
我们在训练前对数据集的随机部分应用了数据增强技术进行机器翻译。
我们修复了词计数中的一个错误,该错误导致东亚语言在训练集中被意外低估。
构建极低误报率模型的核心基础在于主动学习:简而言之,我们从2022年前的互联网数据中挖掘模型表现欠佳的实例(如误报),将这些实例加入训练集,重新训练模型,并循环往复。该算法的详细说明详见我们的技术报告。
我们可以将主动学习方法应用于网络上某些大型多语言数据集,以此发现当前模型难以处理的多语言文本,随后利用这些数据进行迭代训练。同时结合我们庞大的提示词库生成合成对照文本:这些AI文本与挖掘出的假阳性文本高度相似。 虽然我们专注于互联网前20大语言,但数据处理流程中已移除语言过滤环节:这意味着所有语言的文本均可纳入硬负样本挖掘范围,并被纳入训练集。
我们主动学习方法的优势之一在于,它能根据模型准确率自动重新平衡语言分布。低资源语言在网络上本就代表性不足,但正因这种类别失衡,初始模型在低资源语言上的表现欠佳,反而促使更多罕见语言文本在硬负样本挖掘过程中被筛选出来。 在主动学习过程中,我们观察到英语、西班牙语和汉语等高资源语言的数据在训练集中的占比逐渐降低,而罕见语言的比例持续上升。我们认为这为多语言模型训练中固有的数据分布不平衡问题提供了一个相对优雅的解决方案。通过主动学习算法,模型能够自主筛选出需要重点学习的语言数据。
为更好地支持输入域中的多语言文本,我们还希望确保用于构建分类器的基础大型语言模型(LLM)能广泛流畅处理多种非英语语言。 我们对多个大型语言模型骨干架构和分词器在数据集上进行了全面测试,以寻找在广泛非英语语言场景中表现最优的组合。研究发现,多语言基准测试的性能表现与该骨干架构在AI检测任务中的实际效果之间并无显著相关性:换言之,即使基础模型能解决其他语言的推理任务并回答问题,其能力向多语言AI检测任务的迁移效果却存在极大差异。
我们还发现,最初训练的模型往往对新的多语言分布拟合不足——初期观察到较高的训练损失。为此,我们同时增加了基础模型规模和LoRA适配器的参数数量,并延长了训练步数。 (由于我们处于主动学习/高数据量模式,训练周期通常不超过1个 epoch。本次只需延长单 epoch 的训练时长即可!)
即使采用主动学习方法,非英语语言数据的多样性仍明显低于英语在线数据的多样性与规模,仅通过调整训练集的语言分布无法完全弥补这一差距。 简而言之,某些有价值的英语数据在其他语言中根本不存在或缺乏原生对应版本。因此我们决定对数据集的极小部分随机应用机器翻译增强技术(本案例中使用了亚马逊翻译服务)。
在训练大型语言模型时,通常不会对训练集应用机器翻译增强技术,因为机器翻译数据往往缺乏自然性且存在"翻译腔"问题。但在我们的案例中,由于并非训练生成式模型,这种增强技术似乎不会影响输出质量,且应用后我们观察到各项指标均有所提升。
我们以西班牙语为例,说明这种高资源语言此前虽受Pangram Text支持,但如今已得到显著改进。我们通过多个领域测算其误报率。
| 数据集 | 假阳性率(之前) | 假阳性率(之后) | 示例数量 |
|---|---|---|---|
| 西班牙亚马逊评论 | 0.09% | 0% | 20,000 |
| 维基语言(维基指南文章文本) | 3.17% | 0.14% | 113,000 |
| XL-SUM(西班牙语原文新闻报道) | 0.08% | 0% | 3,800 |
| 西班牙语维基百科 | 0.29% | 0.04% | 67,000 |
| 西班牙文化X | 0.22% | 0.01% | 1,800,000 |
| 我们手工精选的西班牙语博客文章 | 0% | 0% | 60 |
我们还测量了多种大型语言模型(LLM)的假阴性率(即AI生成的文本被错误归类为人类文本的比率)。在该实验中,我们设计了一系列提示语,要求LLM生成不同长度和风格的论文、博客文章及新闻稿,随后将这些提示语翻译成西班牙语。由于LLM本身具备多语言处理能力,它们能够直接响应西班牙语指令。
| 模型 | 假阴性率(之前) | 假阴性率(之后) | 示例数量 |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| 克劳德3.5十四行诗 | 0.7% | 0% | 1,400 |
| 克劳德第三号作品 | 1.05% | 0% | 1,400 |
| 双子座1.5专业版 | 2.85% | 0% | 1,400 |
如我们所见,更新后的模型在所有测试的大型语言模型中实现了完美检测,较之前版本有了显著提升。
我们最着力改进的两种语言在全球范围内使用广泛,但在互联网上却相对罕见——阿拉伯语和日语。
| 数据集 | 阿拉伯语假阳性率 | 日本假阳性率 | 阿拉伯语示例 | 日语示例 |
|---|---|---|---|---|
| 亚马逊评论 | 0% | 0% | 不适用 | 20,000 |
| AR-AES(阿拉伯语学生写作) | 0% | 不适用 | 2,000 | 不适用 |
| 维基语言(维基指南文章文本) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM(新闻文章以母语呈现) | 0% | 0% | 4,000 | 733 |
| 维基百科 | 0.09% | 0.009% | 31,000 | 96,000 |
| 文化X | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| 我们手工精选的博客文章 | 0% | 0% | 60 | 60 |
此前我们不支持这两种语言,因此误判率极高。如今我们已能可靠地准确预测人工智能生成的阿拉伯语和日语内容。
| 模型 | 阿拉伯语 FNR | 日本FNR |
|---|---|---|
| GPT-4o | 0% | 0% |
| 克劳德3.5十四行诗 | 0% | 0% |
| 克劳德第三号作品 | 0% | 0% |
| 双子座1.5专业版 | 0% | 0.21% |
如我们所见,更新后的模型在所有测试的大语言模型中实现了近乎完美的检测效果,无论是阿拉伯语还是日语均表现优异。其中Gemini 1.5 Pro在日语检测中仅出现0.21%的微小漏检率。
完整的语言基准测试结果可应要求提供。
虽然我们在原生网页文本上表现优异,但模型有时难以识别"翻译腔"——即翻译拙劣或语感生硬的文本。更棘手的是,如今许多人直接使用ChatGPT等大型语言模型进行翻译。那么由大型语言模型翻译的文本应归类为人类创作还是AI生成?这取决于翻译的生硬程度以及下游应用场景。 西班牙语教师可能将作业中使用机器翻译视为学术不端,但出版商或许希望允许译作通过其质量审核流程。Pangram正积极将翻译文本理解为介于人类与AI之间的"第三模态",并为用户提供更丰富的信息,以便下游应用者能根据自身需求作出判断。
还有更多疑问?请通过info@pangram.com 联系我们!