宣布与Proofig建立全新合作伙伴关系!了解更多

全字母文本AI检测器现已支持多语言!

布拉德利·艾米
2024年7月1日

摄影:瓦伦丁·安东努奇。

我们激动地宣布,旗舰AI检测模型Pangram Text迎来重大更新。该模型现已支持检测西班牙语、法语、意大利语、葡萄牙语、德语、俄语及汉语的AI生成文本,其检测准确度与英文文本检测保持同等行业领先水平。我们正立即推出全新多语言模型,为在线平台提供AI垃圾信息防护。

基准测试

为验证模型在非英语语言中的准确性,我们采用了来自不同领域的三组大型多元语言语料库:亚马逊多语言评论、维基百科以及XLSum(BBC国际新闻)。

在人类标注部分,我们从通过合理性检查过滤器的文档中随机抽样。在AI标注部分,我们混合使用GPT-3.5、GPT-4和GPT-4o模型。首先要求大型语言模型对真实文档进行摘要处理,例如"这篇评论讨论什么内容?";随后根据摘要要求其生成评论、文章或新闻稿。 通过这种方式生成基准测试数据,既消除了标签噪声的可能性,又确保了人类数据与AI数据的分布尽可能接近。

语言亚马逊评论准确性维基百科的准确性XLSum(BBC新闻)准确性
西班牙语99.59%99.75%99.75%
法语98.84%99.33%98.50%
意大利语不适用99.82%不适用
德语99.44%99.95%不适用
葡萄牙语不适用99.83%99.70%
俄罗斯不适用98.34%99.35%
中文99.70%99.54%98.10%

常见问题解答

  • 您是如何更新模型以支持这些语言的?

由于我们的模型基于与现代大型语言模型相似的架构,我们采用大规模预训练确保其骨干网络在多语言语料库上充分训练,随后再进行AI检测头部模型的微调。同时,我们使用的分词器支持包括俄语和中文在内的多种语言。

  • 你为什么选择这些特定的语言?

我们选择了代表互联网上使用语言绝大多数的语言。

  • 如果我提交了不支持的语言的文本会怎样?

我们使用Amazon Comprehend来检测输入文本的语言。如果该语言不受支持,则将返回"不受支持的语言"作为预测结果。

  • 该模型会随着时间推移而改进吗?

是的,随着我们通过主动学习持续扩展多语言数据集,未来版本将针对非英语语言提供性能优化。

  • 其他语言呢?

我们计划在未来支持更多语言。如果您希望看到某种语言被支持,请随时告知我们!

如需了解多语言AI检测的更多信息,请通过info@pangram.com联系我们。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。