宣布与Proofig建立全新合作伙伴关系!了解更多
今日,Meta AI 旗下开源模型系列的最新成员 Llama 4 正式发布。我们想验证 Pangram 是否仍能识别最新最强的开源模型,因此进行了一项快速测试:尽管当前模型仅基于 Llama 2 和 Llama 3 的输出数据进行训练,但它能否对 Llama 4 展现出泛化能力。
我们常被问及能否跟上新机型的更新速度,因此我们会在首日就迅速进行测试——趁着还没来得及重新训练的时候。
在本次抽查中,我们采用了与测试GPT 4.5相同的11个提示词。这些提示词涵盖多种日常写作任务,但与模型训练时使用的提示词并无直接关联。它们同时要求具备一定程度的创造力——我们认为,若模型相较于前代大型语言模型取得实质性进步,其表现应呈现质的飞跃。
以下是我们使用的提示:
| 提示 | 全字母AI概率 |
|---|---|
| 考拉保护 | 99.9% |
| 报纸电子邮件 | 99.9% |
| 室温半导体 | 99.9% |
| 校服 | 99.9% |
| 诗歌日记 | 99.9% |
| 密室逃脱评测 | 99.9% |
| 俄罗斯电影电子邮件 | 99.9% |
| 火星着陆场景 | 99.9% |
| 科莫多巨蜥脚本 | 99.9% |
| 万圣节分手诗 | 99.9% |
| 威尼斯追逐场景 | 99.9% |
在此案例中,Pangram以满分通过测试!它不仅能将全部11篇写作样本准确识别为AI生成内容,更以100%的置信度完成预测。(尽管模型预测结果为100%,我们在用户界面始终将数值向下取整至99.9%,以表明我们永远无法真正达到100%的确定性。)
您可以在这里查看完整的输出结果。
我们利用标准评估提示方案创建了包含约7,000个示例的更大规模测试集,通过Together API进行推理,涵盖了学术写作、创意写作、问答、科学写作等广泛领域。
以下是我们在大规模测试集上的结果。
| 模型 | 准确性 |
|---|---|
| 羊驼4侦察兵 | 100% (3678/3678) |
| Llama 4 游侠 | 99.86% (3656/3661) |
| Llama 4 整体 | 99.93%(7334/7339) |
为什么Pangram能如此出色地泛化到新模型?我们认为这得益于其底层数据集的强大性、主动学习方法,以及广泛的提示与采样策略——正是这些特性使Pangram得以接触大量AI生成的文本类型,从而能够很好地适应新型文本。
如需了解更多关于我们研究的信息,或获取免费积分在Llama 4上试用我们的模型,请通过info@pangram.com联系我们。