宣布与Proofig建立全新合作伙伴关系!了解更多

Pangram是检测ChatGPT、Claude、Gemini等AI生成的文本并区分AI文本与人类文本的领先软件。
我们现正更进一步,推出一款高级模型,该模型不仅能检测AI生成的内容,还能识别特定AI文本源自何种大型语言模型。这项新技术被命名为"AI识别"。
人们开始直观地意识到,不同的语言模型具有不同的写作风格。例如,ChatGPT以直截了当著称,Claude则以行文流畅、对话感强见长,Grok以无拘无束、富有挑衅性著称,而Deepseek-R1则逐渐以絮絮叨叨、冗长繁琐的特点为人所知。
格雷厄姆·纽比格调侃了不同大型语言模型(LLMs)的风格倾向
伊桑·莫利克沉思着克劳德·索内特那讨人喜欢的性格。
加州大学伯克利分校的丽莎·邓拉普及其合作者近期开展的研究,深入探究了不同大型语言模型(LLM)的质性差异(或非正式地称为"氛围")。他们发现了诸多有趣现象,例如"Llama比GPT和Claude更具幽默感,运用更多格式排版,提供更多示例,且在伦理问题上发表的评论少得多"。 这表明模型性能未必符合人类偏好:尽管GPT-4和Claude-3.5比Llama系列更先进,但在Chatbot Arena(基于用户对相同提示的回答偏好,采用众包Elo评级的LLM排名平台)上,Llama始终表现得超出其能力范围。 在Chatbot Arena表现优异的模型究竟更聪明更强大,还是仅仅通过迎合人类心理变得更"讨喜"?当某些模型比其他模型更实用更讨喜时,它们在解决博士级推理问题上的能力不足是否重要?这些值得研究的问题,对于理解Chatbot Arena等系统相较传统模型评估的实用价值至关重要。
我们在Pangram团队中思考:我们的模型是否能够利用这些特征来识别并区分这些大型语言模型?
与训练基础AI检测模型区分AI写作与人类文本类似,我们还通过多任务学习技术训练同一检测模型来识别AI。实践中,我们将各类语言模型划分为9个家族,该分类体系是通过大量实验确定的。
这些家族如下:
我们在实践中实现这一目标的方式是为神经网络添加另一个"头部"。当监督AI检测任务时,我们同时监督AI识别任务——通过将模型标签传递给网络,并对AI识别的误差以及检测预测结果进行反向传播。
图片来源:GeeksForGeeks
模型中的几乎所有层都在两个任务间共享,仅最终的预测层被分开。
在多任务学习中,我们发现某些任务共同学习时能相互促进,而另一些任务则会相互干扰。 在生物学中,类似的概念是共生与寄生关系。例如,生活在海葵中的小丑鱼就是共生的典范:小丑鱼以可能危害海葵的天敌为食,同时通过伪装藏身于海葵内部,得以躲避自身的天敌。
我们发现,添加大型语言模型(LLM)识别任务与检测任务具有协同效应。换言之,要求模型不仅能检测AI生成的文本,还能识别其来源模型,总体上有助于提升AI检测能力。其他研究者也证实,各类大型语言模型不仅能与人类文本区分开来,彼此之间也具有可辨识性。

嵌入是一种将文本片段表示为数值向量的技术。嵌入的实际数值单独看并无意义,但当两个嵌入值相邻时,意味着它们要么具有相似的含义,要么具有相似的风格。通过一种名为UMAP的技术,我们可以将这些高维嵌入在二维空间中可视化呈现。 研究者发现,当人类撰写的文档与大型语言模型生成的文本转换为风格嵌入时(如上图所示),所有来自同一模型的文档在嵌入空间中均呈现可分离性!这意味着总体而言,同一模型生成的文本在风格上比不同模型之间,或模型与人类文本之间的差异更为接近。
这一结果使我们确信,能够识别源语言模型(LLM)的分类器是可行的。
我们的模型在识别AI生成文本所属的大型语言模型(LLM)家族时,准确率达93%。 下图为混淆矩阵,展示模型正确识别各LLM家族的频率(对角线单元格)与混淆不同LLM的频率(非对角线单元格)。颜色越深表示该单元格包含的预测结果越多。完美模型仅在对角线上呈现深色方块,其余区域均为白色方块。

关于我们的混淆矩阵,有几点有趣的观察:
模型家族之间的混淆现象更为常见。例如,GPT-4常被误认为是OpenAI推理系列模型。这种混淆合乎情理,因为GPT-4很可能正是OpenAI推理模型的组成部分或开发起点!
该模型将大型语言模型(LLMs)归类为"其他"的频率高于归类为特定大型语言模型的频率。这表明当模型无法确定时,它更倾向于默认选择"其他"而非指定某个特定的大型语言模型。
尽管大型语言模型分类器并非完美,但其准确率通常较高。最重要的是,当该分类器出现错误时,它只会将某些人工智能系统与其他人工智能系统混淆,却不会将人工智能系统的输出结果与真实人类写作混为一谈。
我们认为有必要超越AI检测,同时解决AI识别问题,原因如下:
首先,我们认为让模型学会区分不同大型语言模型的写作风格——这比单纯识别文本是否由AI生成更为困难——有助于提升AI检测器本身的性能。通过要求模型超越基础任务,它在某种程度上获得了高级技能和潜在知识,从而能够更准确地泛化检测AI生成的文本。
可解释性是我们希望展示大型语言模型分类器结果的另一原因。我们希望建立信心,确保模型在底层确实理解其运作机制,而非仅凭随机猜测(如同许多其他随机检测器)。通过不仅展示AI评分,还揭示文本源自何种大型语言模型,我们期望增强人们对模型理解AI写作风格细微差别能力的信心。
最后,我们希望探索随时间变化的模式:哪些大型语言模型正在实际应用中被使用,使用频率如何?学生、欺诈者和程序员各自偏好的大型语言模型有哪些?这些正是我们期待在未来研究中解答的问题。
我们希望您能享受尝试我们的人工智能识别功能,并相信它能帮助人们理解不同大型语言模型家族与生俱来的个性与风格。如需更多信息,请联系info@pangram.com!