宣布与Proofig建立全新合作伙伴关系!了解更多

泛语句能多好地检测推理模型?

布拉德利·艾米
2025年7月16日

2025年大型语言模型最重要的突破之一,是推理模型的崛起。这些模型通俗而言,已学会在表达前进行思考。

什么是推理模型?

推理模型与普通大型语言模型(LLM)本质相同,但除生成输出令牌外,这些模型还经过训练可生成思考令牌或推理令牌。在思考阶段,模型会尝试通过推理处理复杂任务,在给出答案前会尝试不同方法并自我质疑。实践中,这类模型在解决问题方面表现卓越,尤其在数学和编程领域,其基准测试得分远超其能力范围。

推理模型如何运作?

推理模型在发言前会执行所谓的"思维链"。以下是Deepseek-R1的示例,该模型是目前唯一公开展示其"思维过程"的推理模型。

Deepseek R1 思维链示例

在这个示例中,Deepseek会在开始输出令牌之前先思考用户的需求,从而更有效地进行逻辑组织,并推敲出最佳的可能输出结果。

最常见的推理模型有哪些?

多家供应商已开发出达到顶尖水平的推理模型。

OpenAI

OpenAI的推理模型系列被称为 O系列。当前可用的模型包括o1、o1-mini、o3、o3-pro和o4-mini。其中o3-pro是性能最强大的模型。

人择的

Anthropic为最新版本的Claude添加了推理能力。Claude 4 Opus和Claude 4 Sonnet均具备"扩展思考"模式,使其能在回答问题前进行推理。

双子座

谷歌Gemini 2.5系列模型现已采用内部思考机制,同时具备推理能力。Gemini 2.5 Pro、Gemini 2.5 Flash及Gemini 2.5 Flash-Lite均拥有思考能力。

深寻

Deepseek R1是由中国公司Deepseek发布的首个开源推理模型。与其他商业闭源模型不同,在Deepseek中,用户不仅能看到最终输出结果,还能直观了解模型的推理过程。

Qwen

此外,另一家中国公司Qwen发布了一款名为Qwen-QWQ-32B的推理模型。该模型体积更小,可部署于比Deepseek R1更广泛的场景中。

在这些推理模型中,Pangram的表现如何?

我们最近发布了Pangram AI检测模型的更新版本,全面提升了推理模型的检测性能。

模型全字母句(旧版)Pangram(七月发布)
OpenAI o199.86%100%
OpenAI o1-mini100%100%
OpenAI o393.4%99.86%
OpenAI o3-pro93.9%99.97%
OpenAI o3-mini100%100%
OpenAI o4-mini99.64%99.91%
双子座2.5专业版思维99.72%99.91%
克劳德·作品499.89%99.94%
克劳德十四行诗499.89%99.91%
深探-R1100%100%
Qwen-QWQ-32b100%100%

o3和o3-pro的性能提升最为显著。我们发现o3和o3-pro与OpenAI此前发布的模型存在显著差异,旧版AI检测模型对其通用性较差——初次测试时其召回率仅为93%。

解决o3和o3-pro

我们面临的另一个问题是,o3和o3-pro的成本远高于其前代产品,这意味着我们无法像处理其他模型那样大规模地从它们生成数据。更复杂的是,这些模型运行耗时更长——因为它们在生成输出令牌前需要花费大量时间进行推理。

我们重新生成训练集数据时,加入了少量o3和o3-pro数据。在7月发布的最终训练集中,o3文本仅占训练数据组合的0.17%,o3-pro文本占比也仅为0.35%。 为平衡数据结构并提升泛化能力,我们同时将o3-mini文本占比提升至训练数据的5%。令人惊喜的是,这一调整成效显著!仅通过微调训练集,我们成功使o3和o3 pro的召回率达到其他评估大型语言模型的水平,且无需牺牲任何假阳性率。

Pangram 是一种少样本学习器

Pangram的这种行为特征——即能够仅凭少量来自新型LLM的数据样本进行训练,而这些新模型在质上与前代存在差异——使其成为我们所称的"少样本学习者"。 这种特性具有深远意义:当新型LLM发布时,甚至当基于微调LLM的新产品问世时(这些产品底层可能采用具有不同写作风格的模型),Pangram都能快速且低成本地适应它们,无需重新生成海量数据集。

许多人问我们为何相信能在这场终究是"猫捉老鼠"的游戏中取胜。因为Pangram是少样本学习者,追赶新型大型语言模型远非表面看起来那么困难——我们只需向Pangram展示少量示例,它就能高效地概括并掌握模式规律。 通俗来说,Pangram之所以能高效"学习如何学习"新型LLM的特征,正是因为它在过往训练中接触过海量LLM模型。

这点加上每个大型语言模型都具有独特而特立独行的风格,实际上让Pangram更容易适应新发布的大型语言模型——即便这些模型在不断进步并变得更加强大。我们认为,大型语言模型的能力与其可检测性是相互独立的。

临别感言:O3与O3-Pro有何不同?

我们从人工智能圈内多位人士处获悉,o3和o3-pro确实与以往见过的其他大型语言模型(LLM)有着截然不同的特质。 根据我们的实践,这是自Claude 2以来,Pangram首次无法以99%以上可靠性实现零样本训练(即无需接触模型数据即可准确预测)。虽然难以精准定位差异根源,但我们整理了若干假设,试图解释其独特性的可能成因。

  • o3和o3-pro在工具使用方面过度优化。 我们知道Pangram主要通过检测AI在训练后引入的行为特征和独特性来识别生成内容。OpenAI在发布博文中指出,o3和o3-pro与前代模型的区别在于:它们在训练后阶段采用了强化学习机制来掌握工具使用能力。这种训练后算法的差异,可能也从根本上改变了模型的输出风格。

  • o3和o3-pro更易产生幻觉。据内森·兰伯特指出,o3在代码中植入了无效的非ASCII字符,并在尝试解决任务时产生了幻觉行为——例如幻想自己在完全虚构的Macbook Pro上运行计时代码。METR的独立评估发现,o3存在"篡改分数"的倾向,而非真正解决代理任务。

有关 o3 和 o3-pro 的更多信息,我们建议您阅读Nathan 的博客文章Dan Shipper 的《氛围检测》以及OpenAI 的发布博客文章

结论

Pangram在推理模型方面的能力与其他大型语言模型(LLMs)同样强大,但o3和o3-pro在写作风格和语调上似乎与前代模型有所不同。在提升Pangram对o3和o3-pro的性能过程中,我们意识到:由于Pangram是极强的少样本学习者,当这些模型发布时,我们实际需要的训练样本量可能远低于预期。

我们正在考虑调整训练架构和流程,这将使Pangram的更新速度更快、操作更便捷,并让我们能够更快地推出能检测最新大型语言模型的AI检测模型。敬请期待更多更新!

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。