我们相信,即使面对像Claude Mythos Preview这样强大的前沿模型,AI检测技术仍将行之有效。
无论作者是人类还是大型语言模型(LLM),在撰写文本时都在做出决策。即便是在短短150个单词的篇幅内,作者也可能在词汇选择、词序安排、标点符号使用以及句子结构等方面做出数十万次有意识或无意识的决策。
从根本上说,AI检测本质上是一个作者识别问题。无论特定模型多么复杂,最终仍是由单一作者做出决策。这些决策也受到限制:辅助模型需要生成既有用、清晰又通俗易懂的文本。这些特性是通过监督微调和强化学习植入模型的。

即便是最先进的边界模型,本质上仍是一个单一的结构化系统,因此它必然存在可识别的习惯和特点。这些模型还会输出大量文本,这意味着我们有大量机会来了解它们倾向于做出何种决策。
人们有时会将这个问题描述为“人类写作与AI写作之间的统计距离正在缩小”。 这其实是对检测机制的误读。正如我们在《纽约时报》那篇广为流传的测验中所见,AI的写作水平已足够高,以至于未经训练的眼睛很难分辨出其与人类作品的区别。但模型生成的文本,就像任何单一作者的作品一样,在嵌入空间中总是会聚集成簇。正因如此,我们相信即使模型变得越来越强大,AI检测仍将持续有效。
结果看起来不错。当前的Pangram模型成功识别出了系统卡中发布的《Mythos Preview》短篇小说。
只要模型是经过训练的系统,我们相信检测问题依然是可以解决的。