宣布与Proofig建立全新合作伙伴关系!了解更多

穿行于人工智能领域最滥用的术语

埃利亚斯·马斯鲁尔
2025年2月21日

正如上周讨论的那样,人工智能倾向于过度使用某些词汇和短语。你可能随口就能说出几个:从"a testament to"到"delve"。当文本中出现足够多的这类短语时,往往能明确表明这是人工智能生成的内容,但这类短语数量庞大,任何个人都难以全部掌握。

为解决这一问题,我们近期推出了一款名为"AI短语"的工具,专门标注此类短语。在开发该工具的过程中,我们构建了包含最常用AI短语的大型数据集。本文将带您了解数据集中出现的常见AI短语,并探讨如何运用这些短语来提升您对AI生成文本的辨识能力。

第一部分:人工智能艺术品

我们不妨从最显而易见的现象说起:有时人工智能会主动告知用户它的身份!这种情况通常发生在拒绝请求时。当用户提出超出人工智能指令范围的问题时,它必须告知用户无法满足该请求,而在此过程中,模型往往会承认自己的身份。 许多AI拒绝声明都以"作为人工智能语言模型..."开头。由此可知,这类表述在AI文本中相当常见,而在人类文本中却极为罕见。数据印证了这一点!我们最常用的AI表述中,许多都具有自我指涉性。

短语更常见的时期
作为人工智能语言模型,294,000x
我没有个人67,000x
很遗憾,我没有足够的54,000x
语言模型,我无法53,000x

第二部分:过度使用的短语

人工智能的产物包含了我们"最常滥用"的AI术语,但这些其实相当明显,因而也相当乏味。现在我们进入有趣的部分:那些在AI文本中确实过度出现的短语,却与"人工智能属性"毫无关联。以下是其中几个例子:

短语更常见的时期
作为一种令人心酸的49,000x
作为一个强有力的提醒43,000x
永恒的提醒31,000x
面临诸多挑战30,000x
我们的研究结果为……提供了新的见解。22,000x
进入复杂的相互作用21,000x
作为一种强大的10,000x
提供有价值的见解5,000x
作为见证4,000x
新发现的人生目标4,000x
即使面对难以想象的3,000x
潜力的提醒3,000x

第三部分:人工智能为何过度使用短语?

不难理解,为什么人工智能在文本中频繁使用"作为人工智能..."这类表述。但为何第二部分中看似无关的短语更常见?首先存在一种称为"模式坍缩"的现象——人工智能输出因过度依赖高概率词序列而变得过于泛泛或重复。模式坍缩...

此外,训练完成后通常会进行RLHF(基于人类反馈的强化学习)。在此过程中,人工标注员会根据多项属性对AI生成的文本进行评分,以鼓励某些模式并抑制其他模式。整个过程中,若某些答案或短语可能获得人工标注员的奖励,它们的出现频率就会逐渐增加。

因此,这些过度使用的短语可被视为特定模型、架构和训练过程的特征,而非人工智能写作本身的标志。马里兰大学的珍娜·罗素、玛泽娜·卡宾斯卡和莫希特·伊耶的研究表明,不同模型实际上偏好不同的短语:

过度使用

这表明,使用不同数据集和优化策略训练的模型,在短语重复方面会形成各自独特的倾向。

额外福利:我们团队最爱的N-gram

作为工作的一部分,我们的团队花费了无数时间阅读和分析人工智能生成的文本。自然而然地,我们对其中某些短语产生了亲近感:

以下是我们团队最爱的AI短语:

  • 马克斯(首席执行官):“在不断演变的”(11,000倍)

  • 布拉德利(首席技术官):“需要注意的是”(3,000倍)

  • 卢(创始工程师):“复杂的本质”(6,000倍)

  • 埃利亚斯(创始工程师):“生机盎然的锦绣画卷”(17,000倍)

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。