宣布与Proofig建立全新合作伙伴关系!了解更多
正如上周讨论的那样,人工智能倾向于过度使用某些词汇和短语。你可能随口就能说出几个:从"a testament to"到"delve"。当文本中出现足够多的这类短语时,往往能明确表明这是人工智能生成的内容,但这类短语数量庞大,任何个人都难以全部掌握。
为解决这一问题,我们近期推出了一款名为"AI短语"的工具,专门标注此类短语。在开发该工具的过程中,我们构建了包含最常用AI短语的大型数据集。本文将带您了解数据集中出现的常见AI短语,并探讨如何运用这些短语来提升您对AI生成文本的辨识能力。
我们不妨从最显而易见的现象说起:有时人工智能会主动告知用户它的身份!这种情况通常发生在拒绝请求时。当用户提出超出人工智能指令范围的问题时,它必须告知用户无法满足该请求,而在此过程中,模型往往会承认自己的身份。 许多AI拒绝声明都以"作为人工智能语言模型..."开头。由此可知,这类表述在AI文本中相当常见,而在人类文本中却极为罕见。数据印证了这一点!我们最常用的AI表述中,许多都具有自我指涉性。
| 短语 | 更常见的时期 |
|---|---|
| 作为人工智能语言模型, | 294,000x |
| 我没有个人 | 67,000x |
| 很遗憾,我没有足够的 | 54,000x |
| 语言模型,我无法 | 53,000x |
人工智能的产物包含了我们"最常滥用"的AI术语,但这些其实相当明显,因而也相当乏味。现在我们进入有趣的部分:那些在AI文本中确实过度出现的短语,却与"人工智能属性"毫无关联。以下是其中几个例子:
| 短语 | 更常见的时期 |
|---|---|
| 作为一种令人心酸的 | 49,000x |
| 作为一个强有力的提醒 | 43,000x |
| 永恒的提醒 | 31,000x |
| 面临诸多挑战 | 30,000x |
| 我们的研究结果为……提供了新的见解。 | 22,000x |
| 进入复杂的相互作用 | 21,000x |
| 作为一种强大的 | 10,000x |
| 提供有价值的见解 | 5,000x |
| 作为见证 | 4,000x |
| 新发现的人生目标 | 4,000x |
| 即使面对难以想象的 | 3,000x |
| 潜力的提醒 | 3,000x |
不难理解,为什么人工智能在文本中频繁使用"作为人工智能..."这类表述。但为何第二部分中看似无关的短语更常见?首先存在一种称为"模式坍缩"的现象——人工智能输出因过度依赖高概率词序列而变得过于泛泛或重复。模式坍缩...
此外,训练完成后通常会进行RLHF(基于人类反馈的强化学习)。在此过程中,人工标注员会根据多项属性对AI生成的文本进行评分,以鼓励某些模式并抑制其他模式。整个过程中,若某些答案或短语可能获得人工标注员的奖励,它们的出现频率就会逐渐增加。
因此,这些过度使用的短语可被视为特定模型、架构和训练过程的特征,而非人工智能写作本身的标志。马里兰大学的珍娜·罗素、玛泽娜·卡宾斯卡和莫希特·伊耶的研究表明,不同模型实际上偏好不同的短语:
过度使用
这表明,使用不同数据集和优化策略训练的模型,在短语重复方面会形成各自独特的倾向。
作为工作的一部分,我们的团队花费了无数时间阅读和分析人工智能生成的文本。自然而然地,我们对其中某些短语产生了亲近感:
以下是我们团队最爱的AI短语:
马克斯(首席执行官):“在不断演变的”(11,000倍)
布拉德利(首席技术官):“需要注意的是”(3,000倍)
卢(创始工程师):“复杂的本质”(6,000倍)
埃利亚斯(创始工程师):“生机盎然的锦绣画卷”(17,000倍)