声明:在编辑过程中,我们使用了人工智能语言模型来起草技术描述,并就结构和行文提出改进建议。文章的最终版本采纳了其中若干建议。
我读过数量惊人的小说,尤其是科幻小说。此外,为了我的软件工程工作,我还会使用每一款新发布的旗舰级AI模型。
这两段经历让我产生了一种挥之不去的感觉:与高水平的人类作家相比,人工智能的“语气”竟是如此惊人地千篇一律。
任何热爱文学的人都会明白我的意思。我读过大约五千位不同作家的作品,但我真心认为,即使你只读过六七位作家的作品,也会发现每位作家都有自己独特的风格。
与人类作家独具特色的文风相比,人工智能生成的文字听起来却异常千篇一律。原来这背后有充分的理由,而且与信息论密切相关。
独特的作者“风格”并非随机形成,也非平庸之作。它是一种特定的概率分布——我们姑且称之为 P_author。当作者写作时,他们是在一个极具个人特色的生成过程中进行采样。他们在概念的运用、行文节奏、词汇选择以及其他风格手法的运用上,都遵循着特定的条件概率。
让一种文风具有辨识度的,是作者始终如一地做出的那些低频但影响深远的选择(即分布曲线的长尾部分)。如果我说“特德·姜”,你立刻会想到他的句子在句法上多么朴素,但在语义上却多么凝练(这是我欣赏的风格,但正如这个括号里的内容所示,我无法模仿)。 如果我说“厄休拉·K·勒古恩”,你会想到她笔下文字既清晰扎实,又充满诗意——我其实很难准确描述她的风格,但勒古恩的读者们都明白我的意思。
归根结底,我想表达的是:衡量一段文本听起来有多“像AI”的正确方法,并非检查它是否具有普遍的可预测性——毕竟大多数优秀的写作在某种程度上都是可预测的——而是测量模型输出分布与特定作者分布之间的KL散度:D_KL(P_author || Q_model)。 对于不熟悉KL散度的读者,它衡量的是模型分布在多大程度上未能覆盖作者的选择(具体来说,它是衡量使用针对Q优化的编码对P中的样本进行编码时,所产生的预期额外信息成本)。当这种散度较大且具有结构特征时,你便能听出一种“声音”。
在预训练阶段,大型语言模型会生成一张反映人类文本泛化分布的地图。这一基础分布 Q_base 的范围极其广泛。在其潜空间中,它具备近似几乎任何 P_author 的能力。
我所提到的这个陷阱源于模型的对齐问题。为了使模型既安全又实用,研究实验室采用了“基于人类反馈的强化学习”(RLHF)等技术。具体实现方式虽有差异,但核心在于:模型经过优化,能够生成在基于人类(或人工智能)偏好的奖励信号下得分较高的输出结果。
这并不会使模型趋向于英语的统计平均值。它会使模型趋向于一种具有不同概率分布的模式——我们将其称为“标注者共识方言”。
实现这一结果的机制如下:当评委(无论是受雇评估成果的零工、专家还是其他人)对成果进行评估时,个性鲜明的写作风格会导致评分出现较大波动。 我的写作风格可能被一位评分员评为5分(满分5分),却被另一位评为2分。但一篇枯燥、对称且充满保留措辞的回答,却可能获得全员一致的4分。优化算法决定了,降低评分差异是最大化预期回报的最稳妥方式。这在对话中,就相当于酒店大堂的装饰风格。
你可能会说:“乔,这种说法不公平!新的对齐技术正是为了保留多样性而专门设计的!”虽然这话没错,但这些新方法仍然以某种“首选”输出为优化目标,这依然意味着,相比安全且广受认可的行文,那些变异性高、敢于冒险的表达仍会受到惩罚。
这是一个可验证的论断(我尚未进行验证,但它是可验证的)。如果你测量对齐后的模型输出与某语料库(例如企业公文与文学小说)之间的KL散度,我的预测是:模型的分布将更接近企业公文的中心。据我所知,目前尚无人发表过这一确切的测量结果,但优化数学理论对此给出了强有力的预测。
我知道你在想什么:是啊,但你可以通过提示让模型摆脱这种语体。比如“用1920年代硬汉派侦探小说的风格来写”之类的(我内心的一部分确实想看看,如果让模型把这篇文章改写成卢佩·菲亚斯科的歌词,会是什么样子)。这样生成的文本确实与“标注者共识语体”不同,但读起来依然让人觉得可疑地千篇一律。
这是因为,移动分布的均值与再现其方差结构之间存在数学上的差异。
当你要求一个模型模仿某位作者时,它的重心就会发生偏移。它会计算目标对象在词汇、句式结构及其他风格特征上的统计平均值,并向该位置移动。但它会将我们之前讨论过的“方差压缩”机制应用到这个新位置上。
人类的写作风格依赖于有结构的随机性。作者通常拥有一个基础节奏,但会通过刻意打破这种节奏来营造效果,例如突然写出一个残句、使用一个不符合其写作风格的动词,或是为了增强情感效果而让句子变得错综复杂。计算风格计量学拥有衡量这种特性的工具:对句子长度时间序列进行赫斯特指数分析,可以揭示人类写作中存在而人工智能文本所缺乏的长程依赖关系。人类作者调节词汇多样性的方式,是模型无法做到的。
总之,当你要求以特定风格写作时,模型虽然捕捉到了目标风格的特征,却会抹平其中的所有突变。它生成的结果其实是你所要求内容的夸张版本。
如果人工智能的分布范围太窄,为什么我们不能直接将其扩大呢?
最常见的方法是温度缩放。当你提高温度 T 时,在计算概率之前,会将模型的原始对数 odds 除以 T,这会使整个分布趋于平坦,并迫使模型选择概率较低的词汇。但这种做法是盲目的。人类作者的独特性具有很强的条件性。人类打破规则的方式非常具体且一致,而温度缩放只是引入了随机噪声。
希望这一点不言自明——归根结底,提高温度只会让你从“可疑的平滑”过渡到“可疑的随机”,而完全不会经过“人类”这一阶段。
我知道还有更复杂的解码策略。Top-p(核心)采样、Top-k 过滤、重复惩罚以及无分类器引导等方法,都试图实现更有针对性的权重重新分配。这些方法确实能在一定程度上起到作用,但它们都未能解决一个根本问题:这些都是在推理时对模型进行的干预,而该模型的整体运行理念(如果可以这么称呼的话)是在对齐阶段就已确立的。
此外,还有一点细微差别,最近有位朋友向我指出了这一点:对齐并不会抹去基础模型在风格多样性方面的潜在能力。只要权重足够多,预训练权重仍然编码了 Q_base 的大部分丰富性。 目前正涌现出一些推理时引导技术,例如表征工程(Representation Engineering),它们可以通过深入底层潜空间来部分恢复被抑制的变异性。不过这些仍属于研究领域,尚未在公开的AI产品中实现。
同样,长上下文的上下文学习也能取得略微更好的效果,但当上下文规模足够大时,注意力机制的效果会减弱(而且随着上下文规模的增大,结果将逐渐回归到均匀分布)。
这里的主要启示是,RLHF相关技术中的设计选择将迫使这些AI“声音”在远超人们愿意承认的时间内仍可被识别。
此外,将作者的文风视为一种特定的高维概率分布来思考也是很有帮助的,我建议你在下次阅读自己喜欢的作家作品时,试着自己找出其中的KL散度。作者的独特风格究竟源自何处? 这是一个有趣的练习,或许能增加你阅读文本时的乐趣;而在当前大语言模型(LLM)导致技能退化的时代,这种通过实践和内化新知识的艰难过程,正是值得去经历的。

乔·斯特奇(Joe Stech)是年度选集系列《Think Weirder:年度最佳科幻创意》的编辑。他同时担任Arm公司开发者和平台赋能部门的首席解决方案架构师。本文观点仅代表其个人立场。