关键要点:
- 大型语言模型(LLMs)展现出特定模式,使人工智能检测工具能够识别其内容是人类创作还是人工智能生成。
- 旧式检测器依赖突发性和困惑度,但这些指标并不可靠。新型检测器效果显著提升,其原理是基于更庞大的数据集和主动学习技术。
- 在选择检测工具时,用户应先确定自己能接受的误报率和漏报率范围。同时还需明确是否需要剽窃检测功能或其他附加功能,再进行工具筛选。
- 未经人工智能检测训练的人类对此并不擅长。然而,那些接受过相关训练或经常接触人工智能生成文本的人,比未经训练者更能准确识别人工智能内容。这种检测能力结合软件工具,可以发挥出非常好的效果。
什么是AI检测器?
人工智能可以被识别。这并非玄学,而是建立在大量研究基础之上的技术。 在人工智能生成内容日益渗透学术界、媒体和商业领域的时代,区分人类与机器创作文本的能力至关重要。人工智能在语言表达、文风风格和语义选择上的特征,都能被训练有素的审阅者或足够精良的自动检测软件识别出来。这是因为我们能够理解人工智能的表达逻辑,并掌握可用于识别的特定模式。
大型语言模型如何运作?
在探讨人工智能检测软件的工作原理之前,我们需要理解:人工智能模型本质上是概率分布。像ChatGPT这样的大型语言模型(LLM),正是这种概率分布的极端复杂版本——它持续预测序列中下一个最可能出现的单词或"标记"。这些概率分布是通过海量数据学习而成的,通常涵盖了公共互联网的相当大一部分内容。
常有人问:"人工智能语言模型是否等同于人类写作的平均水平?"答案显然是否定的。语言模型并非简单取人类表达的平均值。首先,它们会做出高度个性化的选择;其次,由于训练数据集及其创建者的偏见,这些模型本身也存在严重偏差。 最后,现代大型语言模型(LLMs)的优化目标是遵循指令并说出用户想听的内容,而非追求正确性或准确性——这种特性使其成为得力助手,却难以成为可靠的真理来源。
这是现代LLM培训流程的结果,该流程包含三个阶段:
- 预训练:在此训练阶段,模型学习语言的统计模式。训练数据中的偏见会体现在这些模式中。 例如,维基百科等高频互联网数据存在过度代表性,这导致AI生成的文本常带有正式的百科全书式语体。此外,廉价外包劳动力被用于创建训练数据,因此"深入探究"、"锦绣"、"精妙"等词汇在AI文本中频繁出现——这反映的是数据创建者的语言规范,而非终端用户的表达习惯。
- 指令调优:在此阶段,模型学会遵循指令并服从命令。 其结果是模型学会了遵循指令比提供准确正确的信息更为重要。这导致了阿谀奉承或"讨好型"行为——AI优先生成听起来有用且讨喜的回应,即使为此需要捏造事实或"产生幻觉"。对它们而言,取悦他人比获取正确信息更为重要。
- 对齐阶段:在此阶段,模型学会表达人们喜欢和偏好的内容,掌握何为"好"与"坏"的言论。然而这类偏好数据可能存在严重偏差,往往倾向于中性、安全且无冒犯性的回应。此过程可能剥夺模型的独特声音,使其回避争议或强烈观点。大型语言模型本身并不具备对真实或正确性的内在把握能力。
生成式人工智能模型是科技公司推出的产品,其输出结果中会刻意植入特定偏见和行为模式。
人工智能语言中存在哪些模式?
一旦理解了大型语言模型的训练机制,你就能识别出AI写作工具的"破绽"。通常并非某个关键证据,而是所有这些词汇的组合才会触发检测器。
语言与风格
- 词汇偏好:人工智能内容生成器存在特定词汇倾向,例如:方面、挑战、深入、增强、图景、见证、真实、全面、关键、重要、变革性,以及副词如此外、 更何况等。这种现象源于预训练数据集的偏见。频繁使用此类词汇会形成过度正式或夸张的语气,在普通学生论文或非正式交流语境中常显格格不入。
- 措辞模式:AI写作常使用诸如"当我们[动词]该主题时"、"值得注意的是"、"不仅...而且..."、"为...铺平道路 "以及"说到..."等措辞模式。这些短语虽符合语法规范,却常被用作对话填充词,使文章显得千篇一律且公式化。
- 拼写与语法:人工智能写作通常采用完美的拼写和语法,且倾向于使用复杂句式。人类写作则混合运用简单句与复杂句,即便是专家级作家有时也会出于风格考量而使用不符合"教科书标准"的语法模式,例如为强调效果而使用残缺句。
结构与组织
- 段落与句式结构:人工智能写作通常倾向于使用高度规整的段落,这些段落长度基本一致,且多采用列表式结构。这可能导致节奏单调乏味,缺乏人类写作的自然变化。这种特点同样适用于句子长度。
- 引言与结论:人工智能生成的论文通常拥有非常工整的引言和结论,其中结论部分往往篇幅冗长,常以"总体而言"或"综上所述"开头,并重复大部分已写内容——本质上只是对论点和要点进行改写,未增添新的见解或综合分析。
目的与个性
- 目的与意图:文本内容通常含糊其辞且充斥泛泛之论。这种现象源于指令微调过度强调提示词遵循度——为确保话题一致性,模型学会了采用高度模糊的通用表述来规避错误风险。
- 反思与元认知:人工智能在反思和将写作与个人经历联系起来方面表现极差……因为它根本没有可供联想的个人经历!人类写作能展现作者独特的声线与个人体验,建立关联并产生新颖创意,而非简单地混搭现有信息。
- 风格与语调的突兀转变:有时会出现令人不适的突兀语调与风格转变。这种情况通常发生在学生部分写作借助AI辅助,但未完全依赖AI时,最终形成前后不一、支离破碎的成品。
人工智能检测如何运作:三个步骤
- 训练AI检测模型:首先对模型进行训练。早期AI检测器效果不佳,因为它们试图检测具有高困惑度或高突发性的文本片段。 困惑度衡量的是文本中每个词对大型语言模型的意外性或突发性。突发性则指文档中困惑度的变化趋势。然而这种方法存在多重缺陷,常 无法识别AI生成的内容。它们仅使用有限的文本数据集进行训练。而像Pangram这类现代成功模型,则采用更广泛的数据集,并运用主动学习等技术来提升检测精度。
- 输入需要分类的文本并进行分词:用户提供输入内容。当分类器接收输入文本时,会将其进行分词处理。这意味着它将整个文本分解为一系列数字,以便模型能够理解。随后模型将每个词元转换为嵌入向量——即代表每个词元含义的数字向量。
- 将标记分类为人类或 AI:输入通过神经网络处理,产生输出嵌入向量。分类器头将输出嵌入向量转换为0或1的预测值,其中0表示人类标签,1表示AI标签。
那么假阳性与假阴性呢?
人工智能检测工具的价值取决于其产生的误报率(FPR)和漏报率(NPR) 。误报是指检测器错误地将人类撰写的文本样本判定为AI生成;而漏报则是指将AI生成的文本样本错误判定为人类撰写的文本。
人工检测与自动化检测
若仅凭肉眼识别AI,必须经过专业训练。非专家的识别效果不会优于随机猜测。即使是资深语言学家,若未经明确训练也难以识别AI。我们建议结合两种方法以获得最佳效果,从而构建更稳健且公平的评估流程。
人工智能内容检测器只能判断某内容是否由AI工具生成。而人类不仅能识别AI生成内容,还能为判断提供额外的背景信息与细微差别。人类了解具体语境:包括学生以往的写作样本、不同年级的写作水平特征,以及学生对典型作业的应答模式。这种背景认知至关重要,因为AI工具的适用性会因作业要求而产生巨大差异。
人工智能检测工具只是起点。它并非学生违反学术诚信的决定性证据,而只是需要进一步情境调查的初步数据点。人工智能的使用可能是无意的、偶然的,甚至在特定作业范围内是被允许的——这要视具体情况而定!
额外奖励:那人化者呢?!
人性化工具用于将 AI生成的内容"人性化"处理,以规避AI检测。内容撰写者常借助这些工具改变AI文本的呈现方式。 人性化工具通过改写文本、删除特定词汇并添加类人"错误"来处理内容。有时会导致文本基本无法阅读或质量大幅下降。许多AI检测器会训练其软件识别人性化文本。使用这类工具存在风险,因其可能显著降低文本质量,这对学生作业尤为不利。
既然你已经了解它们的工作原理,不妨尝试创作自己的内容。这是人工智能还是人类创作?