宣布与Proofig建立全新合作伙伴关系!了解更多
Pangram Labs首席技术官Bradley Emi在ICAI会议上发表了关于人工智能检测现状的演讲。
学生们正在同时使用和滥用ChatGPT。大多数学生经常使用人工智能工具,并相信这些工具能提升他们的学习表现。即便存在明确禁止使用人工智能的政策,学生们仍可能继续使用这些工具。
与普遍认知相反:人工智能是可以被识别的。无论是人类还是经过充分训练的自动化软件,都能辨别其语言、风格和语义选择。
大型语言模型(LLMs)是通过海量数据学习的概率分布,它们并非人类写作的平均值。这源于模型训练的方式。
模型训练分为三个阶段:预训练、指令微调和对齐。
在预训练阶段,模型会分析大型数据集中的统计模式。训练数据集中的偏见会体现在这些统计模式中,例如网络上高频出现的数据往往被过度代表。 《卫报》文章中,亚历克斯·赫恩揭露了肯尼亚和尼日利亚工人如何被剥削以提供OpenAI的训练数据。这些工人常用的词汇如"delve"(深入探究)和"tapestry"(挂毯)恰恰是AI生成的文本中高频出现的词汇。
在指令调优过程中,模型被训练为响应提示。模型学会了遵循指令比提供准确正确的信息更为重要。即便实施了安全过滤机制,虚假信息仍困扰着人工智能写作——因为它始终试图取悦用户。
在对齐过程中,模型学会了区分对提示的良好响应与不良响应。偏好数据可能存在严重偏差,因为它基于训练者的观点,而非必然基于事实。
我们提供了一份人工智能写作中最常用的词汇和短语样本。这些词汇源于预训练阶段引入的偏见。
人工智能以高度结构化的语言和格式著称。由于对齐阶段的作用,过渡短语、项目符号列表和工整的写作在人工智能文本中极为常见。
人工智能生成的文本往往显得正式,因为网络上正式文本的占比过高,导致其在人工智能训练数据集中也呈现过度代表性。在对齐过程中,积极性和实用性得到了强化。
注:Pangram不会仅因文本包含常见的AI语言和格式就预测AI的使用。
我们研究了19种不同的文本人性化工具,并自主开发了一款。研究发现,AI人性化工具对原文含义的保留程度各不相同(从轻微修改到完全无法理解的文本)。部分工具虽能有效改写内容,却无法规避检测。文本人性化处理越流畅,其规避检测的可能性就越低。 文本人性化工具能够移除谷歌的SynthID水印(该水印用于标记Gemini生成的文本)。
第一代AI检测工具及其缺陷塑造了公众对AI检测的认知。这些工具依赖与AI使用的相关性而非因果信号,宣称99%的准确率,这显然不适用于学术研究。
新一代检测工具拥有>99.9%的准确率和极低的误报率(FPR)!它们还能有效应对改写者和人性化处理者。
然而,人工智能检测器并非千篇一律!由于训练方式的差异,其准确度存在不同程度的偏差。
Pangram、TurnItIn和Ghostbusters采用基于学习的检测技术。在基于学习的检测中,模型通过从大量样本中学习哪些内容是人工智能生成的、哪些不是来进行训练。而
在写作任务中使用过大型语言模型的专家,能以92%的准确率识别AI文本。而未接触过ChatGPT等工具的语言学家则无法达到同等准确度。人类检测者能详细说明其对文本预测的判断依据。尽管Pangram算法在准确率和误报率方面表现更优,但它无法对文本进行语境化分析。
在制定人工智能使用政策或标准时,必须确保沟通清晰明确。人工智能可用于撰写大纲、生成创意、修正语法错误、开展研究、起草文本或完成实质性写作任务。必须实施关于人工智能使用程度的许可与禁令的指导方针。
师生必须理解常见工具如何通过人工智能实现进化。Google Docs的"协助写作"功能由Gemini提供支持,Grammarly现已集成AI生成与改写功能,翻译工具可能运用大型语言模型运行。若在AI生成的研究或头脑风暴内容中直接摘录段落,同样会触发检测机制。
我们建议同时采用人工判断与自动检测相结合的方式。仅凭AI检测来评判学生作品极其不公平——毕竟其误报率高达0.01%。当检测结果呈阳性时,后续步骤应包括评估学生的写作过程,并将可疑文本与他们的历史作品进行比对。务必用少量文本对检测器进行测试,同时需考虑使用大型语言模型(LLM)完成作业时可能获得的结果。
若越来越明显地发现学生提交了由人工智能撰写的作业,这或许正是教育良机。关键在于以尊重的态度对待学生,避免过度惩罚。让学生补交作业并探讨使用人工智能的原因,可能对他们有所裨益。
有关本文的更多信息,请观看完整网络研讨会:https://www.pangram.com/resources/the-state-of-ai-detection-in-2025。