宣布与Proofig建立全新合作伙伴关系!了解更多

人工智能会议论文正越来越多地由人工智能撰写:自2023年以来增长了370%

布拉德利·艾米
2024年9月30日

一张图表显示了每年提交至ICLR会议的人工智能生成的摘要所占比例,自2023年以来呈现上升趋势。

2024年2月,《细胞与发育生物学前沿》期刊发表的一篇论文中出现了明显由人工智能生成的插图。该论文引发轰动,因其中一张插图描绘了一只睾丸异常巨大的大鼠,配以毫无意义的乱码文字。

虽然同行评审(理论上)应该足以发现此类明显问题,但当论文内容本身由人工智能生成时又该如何?即便是专家也难以区分人工智能生成的研究与人类撰写的研究。

《自然》杂志近期的一篇报道凸显了学术界对人工智能生成内容日益增长的担忧。该文探讨了一项研究:计算机科学家利用最新大型语言模型之一Claude 3.5生成研究构想并撰写论文,随后将这些论文提交给科学评审员。评审员们根据"新颖性、吸引力、可行性及预期效果"对论文进行评分。结果显示,评审员对人工智能生成的论文评分普遍高于人类撰写的论文! 这引发了一个问题:人工智能真的能提出比人类更优秀的研究构想吗?尽管人们很想相信这种可能性,但研究人员分析的4000篇人工智能生成的论文中,仅有200篇(5%)包含原创性构想——其余多数论文只是简单复述了大型语言模型训练数据集中已有的观点。

归根结底,人工智能生成的研究通过在同行评审过程中增加噪音、削弱信号,损害了学术共同体的利益,更不用说浪费了那些致力于维护研究标准的评审者们的时间和精力。 更糟糕的是,这类研究往往看似具有说服力,但语言模型生成的文本仅是听起来流畅,实则可能充斥着错误、幻觉和逻辑矛盾。令人担忧的是,即便是专家评审也常常无法辨别所读内容是否属于大型语言模型的幻觉产物。

主要机器学习会议的组织者认同我们的观点:大型语言模型生成的文本在科学写作中没有立足之地。国际机器学习会议(ICML)的官方政策如下:

关于大型语言模型政策的说明

我们(程序委员会主席)已在2023年国际机器学习会议(ICML)的征文启事中加入以下声明:

禁止在论文中包含由大型语言模型(如ChatGPT)生成的文本,除非该文本作为论文实验分析的一部分呈现。

该声明引发了潜在作者的诸多疑问,并促使部分作者主动与我们联系。我们感谢各位的反馈与建议,并希望进一步阐明该声明的初衷,以及我们计划如何在ICML 2023会议中落实此项政策。

简而言之;

ICML 2023的大型语言模型(LLM)政策禁止完全由LLM生成的文本(即"生成式文本")。该政策不禁止作者使用LLM对作者撰写的文本进行编辑或润色。 LLM政策主要基于审慎原则制定,旨在防范使用LLM可能引发的问题,包括剽窃风险。

尽管有此警告,我们发现机器学习领域仍有大量作者违反政策,在论文中使用人工智能生成文本,且这种现象正日益增多。

衡量问题的范围

在Pangram,我们希望衡量这个问题在我们自身领域——人工智能——中的影响范围。我们着手回答这样一个问题:人工智能研究人员是否正在使用ChatGPT撰写自己的研究?

为研究这一问题,我们利用OpenReview API提取了2018至2024年间两大顶级人工智能会议——ICLRNeurIPS的会议投稿数据。

随后,我们对提交至这些会议的所有摘要运行了Pangram的AI检测器。以下是我们的发现:

ICLR

一张图表显示了每年提交至ICLR会议的人工智能生成的摘要所占比例,自2023年以来呈现上升趋势。

神经信息处理系统国际会议

一张图表显示了每年提交至NeurIPS会议的人工智能生成的摘要所占比例,自2023年以来呈现上升趋势。

结果

我们可以将2022年之前的所有内容视为模型假阳性率的验证集,因为当时大型语言模型尚未出现。 如图所示,我们预测模型将把2022年及之前的每篇会议摘要都判定为人类撰写。这应能增强我们对模型准确性的信心:在科学摘要领域,我们的假阳性率表现优异,因此可以确信2023年和2024年所有阳性预测均为真实阳性。

自那以后我们所见的情况令人深感忧虑。自2022年11月ChatGPT发布以来,已经历了三轮会议周期。

第一轮周期恰逢ChatGPT发布之际(ICLR 2023)。 虽然投稿截止日期早于ChatGPT发布,但作者在会议召开前(即ChatGPT发布数月后)仍有机会修改稿件。我们的发现符合预期:仅有极少数摘要由AI撰写(本轮数千篇摘要中仅发现2篇AI生成),且这些摘要很可能是在截止日期后经过修改的。

第二个周期大约在6个月后,即2023年夏季截止、12月召开的NeuRIPS 2023会议。在该会议中,我们报告称约1.3%的提交摘要由人工智能生成——这一比例虽小却意义重大。

最后,在最近一轮的ICLR 2024会议(仅数月前举行)中,我们观察到该比例持续攀升至4.9%——相较于NeuRIPS 2023,AI生成的评论数量几乎增长了四倍!

这些结果揭示了一个令人担忧的趋势:不仅提交至主要人工智能会议的人工智能生成论文数量在增长,其增长速度也在不断加快——换言之,人工智能生成论文的提交速度正在加速。

人工智能生成的摘要是什么样子的?

请看以下这些摘要,亲自判断它们是否符合你惯常阅读的技术性科学文献的写作风格:

  1. 在复杂的网络化数据环境中,理解干预措施的因果效应是一项关键挑战,其影响涉及多个领域。图神经网络(GNN)作为捕捉复杂依赖关系的重要工具应运而生,但基于GNN的网络因果推断中几何深度学习的潜力尚未得到充分探索。本研究通过以下三项关键贡献弥补了这一空白: 首先,我们建立了图曲率与因果推断的理论联系,揭示负曲率会阻碍因果效应识别。其次,基于此理论洞见,我们运用里奇曲率预测因果效应估计的可靠性,实证表明正曲率区域能产生更精确的估计结果。 最后,我们提出基于里奇流的方法优化网络化数据的治疗效应估计,通过平滑网络边界降低误差,展现出卓越性能。本研究为运用几何学提升因果效应估计开辟新路径,为增强GNN在因果推断任务中的表现提供了关键洞见与工具。

  2. 在语言模型领域,数据编码至关重要,它直接影响模型训练的效率与效果。字节对编码(BPE)作为成熟的次词分词技术,通过合并高频字节或字符对,实现了计算效率与语言表达力的平衡。 鉴于语言模型训练需要大量计算资源,我们提出融合令牌(Fusion Token)方法,该方法显著增强了传统字节对编码(BPE)在语言模型数据编码中的效能。 融合标记采用比BPE更激进的计算策略,将标记组从双字符扩展至十字符。值得注意的是,在词汇量增加1024个标记后,其压缩率显著超越百万词汇量的常规BPE标记器。 总体而言,融合令牌方法通过提升每计算单元的数据处理范围,显著改善了模型性能。更高的压缩率还因减少了每字符串的令牌数量而加速了推理速度。通过为令牌生成过程投入更多计算资源,融合令牌最大化了语言模型作为高效数据压缩引擎的潜力,从而构建出更高效的语言建模系统。

  3. 在快速发展的动作生成领域,增强文本语义已被公认为生成更精准、更逼真动作的极具前景的策略。 然而现有技术常依赖庞大的语言模型来优化文本描述,却无法确保文本与动作数据的精准匹配。这种错位往往导致动作生成效果欠佳,限制了方法的潜力。为解决此问题,我们提出名为SemanticBoost的新型框架,旨在弥合文本与动作数据间的鸿沟。 我们的创新方案整合了源自动作数据本身的补充语义信息,并结合专用去噪网络,从而确保语义一致性并提升动作生成的整体质量。通过大量实验与评估,我们证明SemanticBoost在动作质量、对齐精度和逼真度方面显著优于现有方法。此外,研究结果强调了利用动作数据语义线索的潜力,为更直观、多样化的动作生成开辟了新路径。

注意到什么规律了吗?首先,我们发现它们都以极其相似的短语开头:"在复杂的格局中"、"在领域内"、"在快速发展的领域中"。我们称这种表达为刻意雕琢的华丽辞藻。 我们曾多次指出,大型语言模型常以冗长文字传递极少实质内容。对于试图满足作业最低字数要求的学生而言这或许可行,但对需要研读技术文献的读者来说,这种过度繁琐的表述不仅增加了阅读难度和耗时,反而使论文的核心信息更难理解。

人工智能论文真的能被会议录用吗?

我们想知道,人工智能生成的论文是否真的能被同行评审过程有效筛除,还是其中部分论文会漏网。

为解答此问题,我们分析了人工智能生成的摘要与ICLR 2024论文评审结果之间的关联性(口头报告、焦点报告和海报报告均属于"已录用"论文;口头报告和焦点报告为特殊认可类别)。研究发现如下:

类别AI生成百分比
ICLR 2024 口头报告2.33%
ICLR 2024 海报2.71%
ICLR 2024 焦点1.36%
被拒绝5.42%

尽管人工智能生成的论文被录用比例低于提交比例,仍有相当数量的论文通过了同行评审。这表明评审者虽然能发现部分人工智能生成的内容,但并非全部都能识别出来。

我们注意到,甚至有些口头报告和焦点论文的摘要都是由人工智能生成的!若善意解读这种现象,未来我们可能会发现:这些研究本身质量可能很高,作者只是借助ChatGPT走捷径,以便更好地呈现或修订成果。

值得注意的是,由于研究界中许多人并非以英语为母语,大规模语言模型(LLMs)的日益普及将主要用于将其他语言撰写的论文翻译成英语。

结论

尽管人工智能界明确要求作者不要使用ChatGPT,许多作者仍无视政策,继续借助大型语言模型撰写论文。更令人担忧的是,就连担任同行评审、负责防范会议被大型语言模型生成论文侵蚀的人工智能专家,也未能识破这些论文!

ChatGPT正在整个学术流程中引发更深远的连锁反应。近期一项ICML案例研究发现,6%至16%的同行评审报告本身由人工智能生成,且人工智能生成的评审报告与评审提交时间临近截止期限之间存在正相关关系!

我们呼吁人工智能界更好地执行这些政策,并要求作者承担责任,确保其论文由人类撰写。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。