宣布与Proofig建立全新合作伙伴关系!了解更多
作者是否在使用大型语言模型撰写人工智能研究论文?同行评审者是否将论文评审工作外包给生成式人工智能工具?为探究这些问题,我们分析了国际学习表示会议(ICLR)的全部19,000篇论文及70,000篇评审意见——该会议是人工智能研究领域最具权威性的重要学术发表平台之一。 得益于OpenReview平台及ICLR的公开评审机制,所有论文及其评审意见均已在线公开,正是这种开放的评审流程使本次分析成为可能。
我们已将所有结果公开发布在iclr.pangram.com 上。
首先,我们被悬赏了!
格雷厄姆·纽比格在推特上悬赏征集ICLR投稿分析
说真的,许多ICLR的作者和审稿人已经注意到一些公然涉及人工智能的科研不端行为,例如由大型语言模型生成的论文中存在完全虚构的参考文献,还有许多作者声称收到完全由人工智能生成的审稿意见。
有位作者甚至透露,某位审稿人在同行评审中提出了40个由人工智能生成的提问!
我们想全面评估这个问题的严重程度:这些不当行为是孤立事件,还是反映出更广泛的运作模式?正因如此,我们才接受了格雷厄姆的提议!
ICLR针对论文和评审中大型语言模型(LLM)的使用,制定了非常明确且具描述性的政策,明确规定了允许与禁止的行为。
政策1. 使用任何大型语言模型(LLM)均须予以披露,遵循《道德准则》中"所有对研究的贡献均须予以承认"的规定,且贡献者"应预期……获得其工作的认可"。
政策2. ICLR的作者和审稿人对其贡献承担最终责任,须遵循《道德准则》政策规定:“研究人员不得蓄意作出虚假或误导性陈述,不得伪造或篡改数据,亦不得歪曲研究结果。”
ICLR还制定了作者在论文和综述中使用大型语言模型时应遵循的指南。简而言之:
因此,我们开展这项研究并非为了指责个别违规者——毕竟在论文提交和同行评审过程中使用大型语言模型(LLMs)本身是被允许的。我们真正希望引起关注的是论文和评审环节中人工智能的使用程度,并强调完全由人工智能生成的评审意见(这类行为确实很可能违反《伦理准则》)是一个比许多人想象中更为普遍的问题。
我们首先通过OpenReview API下载了ICLR所有投稿的PDF文件。同时下载了所有评语,从而能够提取评审内容。
我们发现,对于ICLR论文而言,使用常规的PDF解析器(如PyMuPDF)存在不足,因为其常无法正确处理行号、图像和表格。 因此,为提取论文正文内容,我们采用Mistral OCR技术将PDF中的正文解析为Markdown格式。鉴于AI系统同样倾向于处理Markdown输出,为避免仅因格式差异导致的误判,我们随后将Markdown内容重新格式化为纯文本。
随后,我们对这些PDF文件中解析出的纯文本运行了Pangram的扩展文本分类器。该分类器的扩展版本首先将文本分割为多个片段,然后对每个片段单独运行AI检测模型。最终结果以百分比形式呈现,显示检测出AI生成文本的片段占比。因此,检测结果可表明论文属于完全人工撰写、完全AI生成,或混合类型——即部分片段检测结果为阳性,部分片段检测结果为阴性。
我们还利用新开发的EditLens模型对AI的同行评审进行了检测。EditLens不仅能识别AI的存在,还能描述AI在编辑过程中的参与程度。该模型可预测文本属于以下五类之一:
EditLens目前仅向私有测试版用户开放,将于12月初正式面向公众发布。 未来数周我们将深入解析该模型,但根据研究预印本显示:其在合著文本生成领域表现出顶尖水平;在内部基准测试中,作为二元分类器评估时准确率与现有模型相当,且在纯人工撰写文本中展现出万分之一的极低误报率。
在我们对人工智能会议论文的先前分析中,发现Pangram在所有2022年前发表的ICLR和NeurIPS论文上实现了0%的假阳性率。虽然其中部分论文确实属于训练集,但并非全部如此;因此我们认为Pangram在真实测试集上的表现实际上非常接近0%。
那么同行评审呢?我们进行了一项额外的阴性对照实验,将新版EditLens模型应用于所有2022年的同行评审。 结果显示:轻度编辑与人工编辑的错误率约为1:1000,中度编辑与人工编辑的错误率约为1:5000,重度编辑与人工编辑的错误率约为1:10000。完全由AI生成的内容与人工编辑内容之间未发现混淆情况。
EditLens对ICLR 2022评审意见的预测分布(阴性对照)
在实验过程中,我们对所有论文及同行评审报告运行了全字母句生成器。主要发现如下:
我们发现21%的评论(即15,899条)完全由人工智能生成。超过半数的评论存在某种形式的人工智能参与,包括人工智能编辑、辅助或完全由人工智能生成。
ICLR 2026审稿意见中EditLens预测的分布情况
另一方面,论文投稿仍主要由人类撰写(61%的论文主要由人类撰写)。不过我们确实发现了数百篇完全由AI生成的论文,尽管它们似乎属于异常值,且9%的投稿中AI内容占比超过50%。需要说明的是,部分完全由AI生成的论文在我们进行分析前已被预审拒稿并从OpenReview平台移除。
人工智能内容在ICLR 2026论文投稿中的分布情况
我们在结果中发现了一些有趣的趋势,这些趋势揭示了人工智能在论文提交和同行评审中的应用方式,以及这种应用对评审流程本身产生的下游影响。
与先前研究显示大型语言模型在担任评判者时往往更青睐自身生成的文本而非人类写作不同,我们发现恰恰相反:投稿中人工智能生成的文本占比越高,评审质量就越差。
论文中人工智能内容的平均评分
这可能有多重原因。其一是论文中使用AI的程度越高,其整体构思和执行就越欠周全。在科学写作中运用AI时,人们往往将其作为卸责和捷径的工具,而非增效的辅助手段。 此外,完全由AI生成的论文获得较低评分,可能表明AI生成研究仍属低质量垃圾,尚未对科学做出实质性贡献。
按人工智能参与程度划分的平均评分
我们发现评审中人工智能介入程度越高,评分就越高。这很成问题:它意味着评审者并非以人工智能为框架来重构自身观点(若属此类情况,人工智能评审与人类评审的平均评分应持平),而是将论文的评判权也外包给了人工智能。 将大型语言模型的观点冒充评审者真实意见,显然违反了《道德准则》。我们知道人工智能往往趋于阿谀奉承——即倾向于说出人们想听的讨好话语,而非给出客观评价。这种特性应用于同行评审时完全不可取!这或许能解释人工智能评审中评分普遍偏高的现象。
按人工智能参与程度划分的平均评论长度
以往篇幅较长的评论意味着内容经过深思熟虑且质量更高,但在大型语言模型时代,这往往意味着相反的情况。人工智能生成的评论篇幅更长,且充斥着大量"填充内容"。 根据Shaib等人发表于《衡量文本中的AI垃圾》的研究论文,AI"垃圾内容"的一个特征是信息密度低——这意味着AI用大量词汇表达实质内容却寥寥无几。
我们在大型语言模型评审中也发现了同样的问题:AI虽然使用大量词汇,但实际提供的反馈信息密度并不高。 我们认为这存在问题:作者不得不耗费时间解读冗长的评审意见,并回答那些缺乏实质性反馈的空洞问题。值得注意的是,多数作者在正式投稿前,很可能已向大型语言模型征询过评审意见。在这种情况下,LLM评审反馈大多是重复且无益的——因为作者早已预见到模型会提出的那些显而易见的批评。
尽管Pangram的误报率极低,但并非为零。因此在推荐该工具用于决定论文命运(如直接拒稿)或惩处审稿人之前,我们有责任量化其可靠性。我们通过上述阴性对照研究直接测量了领域内误报率,但该工具在其他数据集、基准测试及通用文本中的表现如何?
我们曾在之前的博客文章中记录了Pangram的误报率。
Pangram的准确性也通过多项第三方研究得到验证,包括芝加哥大学布斯商学院和美国癌症研究协会近期开展的研究。
为使这些数据更具可比性,Pangram的误报率与DNA检测或药物检测的误报率相当:即完全由AI生成的文本被误判为人类创作文本的真实误报情况虽非零概率,但极其罕见。
若身为作者的你怀疑收到的是AI生成的书评,可通过以下几个明显特征来辨别。虽然Pangram能检测AI文本,但你也能凭肉眼识别AI书评的迹象。
我们已整理出一份通过肉眼识别AI写作模式的通用指南,但我们注意到AI同行评审中特别存在一些额外的信号和标记。
我们在人工智能同行评审中注意到的一些"破绽":
优势:问题定义清晰:本文针对实际问题——基于VLM的OCR系统在处理劣质文档时会产生幻觉且不显示不确定性,其表现甚至逊于会输出明显畸变结果的传统OCR系统。研究动机阐述充分。系统化方法论:两阶段训练方案(伪标记冷启动+GRPO)设计合理且阐述详尽。多目标奖励机制通过防奖励篡改措施(特别是长度错配衰减因子η)体现了严谨的工程设计。
问题:1.真实退化场景的泛化能力:作者能否在真实退化文档(如历史文献数据集)上进行评估,以证明该方法能超越特定合成退化管道实现泛化?2.与MinerU系统的对比:MinerU和MinerU2.5[2,3]代表了文献解析领域的最新进展。 在模糊OCR任务上,本方法与这些系统的对比结果如何?若这些系统无法提供不确定性估计,能否与本方法的标注方案进行融合?
浅显的吹毛求疵而非实质性分析:AI生成的评论往往聚焦于表面问题,而非论文科学严谨性的实质性关切。典型的AI批评可能包括:要求增加与现有切除术高度相似的切除术;要求扩大测试集规模或增加对照组数量;或要求提供更多说明或实例。
空话连篇:AI生成的书评往往信息密度低,用冗长的语言表达本可简洁阐述的观点。这种冗余给作者增添了额外负担——他们必须从冗长的书评中筛选出实质性的批评内容。
今年早些时候,韩国UNIST的研究人员发表了一份立场文件,其中阐述了同行评审质量下降的部分原因。随着人工智能领域持续发展,同行评审体系所承受的资源压力最终开始显现裂痕——面对论文数量的爆炸式增长,合格评审员的数量实在有限。
低质量AI生成论文的最大问题在于,它们纯粹在浪费本就有限的时间和资源。根据我们的分析,AI生成的论文质量远不及人工撰写的论文,更严重的是,不诚实的审稿人和论文工厂可以低成本地批量生产这类论文——他们采用"撒网式投稿"策略(向会议提交大量论文,寄希望于其中一篇能侥幸通过)。 若放任AI论文泛滥于同行评审体系,评审质量将持续下滑,审稿人被迫阅读"垃圾论文"而非真正研究成果,其工作积极性必将大打折扣。
理解人工智能生成的评审意见为何可能造成危害,则需要更细致的分析。 我们认同ICLR的观点:人工智能可作为辅助工具发挥积极作用,帮助评审者更清晰地表达观点,尤其当评审者非英语母语时。此外,人工智能常能提供真正有价值的反馈。作者通过与大型语言模型模拟同行评审过程,让模型对研究进行批判性审查、指出漏洞并发现作者可能忽略的错误,往往能取得良好效果。
然而问题依然存在:如果人工智能能够生成有价值的反馈,我们为何要禁止完全由人工智能生成的评论?芝加哥大学经济学家亚历克斯·伊马斯在最近的一条推文中阐明了核心问题:答案取决于我们是否希望人类判断参与科学同行评审。
亚历克斯·伊马斯关于AI生成评论的推文
如果我们认为当前的人工智能模型足以完全取代人类判断,那么学术会议就应该直接自动化整个评审流程——将论文输入大型语言模型并自动评分。但如果我们认为人类判断仍应是流程的一部分,那么完全由人工智能生成的内容就必须受到制裁。 伊马斯指出两大核心问题:其一,存在一种聚合均衡——AI生成的内容(因更易生产)将在数轮评审中迅速挤占人类判断空间;其二,存在验证难题——判断AI评审质量所需的投入与人工评审相当——既然LLM能生成优于人类的评审意见,为何不直接自动化整个流程?
在我看来,人类判断虽与人工智能评估互补,却能提供正交价值。人类常能提出超出分布范围的反馈,这些反馈往往并非显而易见。专家意见比大型语言模型更有价值,因为他们的见解源于经验、语境以及经年累月锤炼的独特视角。大型语言模型虽强大,但其评估常缺乏品味与判断力,因而显得"单薄乏味"。
或许未来的会议可以将SOTA LLM评估与人类评估并列呈现,以确保人类评估不仅是重复那些大型语言模型(LLM)也能指出的"显而易见"的批评。
人工智能生成内容在学术同行评审中的兴起,对科学界构成重大挑战。我们的分析表明,完全由人工智能生成的同行评审在ICLR评审总数中占比显著,且人工智能生成论文的数量也在持续增长。然而,这些人工智能生成的论文往往是粗制滥造之作,而非真正的研究贡献。
我们认为这种趋势存在问题且对科学有害,呼吁学术会议和出版商采用人工智能检测技术作为解决方案,以遏制滥用行为并维护科学诚信。