宣布与Proofig建立全新合作伙伴关系!了解更多

如何为人工智能学术诚信案件收集证据

布拉德利·艾米
2025年3月13日

我们谨向加州大学戴维斯分校学生支持与司法事务副总监玛丽莲·德比致谢,感谢她为本文观点提供的宝贵见解,以及为本文所用部分视觉资源作出的贡献。同时感谢加州Viewpoint学校英语系主任阿曼达·克拉克,她对区分学生写作与AI写作特征的精辟见解极具参考价值。

或许你收到一篇论文时,直觉告诉自己这绝非班上学生所写。经Pangram检测后,系统以99.9%的置信度判定该文系AI生成。

或者,您是学术诚信专员,某位教授举报学生作品存在AI生成的抄袭行为,然而学生及其家长却坚称该作品完全出自学生本人之手。

你读着这篇文章,它处处透着人工智能写作的痕迹。"在当今科技时代,"文章开篇如是说。学生解释道,作者"通过丰富多样的视角,将细节精妙地编织在一起。"这篇语法完美、结构均衡的论文以经典句式收尾:"综上所述,..."或者"总而言之,..."

你内心深处清楚学生并未完成作业,却始终无法证明。当试图说服的对象声称"AI检测器无效且不可靠"或"根本无法确定真伪"时,你该如何应对?

正如我们之前讨论过的,AI检测的阳性结果仅是对话的开端,在考虑对学生采取惩戒措施时,它绝不能单独作为依据。尽管我们坚信产品的准确性,但我们同样认为,当事关重大时应采取整体评估方法——在AI检测评分之后,还需收集更多证据,以排除合理怀疑地证明学生的作品缺乏原创性或真实度。

今天,我们将探讨七种策略,用于此类案件中收集补充证据。

1. 积累更详尽的文本证据

人工智能生成的文本绝不会因某个特定短语或词汇选择而暴露身份:Pangram是通过文本中大量微弱信号的累积来判断的。同样地,你可以寻找人工智能文本中存在的诸多信号,并综合运用所有信号来证明这些人工智能特征不可能是随机出现的。 首先应识别常见AI短语,并观察其出现频率。在明确案例中,AI生成文本往往充斥大量此类特征,使其极难被归因于偶然——如下文示例所示:

常见的人工智能短语和词汇

您可以在珍娜·罗素的指南中查看常用人工智能词汇和句式模式的完整列表

Pangram也能自动提取这些短语及其出现频率。需要注意的是,单个短语本身并不能证明文本由AI生成,但当大量短语同时出现时,就形成了极强的证据——因为所有这些短语纯属巧合出现的可能性微乎其微。

人工智能短语频率分析示例

除了单词和短语层面,您还可以寻找AI写作的高级特征。

区分学生写作与AI写作指南

阿曼达·克拉克撰写的这份优秀指南,展示了学生写作与人工智能生成文本在风格和语调上的部分差异。该指南的核心要点如下:

  • 人工智能写作不愿涉及具体证据,更倾向于使用模糊的概括性表述。若强行要求,它可能会虚构这些细节。学生对作品的直接反思和具体的文本引用,是学生写作中人工智能聊天机器人目前尚无法模仿的特征。
  • 人工智能写作无法真正从学生的视角出发对某个主题进行反思。
  • 人工智能写作始终采用完美的语法,并以流畅、中立的语体呈现。

值得注意的是,当学生的真实写作与人工智能生成的文本混合时,往往会出现语气和风格的突兀转变。

2. 收集流程证明

当学生撰写作品时,这是经过文档创作过程的结果:包括头脑风暴、大纲规划、初稿撰写、修订润色和校对检查。而从生成式人工智能剽窃作品时,往往只是简单地复制粘贴。

检查学生写作过程的简单方法,就是要求他们提供写作痕迹:索要笔记、头脑风暴记录和提纲。若是最终稿,则要求查看初稿。这些往往足以证明写作过程:诚实的学子不惧展示过程,而作弊者通常根本拿不出这些证据。

此外还有工具可用于检查学生的写作过程。例如,Draftback是一款Chrome扩展程序,可用于在Google文档中回放学生的写作历史。我们还了解到Brisk TeachingCursive Technologies和Visible AI等工具。当与Pangram结合使用时,这些工具能发挥强大作用。

Draftback回放数据示例

在上面的Draftback追踪记录中,你可以看到学生在何处编辑了他们的写作内容,或者是否存在一次大规模的复制粘贴操作。

写作过程工具本身不应被视为万无一失的证据。学生们深知教师如今会检查修订记录以验证学术诚信,因此明白直接复制粘贴会让自己陷入风险。部分学生会直接将ChatGPT生成的内容转录到自己的文档中,使其看似出自本人之手。

更糟的是,如今出现了能够伪造修订记录的软件工具,例如这款名为"Human Auto Typer"的Chrome扩展程序。

"人类自动输入器"Chrome扩展程序示例

需注意的是,虽然审查学生的写作过程和修改记录颇有裨益,但如今学生们已能找到绕过这些简单检查的方法。

3. 检查引用的有效性

生成式人工智能常会捏造引用、曲解来源,并在归属作品时犯下其他显而易见的错误。当AI聊天机器人无法确认其主张的依据来源时,多数情况下它们会随意编造虚假引用。请看下方克劳德的示例。

克劳德捏造引文的例子

在人工智能案件中,引用错误往往是最有力的证据之一,因为故意伪造研究来源本身就构成学术诚信违规。通常只需查阅参考文献或引文目录,核对条目是否对应真实论文即可。若通过谷歌搜索首篇论文发现其并不存在,这便是违规行为的铁证。

必须再次强调:真实的引用并不能完全证明学生未使用人工智能。新型工具如Deep Research和Perplexity确实能正确引用来源,而聊天机器人在避免虚构来源方面的能力正迅速提升。

4. 验证学生是否理解自己的写作内容

检验学生作业是否原创最简单的方法之一,就是直接询问论文相关问题。若提交作品的写作水平与学生实际水平不符,就针对文章最复杂的部分进行提问。 对于低年级学生,有时只需询问ChatGPT常用但该年级学生从不使用的复杂词汇(如"公理化")的含义,往往就能让学生坦白承认使用了人工智能。

在大学层面,学生们被期望提出新颖独创的观点,此时不妨引导他们阐述构思过程。这往往能自然过渡到写作流程的讨论,让你得以收集关于文章形成过程的信息——正如我们在第二点所述。

培养同理心并营造安全的讨论空间至关重要。与学生进行学术诚信讨论可能压力极大,当证据摆在面前时,学生可能会采取防御姿态。与学生对话的最佳方式,是单纯地深入理解事件经过,从而尽最大努力帮助学生未来取得成功。 应给予学生改正错误的机会,并允许其阐明为何选择借助AI而非独立完成作业。我们同样鼓励以开放态度看待AI使用行为——这可能源于认知偏差而非蓄意违规。关于此类对话的具体方法,我们曾在往期博客中详细探讨。

5. 将该作品与学生以往的样本进行比较

人工智能写作尤其适用于年轻或正在成长的学生群体,其写作水平往往远超人们对学生写作能力的预期。

我们建议调取学生以往的写作样本。大学通常设有中央数据库,可从中提取其他课程的论文。若该学生是新入学,您可随时向其前任教师索取几份该学生的写作样本。

一个原本文笔拙劣的学生突然在写作水平上突飞猛进,达到拼写和语法都完美无缺的程度,这值得引起关注。

6. 将作品与ChatGPT的回复进行比较

ChatGPT的输出结果通常不会出现显著差异。当你将相同的提示语两次粘贴到ChatGPT时,它不会返回完全相同的文本,但结果往往存在大量难以归因于巧合的相似之处。

与ChatGPT的并列比较示例

使用Pangram的并排功能,您可自动查看提交内容与ChatGPT生成的内容并列展示。虽然具体短语不会完全相同,但我们会突出显示并关联那些含义高度相似的短语。

另一种策略是让ChatGPT生成多个回复,然后观察它们的相似度。如果提交的内容难以从这些回复中被轻易识别出来,那么它很可能也是人工智能生成的。

了解作业要求会有所帮助:这样你就能直接将作业内容作为ChatGPT的提示语。但即使不清楚作业要求,你仍可设计出合理的提示语。尝试构思一个足够具体的提示语——既能生成与你参考文章相似的作文,又不会因过于具体而导致直接复制粘贴。 ChatGPT本身可成为有效工具:将目标论文粘贴至ChatGPT,询问其核心观点、主题及探讨的问题,通过多次提示语测试,找出语义上最接近的生成文本,再对照风格是否匹配。

7. 收集更多意见

根据我们先前讨论过的马里兰大学Russell等人的研究,专家判断文本是否由人工智能生成的准确率可达92.7%。然而,当由5位专家组成的委员会采用多数决投票时,其判断准确率几乎能达到完美(在研究人员考察的300篇文本中,多数决投票的准确率实现了100%)。

我们鼓励您在部门或学校内培训他人如何通过肉眼识别AI生成的文本,这样在遇到疑难案例时就能获得多方意见。通过交流每位评判者捕捉到的不同信号,是增强判断文本真实性信心的重要途径。

此外,如同所有涉及法律边缘的案例,个人在决策过程中可能因学生无法控制的因素产生潜意识或有意识的偏见。通过多人组成的评审小组来判定学生是否违反学术诚信准则,不仅能提高判断准确性,从根本上说,还能使整个流程更加公平公正。

人工智能案件中补充证据的重要性

在这篇博文中,我们探讨了多种超越评分体系的方法,通过运用Pangram等工具,为以下两种情形构建证据链:一是揭露AI的不当使用行为,二是为被指控AI作弊却实属无辜的学生提供辩护依据。

任何单一证据都无法绝对确保案件结果,但您收集和积累的证据越多,学术诚信流程就越能做到公正且经得起推敲。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。