人工智能教育

是的，AI检测可以很准确

亚历克斯·罗伊特曼

2025年9月16日

目录

我们是如何走到今天的：人工智能检测简史
为什么2025年的AI检测有所不同
各机构正在适应这一新形势

简而言之：学术界 和内容审核人员应重新评估其对AI检测工具或AI查重工具的评价。2023年基于学术论文和大众媒体形成的既有共识已过时。像Pangram这样的最新AI检测模型，不仅已赶上最新的大型语言模型（LLMs），而且在设计上具备前瞻性，能够适应未来的发展。

我们是如何走到今天的：人工智能检测简史

2022年ChatGPT上线时，作家和内容创作者们纷纷涌向这一新型人工智能工具进行创作。此后这一热潮便未曾停歇。创作者们利用ChatGPT（及其他AI模型）及其竞品，撰写了从研究论文、小说等长篇文档，到电子邮件、Reddit评论和亚马逊书评等短篇内容。由AI生成的内容充斥了整个互联网。然而，自大型语言模型（LLM）问世以来，人们便一直希望区分哪些内容是人类撰写的，哪些是AI生成的。OpenAI确实意识到了这一需求，并开发了一款能够将文本标记为AI生成的产品。随着AI应用的普及，对AI检测器或分类器的需求也随之增加，特别是在学术诚信至关重要的学校和大学中。一些学生（他们往往是早期采用者）利用最新模型来完成作业、参加考试以及申请大学。部分研究人员在时间压力下偷工减料，将由AI撰写或辅助完成的研究成果提交发表。因此，众多工具应运而生，旨在解决这些问题。学术软件领域的既有企业如TurnItIn于2023年4月推出了名为“AI Checker”的工具，以满足现有教育客户的需求。Grammarly也于2024年推出了名为“Grammarly Authorship”的工具。这些公司的普遍观点是：如果他们的工具能识别剽窃，就应该也能识别AI。高等教育领域尤其需要从“剽窃检测器”向“AI检测器”转型。然而，很早就能看出这种做法行不通。

早期的AI检测工具曾通过使用“困惑度”和“突发性”来保证准确性。Pangram的首席技术官布拉德利·埃米（Bradley Emi）解释了这些术语：“困惑度是指文本中每个单词的意外程度或令人惊讶的程度。突发性是指困惑度在文档中的变化情况。如果文档中穿插着一些令人惊讶的单词和短语，那么该文档的突发性就很高。”

我们不会过多纠缠于这些术语，但在开发人工智能检测工具时，如果过分依赖这些因素，就会导致三种常见的缺陷：

这些工具在应用于Claude、GPT-4等不同模型时，有时并不可靠。
这些工具不会随着时间的推移而变得更好，因此对大型语言模型（LLMs）进行微小改进反而会降低准确率。
他们错误地将非英语母语文本（ESL）归类为人工智能

这对学术机构而言确实是切实的担忧。错误指控学生和研究人员在学习或论文中使用人工智能的后果极其严重，甚至可能毁掉他们的职业生涯。即使依赖有效率高达95%的AI筛查工具，风险也是极高的。因此，包括麻省理工学院（MIT）、范德比尔特大学和加州大学伯克利分校在内的许多顶尖学术机构，都不支持教师使用AI检测工具。在许多情况下，它们援引了具体的研究论文，如《AI生成文本检测工具的测试》（Testing of Detection Tools for AI-Generated Text），以及行业文章如《为何AI写作检测工具行不通》（Why AI writing detectors don’t work），这些文献详细阐述了AI检测工具表现不佳的情况。

OpenAI 发现这些问题如此棘手，以至于他们在 2023 年 7 月放弃了其 AI 文本分类器，并表示“由于准确率过低，该 AI 分类器已不再提供”。许多学校管理人员得出了这样的结论：如果 OpenAI 都做不到，那这事恐怕根本办不到。

尽管顶尖大学和公众普遍认为人工智能检测的承诺难以实现，甚至纯属噱头，但像Pangram Labs这样的公司却在该领域取得了重大突破，使人工智能检测成为大学和企业环境中的关键工具。

为什么2025年的AI检测有所不同

人们常将AI检测比作一场军备竞赛：学生们试图寻找捷径，而教育工作者则力图区分哪些内容是人类撰写的，哪些不是。到了2025年，检测系统的门槛已大幅提高。

2025年8月，芝加哥大学布斯商学院的两位研究人员布莱恩·贾巴里安（Brian Jabarian）和亚历克斯·埃米（Alex Emi）发表了一篇题为 《人工写作与自动化检测》，指出“大多数商用AI检测器表现极为出色，其中Pangram尤其实现了接近零的误报率和漏报率”。他们特别指出，Pangram是“唯一一款在不牺牲准确检测AI文本能力的前提下，满足严格政策上限（误报率≤0.005）的检测器”。这充分说明了AI检测技术在短短几年内取得了多大的进步。但这究竟是如何实现的？

首先，人工智能研究人员通过收集更广泛的人类文本和人工智能生成的文本，改进了数据集。这不仅包括学术论文，还包括电子邮件和文章等其他文本。其次，开发人员采用了主动学习方法来降低误报率。这意味着他们会主动寻找最难区分是人工智能生成还是人类撰写的文本，然后将其重新整合到模型中。

在这场军备竞赛中，生成式人工智能的开发者们尚未做出足够有力的回应，以突破某些AI检测器的限制。当OpenAI备受瞩目的GPT-5发布时，它承诺将减少幻觉生成、提升语气表现力，并增强创意写作能力。发布后12小时内，Pangram Labs联合创始人马克斯·斯佩罗（Max Spero）就在领英发文称，Pangram的AI检测工具无需额外训练，就能以与此前模型相似的准确率识别出GPT-5的测试文本：

“Pangram 是唯一一款无需专门训练即可可靠检测 GPT-5 的 AI 检测工具。”

各机构正在适应这一新形势

人们对人工智能检测工具的使用确实存在担忧。其中许多工具的误报率仍然令人担忧，且对其准确性进行了虚假宣传。不过，一些最新技术非常可靠，目前正被积极应用于企业及高校。例如，专家引荐公司Qwoted最近将AI检测功能整合到其工作流程中，以减少所谓“专家”撰写的AI生成报价。“新闻业的未来取决于信任。正因如此，我们很高兴能与Pangram合作，该公司在AI检测和来源归属方面树立了黄金标准。”

研究人员和记者也正重新加入这一行列。长期持批评态度的人士正在改变原有立场，并探索将AI检测纳入更广泛AI政策的方法。《新闻公报》（Press Gazette）的罗布·沃（Rob Waugh）最近向希望识别AI生成文章的用户推荐了Pangram。“此类工具并非100%可靠，但与其他在线AI检测工具相比，Pangram的准确率较高，并且已集成到Qwoted等记者响应服务中，用于检测AI生成的选题提案和稿件。”

我们很乐意与您探讨您的具体应用场景，并了解Pangram能否为贵组织带来价值。欢迎试用我们的服务，并联系我们了解企业级解决方案。

亚历克斯·罗伊特曼

亚历克斯·罗伊特曼增长负责人

亚历克斯·罗伊特曼（Alex Roitman）是人工智能内容检测公司Pangram Labs的增长主管。他的工作重点在于研究人工智能生成的文本如何重塑写作、教育以及人们对开放网络的信任。

查看亚历克斯·罗伊特曼的更多内容

相关阅读

什么是拼凑式剽窃？

人工智能教育

什么是拼凑式剽窃？

像ChatGPT这样的大型语言模型的兴起，极大地助长了一种被称为“拼凑式剽窃”的学术不端行为。

亚历克斯·罗伊特曼2026年3月26日

法学院会使用AI检测工具吗？

人工智能教育

法学院会使用AI检测工具吗？

本指南介绍了不同法学院的政策如何演变，以及为何在将人工智能融入法律教育时必须格外谨慎。

亚历克斯·罗伊特曼2026年3月25日

Pangram 和 Turnitin 哪个更好？

人工智能教育

Pangram 和 Turnitin 哪个更好？

Turnitin的人工智能抄袭检测工具虽然简单易用，但许多教育工作者却更倾向于使用Pangram。这是为什么呢？归根结底，原因在于两个因素：准确性和可用性。

马克斯·斯佩罗2025年5月13日

最适合学校的5款AI工具

人工智能教育

最适合学校的5款AI工具

人工智能工具能够以崭新的方式分解概念、创建互动式学习资料，并提供全天候待命的“知识渊博的辅导老师”，因此对学生而言是一项极佳的学习资源。

亚历克斯·罗伊特曼2026年1月29日

论文查重工具、人工智能与剽窃

人工智能教育

论文查重工具、人工智能与剽窃

人工智能的使用与剽窃之间有何区别？我们该如何划清界限？

德斯蒂尼·阿基诺德2025年12月8日

关于AI检测的误区与误解

人工智能教育

关于AI检测的误区与误解

如今，关于AI检测的诸多误解和错误观念屡见不鲜。

杰森·尼科尔森2025年2月25日

订阅
以获取我们的最新动态

随时掌握我们的最新资讯与优惠活动。

soc2

SOC2 第2类

经AssuranceLab验证

© 2025 Pangram。保留所有权利。

info@pangram.com

加入我们的社区

© 2025 Pangram。保留所有权利。

是的，AI检测可以很准确 | Pangram Labs