宣布与Proofig建立全新合作伙伴关系!了解更多

第三方全字母句评估

命运·阿基诺德
2025年11月4日

我们认为机构能够信赖Pangram的高准确性至关重要,因此我们鼓励第三方对我们的质量指标(误报率与漏报率)进行验证。以下我们将重点展示芝加哥大学(UChicago)、马里兰大学(UMD)研究人员以及商业评审机构对Pangram的评估结果。

关键要点:Pangram的内部测试经得起第三方审查。

Pangram的可靠性与准确性(芝加哥大学)

实验

在芝加哥大学贝克尔-弗里德曼经济学研究所,研究人员对比了四款AI检测器:Pangram、GPTZero、Originality AI以及开源检测器RoBERTa。该研究使用每款检测器分析了1992篇2020年前的人类文本与1992篇AI生成的文本,涵盖不同体裁和字数范围。 研究重点考察了AI检测中的两种误判类型:误报率与漏报率。研究人员在多个阈值下对比了这些指标,同时检测器还对ChatGPT、Claude和Gemini等主流大型语言模型生成的文本进行了分类。研究团队在不同检测器间设置了多重误报率政策上限,以观察漏报率的变化趋势。

结果

摘自布莱恩·贾巴里安与亚历克斯·伊马斯于2025年8月发表的研究《人工写作与自动检测》:

Pangram 在所有阈值下都压倒性地领先于其他检测器。

Pangram是唯一一款在满足严格策略上限(FPR≤0.005)的同时,仍能准确检测AI文本的检测器。

Pangram在所有检测类型中始终保持低成本领先优势:平均每正确标记一段AI文本仅需0.0228美元,而OriginalityAI和GPTZero的成本分别为0.0416美元和0.0575美元。这使Pangram成为检测完整段落和短文片段最具成本效益的解决方案。

该研究表明:

Pangram在中等长度到长篇段落上基本实现了零误报率和零漏报率。

Pangram在各类文本中均展现出卓越的准确性,涵盖博客、评论、简历、新闻及小说等领域。在短篇文本中,其误报率和漏报率虽略有上升,"但仍远低于合理策略阈值"。

芝加哥大学的研究人员指出,与其他现有的AI检测器相比,Pangram表现更优。当设定0.0001的假阳性率上限时,"在最严格的假阳性率政策下,GPTzero和Originality.AI的表现都不尽如人意……而Pangram在大多数大型语言模型上仍能保持约0.01的假阴性率。"

全字母句不再适用于50字以下的文本预测,但正如研究中所述,

Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.

Pangram在Humanizers(马里兰大学)中的表现

实验

在马里兰大学这项研究的实验1中,研究人员邀请了对大型语言模型(LLM)了解程度各异的标注员,预测文本是否由人工智能生成。 在发现一名标注者几乎能完美识别AI文本后,研究团队又引入四名具备相似LLM使用背景的专家标注者,对同一组60个样本进行分类。专家投票结果与Pangram、Pangram Humanizer、GPTZero等商业检测器,以及Fast-DetectGPT等开源工具进行了对比。在此过程中,Pangram相较于其他检测器表现更为突出。

Pangram's 针对改写文本与人性化文本的完整表现

结果

Pangram能够精准识别人工润色的AI生成文本。马里兰大学计算机科学家证实了这一能力:在检测人工润色文本和改写文本的综合评分中,Pangram以99.3%的准确率位居榜首,超越了其他AI检测软件。

深入了解Pangram如何与Humanizer抗衡

非研究机构的泛语评估

汤姆指南的阿曼达·卡斯韦尔在文章中指出,在尝试了数十款AI检测工具后,Pangram“表现优于其他测试工具”。该工具还被证实正持续努力降低本已较低的误报率。

ZDNET的DavidGewirtz将Pangram描述为"我们测试中的新晋选手,甫一亮相便直冲冠军圈"。

由于研究论文中人工智能的使用日益增多,人们担心这可能成为学术不端行为的指标。亚当·戴在Medium的文章中采用Pangram的AI检测工具,以获取关于AI内容普及率的可靠数据,同时指出生成式AI在研究中存在正当应用场景。戴建议使用Pangram进行研究,并表示:"若有人想调查已发表文献中生成式AI的使用情况,我认为Pangram的工具提供了绝佳的研究机会。"

在权威研究中运用Pangram的成果(马里兰大学)

马里兰大学的研究人员(与微软和Pangram合作)在近期研究中运用Pangram的人工智能检测结果,通过18.6万篇报纸文章样本分析了新闻中人工智能生成文本的存在情况。尽管发现人工智能生成新闻的比例较低,但相关使用情况并未披露。 通过Pangram系统,研究人员在《纽约时报》《华尔街日报》和《华盛顿邮报》的评论版块中识别出"219篇含AI内容的文章"。

该研究能够指出人工智能应用中的细微差别,例如:

撰写报道的记者可能并不知晓,他们在报道中引用的受访者其实是通过人工智能生成的回应。

新闻中的人工智能使用全字母句检测

结论

在Pangram,我们坚信透明是信任的基石。我们期待与您携手,为您的组织带来人工智能的透明化。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。