宣布与Proofig建立全新合作伙伴关系！了解更多

第三方全字母句评估

命运·阿基诺德

2025年11月4日

我们认为机构能够信赖Pangram的高准确性至关重要，因此我们鼓励第三方对我们的质量指标（误报率与漏报率）进行验证。以下我们将重点展示芝加哥大学（UChicago）、马里兰大学（UMD）研究人员以及商业评审机构对Pangram的评估结果。

关键要点：Pangram的内部测试经得起第三方审查。

Pangram的可靠性与准确性（芝加哥大学）

实验

在芝加哥大学贝克尔-弗里德曼经济学研究所，研究人员对比了四款AI检测器：Pangram、GPTZero、Originality AI以及开源检测器RoBERTa。该研究使用每款检测器分析了1992篇2020年前的人类文本与1992篇AI生成的文本，涵盖不同体裁和字数范围。研究重点考察了AI检测中的两种误判类型：误报率与漏报率。研究人员在多个阈值下对比了这些指标，同时检测器还对ChatGPT、Claude和Gemini等主流大型语言模型生成的文本进行了分类。研究团队在不同检测器间设置了多重误报率政策上限，以观察漏报率的变化趋势。

结果

摘自布莱恩·贾巴里安与亚历克斯·伊马斯于2025年8月发表的研究《人工写作与自动检测》：

Pangram 在所有阈值下都压倒性地领先于其他检测器。

Pangram是唯一一款在满足严格策略上限（FPR≤0.005）的同时，仍能准确检测AI文本的检测器。

Pangram在所有检测类型中始终保持低成本领先优势：平均每正确标记一段AI文本仅需0.0228美元，而OriginalityAI和GPTZero的成本分别为0.0416美元和0.0575美元。这使Pangram成为检测完整段落和短文片段最具成本效益的解决方案。

该研究表明：

Pangram在中等长度到长篇段落上基本实现了零误报率和零漏报率。

Pangram在各类文本中均展现出卓越的准确性，涵盖博客、评论、简历、新闻及小说等领域。在短篇文本中，其误报率和漏报率虽略有上升，"但仍远低于合理策略阈值"。

芝加哥大学的研究人员指出，与其他现有的AI检测器相比，Pangram表现更优。当设定0.0001的假阳性率上限时，"在最严格的假阳性率政策下，GPTzero和Originality.AI的表现都不尽如人意……而Pangram在大多数大型语言模型上仍能保持约0.01的假阴性率。"

全字母句不再适用于50字以下的文本预测，但正如研究中所述，

Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.

Pangram在Humanizers（马里兰大学）中的表现

实验

在马里兰大学这项研究的实验1中，研究人员邀请了对大型语言模型（LLM）了解程度各异的标注员，预测文本是否由人工智能生成。在发现一名标注者几乎能完美识别AI文本后，研究团队又引入四名具备相似LLM使用背景的专家标注者，对同一组60个样本进行分类。专家投票结果与Pangram、Pangram Humanizer、GPTZero等商业检测器，以及Fast-DetectGPT等开源工具进行了对比。在此过程中，Pangram相较于其他检测器表现更为突出。

Pangram's 针对改写文本与人性化文本的完整表现

结果

Pangram能够精准识别人工润色的AI生成文本。马里兰大学计算机科学家证实了这一能力：在检测人工润色文本和改写文本的综合评分中，Pangram以99.3%的准确率位居榜首，超越了其他AI检测软件。

深入了解Pangram如何与Humanizer抗衡

非研究机构的泛语评估

汤姆指南的阿曼达·卡斯韦尔在文章中指出，在尝试了数十款AI检测工具后，Pangram“表现优于其他测试工具”。该工具还被证实正持续努力降低本已较低的误报率。

ZDNET的DavidGewirtz将Pangram描述为"我们测试中的新晋选手，甫一亮相便直冲冠军圈"。

由于研究论文中人工智能的使用日益增多，人们担心这可能成为学术不端行为的指标。亚当·戴在Medium的文章中采用Pangram的AI检测工具，以获取关于AI内容普及率的可靠数据，同时指出生成式AI在研究中存在正当应用场景。戴建议使用Pangram进行研究，并表示："若有人想调查已发表文献中生成式AI的使用情况，我认为Pangram的工具提供了绝佳的研究机会。"

在权威研究中运用Pangram的成果（马里兰大学）

马里兰大学的研究人员（与微软和Pangram合作）在近期研究中运用Pangram的人工智能检测结果，通过18.6万篇报纸文章样本分析了新闻中人工智能生成文本的存在情况。尽管发现人工智能生成新闻的比例较低，但相关使用情况并未披露。通过Pangram系统，研究人员在《纽约时报》《华尔街日报》和《华盛顿邮报》的评论版块中识别出"219篇含AI内容的文章"。

该研究能够指出人工智能应用中的细微差别，例如：

撰写报道的记者可能并不知晓，他们在报道中引用的受访者其实是通过人工智能生成的回应。

新闻中的人工智能使用全字母句检测

结论

在Pangram，我们坚信透明是信任的基石。我们期待与您携手，为您的组织带来人工智能的透明化。

订阅我们的电子报

我们每月分享人工智能检测研究的最新进展。

订阅
以获取我们的最新动态

随时掌握我们的最新资讯与优惠活动。

soc2

SOC2 类型2

经AssuranceLab验证

© 2025 Pangram。保留所有权利。

info@pangram.com

加入我们的社区

© 2025 Pangram。保留所有权利。