宣布与Proofig建立全新合作伙伴关系!了解更多
我们认为机构能够信赖Pangram的高准确性至关重要,因此我们鼓励第三方对我们的质量指标(误报率与漏报率)进行验证。以下我们将重点展示芝加哥大学(UChicago)、马里兰大学(UMD)研究人员以及商业评审机构对Pangram的评估结果。
关键要点:Pangram的内部测试经得起第三方审查。
在芝加哥大学贝克尔-弗里德曼经济学研究所,研究人员对比了四款AI检测器:Pangram、GPTZero、Originality AI以及开源检测器RoBERTa。该研究使用每款检测器分析了1992篇2020年前的人类文本与1992篇AI生成的文本,涵盖不同体裁和字数范围。 研究重点考察了AI检测中的两种误判类型:误报率与漏报率。研究人员在多个阈值下对比了这些指标,同时检测器还对ChatGPT、Claude和Gemini等主流大型语言模型生成的文本进行了分类。研究团队在不同检测器间设置了多重误报率政策上限,以观察漏报率的变化趋势。
摘自布莱恩·贾巴里安与亚历克斯·伊马斯于2025年8月发表的研究《人工写作与自动检测》:
Pangram 在所有阈值下都压倒性地领先于其他检测器。
Pangram是唯一一款在满足严格策略上限(FPR≤0.005)的同时,仍能准确检测AI文本的检测器。
Pangram在所有检测类型中始终保持低成本领先优势:平均每正确标记一段AI文本仅需0.0228美元,而OriginalityAI和GPTZero的成本分别为0.0416美元和0.0575美元。这使Pangram成为检测完整段落和短文片段最具成本效益的解决方案。
该研究表明:
Pangram在中等长度到长篇段落上基本实现了零误报率和零漏报率。
Pangram在各类文本中均展现出卓越的准确性,涵盖博客、评论、简历、新闻及小说等领域。在短篇文本中,其误报率和漏报率虽略有上升,"但仍远低于合理策略阈值"。
芝加哥大学的研究人员指出,与其他现有的AI检测器相比,Pangram表现更优。当设定0.0001的假阳性率上限时,"在最严格的假阳性率政策下,GPTzero和Originality.AI的表现都不尽如人意……而Pangram在大多数大型语言模型上仍能保持约0.01的假阴性率。"
全字母句不再适用于50字以下的文本预测,但正如研究中所述,
Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.
在马里兰大学这项研究的实验1中,研究人员邀请了对大型语言模型(LLM)了解程度各异的标注员,预测文本是否由人工智能生成。 在发现一名标注者几乎能完美识别AI文本后,研究团队又引入四名具备相似LLM使用背景的专家标注者,对同一组60个样本进行分类。专家投票结果与Pangram、Pangram Humanizer、GPTZero等商业检测器,以及Fast-DetectGPT等开源工具进行了对比。在此过程中,Pangram相较于其他检测器表现更为突出。
Pangram's 针对改写文本与人性化文本的完整表现
Pangram能够精准识别人工润色的AI生成文本。马里兰大学计算机科学家证实了这一能力:在检测人工润色文本和改写文本的综合评分中,Pangram以99.3%的准确率位居榜首,超越了其他AI检测软件。
深入了解Pangram如何与Humanizer抗衡
汤姆指南的阿曼达·卡斯韦尔在文章中指出,在尝试了数十款AI检测工具后,Pangram“表现优于其他测试工具”。该工具还被证实正持续努力降低本已较低的误报率。
ZDNET的DavidGewirtz将Pangram描述为"我们测试中的新晋选手,甫一亮相便直冲冠军圈"。
由于研究论文中人工智能的使用日益增多,人们担心这可能成为学术不端行为的指标。亚当·戴在Medium的文章中采用Pangram的AI检测工具,以获取关于AI内容普及率的可靠数据,同时指出生成式AI在研究中存在正当应用场景。戴建议使用Pangram进行研究,并表示:"若有人想调查已发表文献中生成式AI的使用情况,我认为Pangram的工具提供了绝佳的研究机会。"
马里兰大学的研究人员(与微软和Pangram合作)在近期研究中运用Pangram的人工智能检测结果,通过18.6万篇报纸文章样本分析了新闻中人工智能生成文本的存在情况。尽管发现人工智能生成新闻的比例较低,但相关使用情况并未披露。 通过Pangram系统,研究人员在《纽约时报》《华尔街日报》和《华盛顿邮报》的评论版块中识别出"219篇含AI内容的文章"。
该研究能够指出人工智能应用中的细微差别,例如:
撰写报道的记者可能并不知晓,他们在报道中引用的受访者其实是通过人工智能生成的回应。
新闻中的人工智能使用全字母句检测
在Pangram,我们坚信透明是信任的基石。我们期待与您携手,为您的组织带来人工智能的透明化。