案例研究

每天发布6万篇由人工智能生成的新闻文章

布拉德利·埃米

2024年8月5日

目录

概述
实验装置
检测方法
汇总统计
在线出版商的分类
人工智能相关文章发布频率最高的国家（至少100篇）
按主题划分的AI提及频率
人工智能“新闻”是什么样子的？
专为广告打造
付费/赞助内容
诈骗
虚假信息
摘要

概述

新闻业是一个价值1500亿美元的产业，雇佣了数千名记者和新闻工作者撰写新闻报道，这些报道的浏览量高达数十亿次。随着人工智能和大型语言模型的兴起，许多质量较低的新闻网站以及一些不良行为者开始依赖人工智能，以低成本、快速且大规模地生成内容。由于人工智能无法取代记者的作用，这些新闻网站只能局限于重复训练数据中的信息，或是窃取并改写其他媒体的报道。

研究还表明，缺乏真实性的内容往往不受网民青睐，浏览量也较低。在最近的一篇博客文章中，我们引用了NP Digital进行的一项研究，该研究明确指出，网民更青睐并优先阅读由人类撰写的文章。具体而言：

与纯人工智能生成的内容相比，读者在阅读人工撰写的内容时，在页面上停留的时间增加了93%。
与人工智能生成的文章相比，读者访问人工撰写的文章的概率平均高出3.6倍。

这些AI生成内容平台的主要目的在于从真实新闻内容中分流流量和潜在广告收入，它们是日益壮大的“内容农场”运作体系的一部分——该体系在2023年占据了21%的广告展示量，并赚取了超过100亿美元的收入。

鉴于虚假新闻泛滥所带来的威胁及潜在危害，我们希望量化这一问题的实际规模。为此，我们与NewsCatcher合作，对某一天全球发布的新闻样本进行了分类。

实验装置

我们首先整理了一份2024年7月1日全球所有新闻的汇编。

NewsCatcher 的 API是获取全球每日发布新闻文章最全面的来源，拥有超过 75,000 个信息源，并为大型企业提供服务。借助其技术，我们能够检索全球发布的各类文章的全文——这些文章使用多种语言撰写，涵盖广泛的主题。

我们利用NewsCatcher收集了某一天发布的所有新闻；从这批数据中，我们分析了来自26,675家网络发布商的 857,434篇报道，并将其视为当日发布新闻的代表性样本。

检测方法

在收集文章后，我们运行了Pangram Text分类器来确定哪些文章是由AI生成的。Pangram Text在分类准确率方面处于行业领先地位（比排名第二的商业解决方案准确30多倍），并且致力于将误报率降至最低。在我们的技术报告中，我们展示了在新闻分类上的误报率仅为0.001%，这使得我们在预测某条新闻确实由AI生成时能够充满信心。我们的解决方案通常接收文档或文本片段，并返回其由大型语言模型（LLM）生成的可能性预测。对于网页，我们需要对页面内容进行后处理和清理以提取纯文章文本；但借助NewsCatcher解决方案，我们能够直接提取已清理的文本，并使用我们的文本分类器进行推理。

我们的预测结果在对数坐标系中的分布。我们采用对数坐标系，以显示接近0或1的预测结果比分布在中间范围的预测结果多出100到1000倍。

随后，我们将出版商按其文章总数进行汇总分类，并根据其人工智能内容的构成进行分组。分组框架如下：

如果某出版商的文章中被标记为AI生成的比例低于10%，则该出版商将被视为人类出版商
如果某出版商的文章中有10%至50%被标记为AI生成，该出版商将被视为小型AI出版商
如果某出版商的文章中有50%至80%被标记为AI生成，该出版商将被视为一家主要的AI出版商
如果某出版商的文章中有超过80%被标记为AI生成，该出版商将被视为完全由AI生成的出版商

汇总统计

在抽样调查的所有文章中，我们发现：

共有59,653篇论文被归类为AI，占论文总数的6.96%。

在线出版商的分类

按发布的人工智能内容数量排序的出版商随后，我们分析了基于关键特征的人工智能分类结果，这些特征包括文章的撰写语言、文章的发布国家、文章涉及的主题以及其特殊的政治关联性。

人工智能相关文章发布频率最高的国家（至少100篇）

各国人工智能文章产出图表（各国撰写的文章占新闻总量的百分比）总体而言，我们注意到加纳在人工智能生成内容方面是一个相当显著的异常值。尽管总体发布频率较低，但印度也是人工智能生成内容的主要发布国，考虑到……这一点，这并不令人意外。深度伪造技术对近期印度大选的影响.

按主题划分的AI提及频率

按主题分类的人工智能文章图表（各主题文章占新闻总量的百分比）

我们注意到，美容（赞助文章）、科技和商业（加密货币诈骗）是人们撰写人工智能相关文章时特别常涉及的主题。有些出人意料的是，在人工智能相关文章中，政治类内容的占比往往低于平均水平：我们认为这是因为广告商通常会因品牌安全风险而避开政治新闻网站，从而降低了出版商制作面向广告的政治内容的动力。

人工智能“新闻”是什么样子的？

我们将人工智能新闻文章分为几类：广告导向网站（MFAs）、赞助文章、欺诈内容以及虚假信息。

专为广告打造

一个网站如果其唯一目的只是展示广告，而非提供正规内容，就被称为“MFA”（即“为广告而建”的网站）。以下是一个MFA的示例：

专为广告而设的网站，充斥着广告

如我们所见，在网站的“折叠线”上方，除了标题之外并没有实际内容，而是有8个展示广告在争相吸引用户的注意力。下方的AI生成内容其实并非供人阅读：它仅仅是为了吸引访客进入网站，在用户通常会立即跳出之前尽可能多地获取广告收入。广告主往往甚至不知道自己的广告刊登在这些网站上：数字广告的程序化特性意味着，针对这些广告位的竞价正通过自动竞价算法在几毫秒内完成买卖。像Jounce Media这样的公司帮助广告主避免将预算浪费在类似网站上，它们属于一个被称为“供应链优化商”的企业群体。

Jounce 界定了MFA 的三个关键特征：

付费流量：指那些几乎没有或完全没有自然流量，完全依赖其他网站点击诱饵广告带来的访问量的网站。
激进的变现策略：这些发布商通过高广告密度和快速自动刷新广告位，在竞价市场中捕捉套利机会，但代价却是给用户带来糟糕的体验。
表面化的关键绩效指标（KPI）：这些网站在可见率和视频完成率等虚荣指标上表现优异，但Jounce的研究表明，MFA网站上的广告实际上并不会影响买家的购买决策。

总而言之，MFA网站通过窃取拥有合法内容的网站的广告流量，从而以低廉的价格提供广告位。它们向程序化广告活动提供虚假指标，却并未真正为广告主提供任何有价值的内容或实际的投资回报。这些网站充斥着互联网，给普通网民带来了糟糕的用户体验。

虽然目前尚无明确的标准来界定什么是MFA，但据我们估算，MFA约占网络上人工智能生成内容的50%。

付费/赞助内容

互联网上的一些新闻可能是为了宣传产品而付费发布的，却伪装成由网红或正规评测媒体撰写的真实内容。我们注意到，美妆是AI生成内容出现频率最高的主题之一。深入分析数据后，我们发现美妆主题下的许多“新闻”文章其实只是像这篇一样的赞助文章：

这篇低质量的赞助内容由人工智能撰写

许多文案撰稿人只是借助人工智能来撰写这些低质量的赞助文章，因为他们的目的仅仅是出售广告位，而非撰写真实的评测。

诈骗

加密货币诈骗分子利用人工智能以极高的速度制造内容

我们还注意到，有很多由人工智能生成的平庸诈骗活动。尤其是加密货币诈骗似乎非常普遍，甚至在Medium等信誉良好的网站上也有推广。

虚假信息

一个充斥着人工智能生成内容的虚假信息网站

虽然我们发现，人工智能在政治新闻中的应用通常较为有限（这在很大程度上是因为许多广告商出于品牌安全风险的考虑，往往避开政治新闻），但人工智能正日益成为虚假信息传播活动的重要组成部分。Newsguard设有人工智能追踪中心，对利用人工智能制造的虚假信息进行详细且及时的追踪。

与恶意行为者利用人工智能进行的其他欺骗手段不同，这些文章的真正目的其实是吸引人们阅读内容。通常，此类活动的目的是改变公众对特定话题的情绪或看法。

随着11月美国大选的临近，我们可以预见此类滥用人工智能的行为将会持续。

摘要

截至2024年7月，全球每日新闻中约有7%可能是由人工智能生成的。
就人工智能内容的发布量而言，西非和南亚属于特例。
美容、科技和商业领域的人工智能内容占比最高，而政治和观点类内容的占比最低。
人工智能生成的内容通常与某种恶意或欺骗行为有关。MFA（垃圾内容农场）试图欺骗广告商，使其误以为低质量的广告位其实是优质资源。赞助内容未必具有欺骗性，但也不具备真正的真实性，且不应被误认为是真实的消费者评价。诈骗和虚假信息确实对互联网用户构成威胁，这些网站可能造成的危害显而易见。

想进一步了解我们整理的网络人工智能内容地图，或是面向广告商的AI屏蔽列表吗？请通过info@pangram.com 联系我们！

布拉德利·埃米首席技术官，联合创始人

布拉德利是一位人工智能研究员，也是工业领域深度学习产品开发的专家。他最近曾领导生成式人工智能药物发现公司Absci的深度学习研究团队，此前曾是特斯拉Autopilot核心计算机视觉团队的成员。

在攻读研究生期间，布拉德利曾与斯坦福视觉实验室合作，在深度学习研究领域发表了多篇论文。他拥有斯坦福大学物理学学士学位和人工智能硕士学位。除了人工智能，他还对教育和哲学充满热情，并且是一名狂热的高尔夫球手。

查看布拉德利·埃米的更多内容

相关阅读

如何识别AI生成的评论

如何识别AI生成的评论

“究竟该如何识别AI生成的文本呢？” 正如人们常说的，文风即个性。让我们先从一个简单的例子开始。

马克斯·斯佩罗2023年12月5日

第三方全字母句评估

第三方全字母句评估

Pangram 的内部测试经得起第三方审查。

德斯蒂尼·阿基诺德2025年11月4日

67%的网络内容消费者发现其中存在由人工智能生成的误导性信息

67%的网络内容消费者发现其中存在由人工智能生成的误导性信息

随着人工智能生成的内容质量不断提升，人们越来越难以分辨哪些是人类创作的，哪些是ChatGPT生成的。最新的Pangram数据显示，许多人难以区分二者。

马克斯·斯佩罗2026年5月15日

Quora 如何利用全字母句来处理由 AI 生成的答案

Quora 如何利用全字母句来处理由 AI 生成的答案

2024年4月，Pangram Labs 与 Quora 合作，协助其打击利用 ChatGPT 发布虚假、由人工智能生成的回答的垃圾信息发布者。

马克斯·斯佩罗2024年9月26日

目前，亚马逊首页评论中有3%是由人工智能生成的

目前，亚马逊首页评论中有3%是由人工智能生成的

尽管美国联邦贸易委员会（FTC）裁定人工智能生成的评论属于违法行为，但不法分子仍在继续发布由大型语言模型（LLM）生成的、误导消费者的产品评论。就连亚马逊也无法拦截所有此类评论！

马克斯·斯佩罗2026年5月4日

让您的企业具备应对法律人工智能（LLM）和生成式人工智能（GenAI）的能力

让您的企业具备应对法律人工智能（LLM）和生成式人工智能（GenAI）的能力

可以说，人工智能当之无愧地成为了“2023年度人物”。

马克斯·斯佩罗和西奥多罗斯·埃夫杰尼乌2024年1月30日

订阅
以获取我们的最新动态

随时掌握我们的最新资讯与优惠活动。

soc2

SOC2 第2类

经AssuranceLab验证

© 2025 Pangram。保留所有权利。

info@pangram.com

加入我们的社区

© 2025 Pangram。保留所有权利。