宣布与Proofig建立全新合作伙伴关系!了解更多

每天有60,000篇由人工智能生成的新闻文章被发布。

布拉德利·艾米
2024年8月5日

概述

新闻业是一个价值1500亿美元的产业,雇佣着数千名记者撰写新闻报道,这些报道获得数十亿次浏览量。随着人工智能和大型语言模型的兴起,许多质量较低的新闻网站以及某些不良行为者开始依赖人工智能来低成本、快速且大规模地生成内容。由于人工智能无法替代记者的角色,这些新闻网站只能重复其训练数据中的信息,或是窃取并改写其他媒体的报道。

研究证实,缺乏真实性的内容更不受网络观众青睐,访问量也更低。根据NP Digital近期的一篇博客文章所引述的研究,网络读者更倾向于优先阅读人类创作的文章。具体而言:

  • 读者人类撰写的内容页面上停留的时间比纯AI生成内容页面多出93%
  • 读者访问人类撰写文章的平均概率是访问AI生成文章的3.6倍

这些人工智能出版物主要存在于从真实新闻内容中分流流量和潜在广告收入,并作为日益壮大的内容农场运作的一部分——该类平台在2023年占据了21%的广告展示量,并获取了超过100亿美元的收益。

鉴于虚假新闻泛滥带来的威胁与潜在危害,我们试图量化这一问题的实际规模。为此,我们与NewsCatcher合作,对每日全球发布的新闻样本进行分类。

实验设置

我们首先汇编了2024年7月1日全球所有新闻的合集。

NewsCatcher的API是全球每日发布新闻文章最全面的来源,拥有超过75,000个信息源,并为大型企业组织提供服务。其技术使我们能够检索全球发布的文章全文——这些文章采用多种语言撰写,涵盖广泛主题领域。

通过NewsCatcher工具,我们收集了某日发布的所有新闻;从这批数据中,我们分析了来自26,675家在线出版商的 857,434篇报道,将其视为当日新闻发布的代表性样本。

检测方法

在收集文章后,我们运行了Pangram Text分类器来识别哪些文章由AI生成。Pangram Text在分类准确率方面处于行业领先地位(比次优商业解决方案高出30倍以上),并致力于将误报率控制在极低水平。我们的技术报告显示,新闻内容的误报率仅为0.001%,这使我们能够确信当预测某条新闻为AI生成时,其真实概率确实如此。 我们的解决方案通常接收文档或文本片段,并返回其由大型语言模型生成的概率预测。对于网页内容,我们需进行后处理和清理以提取纯文章文本,但借助NewsCatcher解决方案,我们能直接获取清理后的文本并运行文本分类器进行推理。

预测值的对数分布图。采用对数刻度可直观呈现:接近0或1的预测值出现频率比分布中段预测值高出100至1000倍。

随后,我们将出版商按其总文章数量进行聚合分类,并根据其人工智能内容总量进行分桶。分桶框架如下:

  • 如果某出版商标记为AI的文章占比低于10%,则该出版商将被视为人类出版商。
  • 若某出版商有10%至50%的文章被标记为AI生成,则该出版商将被视为次要AI出版商。
  • 若某出版商有50%至80%的文章被标记为AI生成,则该出版商将被视为主要AI出版商。
  • 若某出版商超过80%的文章被标记为AI生成,则该出版商将被视为完全由AI生成的出版商。

聚合统计

在抽样的所有文章中,我们发现:

59,653篇文章被归类为AI文章,占文章总数的6.96%

在线出版商的崩溃

按发布的人工智能内容数量排序的出版商 随后,我们考察了人工智能在关键特征上的分类结果,包括文章的撰写语言、发表国家、涉及主题以及特殊政治关联性。

人工智能相关文章发布频率最高的国家(至少100篇)

各国人工智能文章产量分布图(占该国新闻总量的百分比) 我们注意到,就人工智能生成内容而言,加纳总体上是一个相当突出的异常值。尽管整体频率较低,印度也是人工智能生成内容的主要发布国,考虑到该国的情况,这并不令人意外。 深度伪造技术对近期印度大选的影响.

按主题划分的AI频率

按主题划分的AI文章图表(每个主题占新闻总量的百分比)

我们注意到,美妆(赞助文章)、科技和商业(加密货币骗局)是人们撰写AI文章的热门主题。令人意外的是,政治类AI文章的占比低于平均水平:我们认为这是因为广告商出于品牌安全风险的考虑,往往避开政治新闻网站,从而降低了出版商制作政治类广告内容的动力。

人工智能“新闻”是什么样子的?

我们识别出几类人工智能新闻文章:广告定制网站(MFAs)、赞助文章、欺诈内容以及虚假信息。

专为广告打造

一个网站若仅以投放广告为目的而非提供合法内容,则可称为“MFA”——即广告专用网站。以下是一个MFA的示例:

专为广告而设的网站,充斥着广告

如我们所见,网站折叠线以上区域除标题外并无实质内容,仅有8个展示广告争相吸引用户注意。下方的人工智能内容并非真正供阅读:其存在目的仅在于吸引访客进入网站,在用户通常立即跳出前尽可能吸纳广告收益。 广告主往往甚至不知晓自己的广告出现在这类网站上:数字广告的程序化特性意味着,这些广告位的竞价交易通过自动化算法在毫秒间完成。 JounceMedia等公司帮助广告主避免将预算浪费在类似网站上,它们隶属于"供应链优化者"企业联盟。

Jounce定义了MFA的三个关键特征

  1. 付费流量:指那些几乎没有自然流量、完全依赖其他网站点击诱饵广告带来的访问量的网站。
  2. 激进变现策略:通过高广告负载和快速自动刷新广告位,这些发布商在竞价市场中捕捉套利机会,却以破坏用户体验为代价。
  3. 表面KPI:这类网站在可见率和视频完成率等虚荣指标上表现优异,但Jounce的研究表明,MFA网站上的广告实际上并不会影响消费者的购买决策。

简而言之,虚假流量网站通过窃取正规网站的广告流量,以低廉价格提供广告位资源。它们向程序化广告投放提供虚荣指标,却未能为广告主提供任何有价值的内容或实际投资回报。这些网站充斥着互联网空间,给普通网民造成恶劣的用户体验。

虽然目前尚无明确标准来界定什么是多媒体艺术(MFA),但我们估计,在网络上由人工智能生成的内容中,多媒体艺术作品约占50%。

付费/赞助内容

互联网上某些新闻可被购买用于产品宣传,同时伪装成由网红或正规评测媒体撰写的真实内容。我们注意到美妆领域是人工智能生成内容出现频率最高的主题之一。深入数据分析后发现,美妆类主题下的许多"新闻"文章实为赞助内容,例如这篇:

AI撰写了这篇低质量的赞助内容

许多文案撰稿人如今直接借助人工智能来创作这些低质量的赞助文章,因为他们的目标仅仅是兜售广告位,而非撰写真实的评测内容。

诈骗

加密货币诈骗者利用人工智能高速制造虚假内容

我们注意到大量由人工智能生成的平庸诈骗活动。尤其加密货币骗局似乎已司空见惯,甚至在Medium等知名平台上被大肆宣传。

虚假信息

一个充斥着人工智能内容的虚假信息网站

尽管我们发现人工智能在政治新闻中的应用普遍较少(很大程度上是因为许多广告商出于品牌安全风险的考虑,往往避开政治新闻),但人工智能正日益成为虚假信息传播活动的重要组成部分。Newsguard设有专门的人工智能追踪中心,对人工智能驱动的虚假信息进行详细而及时的追踪。

与恶意行为者利用人工智能实施的其他欺骗手段不同,此类文章的真正目的在于吸引人们阅读内容。这类行动通常旨在改变公众对特定议题的情绪或观点。

随着11月美国大选临近,我们只能预期此类人工智能滥用行为将持续发生。

摘要

  • 截至2024年7月,全球每日新闻中约有7%可能由人工智能生成。
  • 在人工智能内容发布量方面,西非和南亚地区表现异常突出。
  • 美容、科技和商业领域的人工智能内容占比最高,而政治和观点类内容占比最低。
  • 人工智能生成内容通常与某种恶意或欺骗行为相关联。虚假广告试图欺骗广告商,使其误认低质量广告位实为优质资源。赞助内容虽未必具有欺骗性,但亦非真正原汁原味,不可与真实消费者评价混为一谈。诈骗与虚假信息对互联网用户构成实质性威胁,此类网站可能造成的危害显而易见。

想了解更多关于我们覆盖全网的AI内容地图,或专为广告商打造的AI屏蔽列表?请通过info@pangram.com联系我们!

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。