الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

يتم نشر 60,000 مقال إخباري من إنتاج الذكاء الاصطناعي كل يوم

برادلي إيمي
5 أغسطس 2024

نظرة عامة

تبلغ قيمة صناعة الأخبار 150 مليار دولار، وتوظف آلاف المراسلين والصحفيين لكتابة مقالات إخبارية تحظى بمليارات المشاهدات. مع ظهور الذكاء الاصطناعي ونموذج اللغة الكبيرة، اعتمدت العديد من المواقع الإخبارية ذات الجودة المنخفضة وبعض الجهات السيئة على الذكاء الاصطناعي لإنتاج محتوى رخيص وسريع وعلى نطاق واسع. ونظرًا لأن الذكاء الاصطناعي لا يمكنه أن يحل محل الصحفي، فإن هذه المواقع الإخبارية تقتصر على تكرار المعلومات التي حصلت عليها من تدريبها أو سرقة مقالات من وسائل إعلام أخرى وإعادة صياغتها.

كما ثبت أن المحتوى غير الأصلي أقل جاذبية وأقل زيارة من قبل المشاهدين عبر الإنترنت. من خلال منشور حديث على مدونة، استشهدنا ببحث أجرته NP Digital والذي توصل إلى أن القراء عبر الإنترنت يفضلون المقالات التي يكتبها البشر ويمنحونها الأولوية. وعلى وجه التحديد:

  • قضى القراء وقتًا أطول بنسبة 93% على الصفحات التي تحتوي على محتوى مكتوب بواسطة البشر مقارنةً بالصفحات التي تحتوي على محتوى تم إنشاؤه بواسطة الذكاء الاصطناعي فقط.
  • كان القراء أكثر عرضة بـ 3.6 مرات في المتوسط لزيارة المقالات التي كتبها بشر مقارنة بتلك التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

توجد هذه المنشورات التي تستخدم الذكاء الاصطناعي بشكل أساسي لسرقة حركة المرور والإيرادات الإعلانية المحتملة من المحتوى الإخباري الأصلي، وهي جزء من عملية متنامية لجمع المحتوى استحوذت على 21% من مرات ظهور الإعلانات وأكثر من 10 مليارات دولار في العام الماضي 2023.

نظراً لإدراكنا للتهديد والأضرار المحتملة الناجمة عن انتشار الأخبار غير الموثوقة، أردنا تحديد الحجم الفعلي لهذه المشكلة. لذلك تعاونا مع NewsCatcher لتصنيف عينة من الأخبار المنشورة عالمياً في يوم معين.

إعداد التجربة

بدأنا أولاً بتجميع مجموعة من جميع الأخبار في العالم التي نُشرت في 1 يوليو 2024.

تعد واجهة برمجة التطبيقات (API) الخاصة بـ NewsCatcher المصدر الأكثر شمولاً للمقالات الإخبارية العالمية التي يتم نشرها يومياً، حيث تضم أكثر من 75,000 مصدر وتقدم خدماتها للمؤسسات الكبيرة. وقد مكنتنا تقنيتهم من البحث في النصوص الكاملة للمقالات المنشورة من جميع أنحاء العالم - والمكتوبة بلغات مختلفة وتغطي مجموعة واسعة من الموضوعات.

باستخدام NewsCatcher، قمنا بجمع جميع الأخبار المنشورة في يوم واحد؛ ومن هذا المخزون من البيانات، قمنا بتحليل 857,434 مقالًا تم جمعها من 26,675 ناشرًا عبر الإنترنت، والتي سنفترض أنها مجموعة تمثيلية للأخبار اليومية المنشورة.

نهج الكشف

بعد الحصول على المقالات، قمنا بتشغيل مصنف Pangram Text لتحديد المقالات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. Pangram Text هو الرائد في مجال دقة التصنيف (أكثر دقة بـ 30 مرة من الحل التجاري الرائد التالي)، مع التزام قوي بانخفاض معدل الإيجابيات الخاطئة. في تقريرنا الفني، نظهر أن معدل الإيجابيات الخاطئة في الأخبار هو 0.001٪ فقط، مما يتيح لنا الثقة عند توقع أن الأخبار هي بالفعل من إنتاج الذكاء الاصطناعي. عادةً ما يأخذ حلنا وثيقة أو جزءًا من نص، ويعيد توقع احتمالية إنشائه بواسطة LLM. بالنسبة لصفحة الويب، سيتعين علينا إجراء بعض المعالجة اللاحقة وتنظيف محتوى الصفحة لعزل نص المقالة فقط، ولكن باستخدام حل NewsCatcher، تمكنا من سحب النص النظيف مباشرةً وتشغيل الاستدلال باستخدام مصنف النصوص الخاص بنا.

توزيع توقعاتنا على مقياس لوغاريتمي. نستخدم مقياس لوغاريتمي لإظهار أن التوقعات القريبة من 0 أو 1 أكثر شيوعًا بمقدار 100-1000 مرة من التوقعات في منتصف النطاق.

ثم قمنا بتصنيف الناشرين حسب إجمالي عدد مقالاتهم وقمنا بتقسيمهم حسب إجمالي محتوى الذكاء الاصطناعي لديهم. إطار التقسيم هو كما يلي:

  • إذا كان لدى ناشر ما أقل من 10٪ من مقالاته مصنفة على أنها AI، فسيتم اعتبار هذا الناشر ناشرًا بشريًا.
  • إذا كان لدى ناشر ما ما بين 10٪ و 50٪ من مقالاته مصنفة على أنها AI، فسيتم اعتبار هذا الناشر ناشرًا ثانويًا لـ AI.
  • إذا كان ما بين 50% و 80% من مقالات ناشر ما مصنفة على أنها مقالات مدعومة بالذكاء الاصطناعي، فسيُعتبر هذا الناشر ناشرًا رئيسيًا في مجال الذكاء الاصطناعي.
  • إذا كان أكثر من 80% من مقالات ناشر ما مصنفة على أنها مقالات مدعومة بالذكاء الاصطناعي، فسيُعتبر هذا الناشر ناشرًا يعتمد بالكامل على الذكاء الاصطناعي.

إحصاءات إجمالية

من بين إجمالي المقالات التي تم أخذ عينات منها، وجدنا ما يلي:

تم تصنيف 59,653 مقالًا على أنها AI، وهو ما يمثل 6.96٪ من مجموعة المقالات.

تفصيل الناشرين عبر الإنترنت

الناشرون مرتبون حسب كمية المحتوى الذي ينشرونه عن الذكاء الاصطناعي ثم قمنا بفحص تصنيفات الذكاء الاصطناعي عبر الميزات الرئيسية بما في ذلك اللغة التي كُتبت بها المقالة، والبلد الذي نُشرت فيه المقالة، والموضوع الذي تناولته المقالة، بالإضافة إلى أهميتها السياسية الخاصة.

البلدان التي سجلت أعلى معدل تكرار لمقالات الذكاء الاصطناعي (100 مقال على الأقل)

رسم بياني لمقالات الذكاء الاصطناعي التي تم إنتاجها حسب البلد (النسبة المئوية من إجمالي المقالات الإخبارية المكتوبة حسب البلد) نلاحظ بشكل عام أن غانا تعتبر حالة استثنائية إلى حد ما فيما يتعلق بالمحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي. على الرغم من أن التكرار الإجمالي أقل، إلا أن الهند تعتبر أيضًا ناشرًا رئيسيًا للمحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي، وهو أمر لا ينبغي أن يكون مفاجئًا بالنظر إلى تأثير التزييف العميق على الانتخابات الهندية الأخيرة.

تكرار الذكاء الاصطناعي حسب الموضوع

رسم بياني لمقالات الذكاء الاصطناعي حسب الموضوع (النسبة المئوية من إجمالي المقالات الإخبارية المكتوبة عن كل موضوع)

نلاحظ أن الجمال (المقالات المدعومة) والتكنولوجيا والأعمال (الاحتيال في مجال العملات المشفرة) هي مواضيع كبيرة بشكل خاص يكتب الناس مقالات عن الذكاء الاصطناعي حولها. ومن المثير للدهشة إلى حد ما أن السياسة تميل إلى أن تكون أقل من المتوسط عندما يتعلق الأمر بمقالات الذكاء الاصطناعي: نعتقد أن هذا يرجع إلى أن المعلنين يميلون إلى تجنب مواقع الأخبار السياسية بسبب مخاطر سلامة العلامة التجارية، مما يقلل من حافز الناشرين لإنتاج محتوى سياسي مخصص للإعلان.

كيف تبدو "أخبار" الذكاء الاصطناعي؟

نحدد عدة فئات من المقالات الإخبارية المتعلقة بالذكاء الاصطناعي: المواقع المصممة للإعلان (MFAs)، والمقالات المدعومة، والاحتيال، والتضليل.

مصمم للإعلان

موقع لا يهدف إلا إلى عرض الإعلانات بدلاً من تقديم محتوى شرعي، وهو ما يُعرف باسم "MFA" - موقع مصمم للإعلانات. فيما يلي مثال على موقع MFA:

موقع مصمم للإعلانات مليء بالإعلانات

كما نرى، لا يوجد أي محتوى فعلي فوق الجزء المرئي من الموقع سوى العنوان، وهناك 8 إعلانات عرضية تتنافس على جذب انتباه المستخدم. المحتوى الذي يعرضه الذكاء الاصطناعي أدناه ليس مخصصًا للقراءة: إنه موجود فقط لجذب الزوار إلى الموقع لامتصاص عائدات الإعلانات قبل أن يغادر المستخدمون الموقع على الفور. غالبًا ما لا يدرك المعلنون أنهم يعلنون على هذه المواقع: الطبيعة البرمجية للإعلان الرقمي تعني أن العطاءات على هذه المساحات الإعلانية يتم شراؤها وبيعها في غضون أجزاء من الثانية باستخدام خوارزميات العطاءات الآلية. تساعد شركات مثل Jounce Media المعلنين على تجنب إهدار ميزانيتهم على مواقع مثل هذه، وهي جزء من مجموعة شركات تسمى "Supply Chain Optimizers" (محسّنو سلسلة التوريد).

يحدد Jounce ثلاث خصائص رئيسية لبرنامج MFA:

  1. حركة المرور المدفوعة: المواقع التي ليس لديها جمهور عضوي أو لديها جمهور عضوي قليل وتعتمد على الزيارات من إعلانات clickbait من مواقع أخرى.
  2. التسييل المكثف: من خلال تحميل الإعلانات بكثافة وتجديد المواقع تلقائيًا بسرعة، يستغل هؤلاء الناشرون فرصة المراجحة من خلال أسواق المزايدة، ولكن على حساب تجربة مستخدم غير مواتية.
  3. مؤشرات الأداء الرئيسية السطحية: تحصل هذه المواقع على درجات عالية في المقاييس الزائفة مثل معدلات المشاهدة ومعدلات إكمال الفيديو، ولكن تظهر أبحاث Jounce أن الإعلانات على مواقع MFA لا تؤثر في الواقع على قرارات الشراء التي يتخذها المشترون.

باختصار، تسرق MFAs حركة الإعلانات من المواقع ذات المحتوى الشرعي، من أجل تقديم مساحات إعلانية رخيصة. وهي تقدم مقاييس زائفة لحملات الإعلانات البرمجية، دون أن تقدم في الواقع أي محتوى مفيد أو أي عائد استثمار فعلي للمعلنين. وهي تلوث الإنترنت وتخلق تجربة مستخدم معادية للمستهلك العادي للإنترنت.

على الرغم من عدم وجود مقياس محدد لتعريف MFA، فإننا نقدر أن MFA تشكل حوالي 50٪ من المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي على الإنترنت.

محتوى مدفوع/برعاية

يمكن شراء بعض الأخبار على الإنترنت كوسيلة للإعلان عن منتج ما، مع التظاهر بأنها محتوى حقيقي كتبته شخصية مؤثرة أو منشور مراجعة شرعي. لاحظنا أن الجمال كان أحد الموضوعات التي تحتوي على أعلى معدل من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. عندما بحثنا في البيانات، وجدنا أن الكثير من المقالات "الإخبارية" تحت موضوع الجمال هي مجرد مقالات برعاية مثل هذه:

كتبت الذكاء الاصطناعي هذا المحتوى المدعوم ذو الجودة المنخفضة

يلجأ العديد من مؤلفي النصوص الإعلانية إلى استخدام الذكاء الاصطناعي لكتابة هذه المقالات الدعائية ذات الجودة المنخفضة، لأن الهدف هو ببساطة بيع المساحة الإعلانية، وليس كتابة مراجعة حقيقية.

الاحتيال

يستخدم محتالو العملات المشفرة الذكاء الاصطناعي لضخ المحتوى بسرعة عالية

نلاحظ أيضًا وجود الكثير من حملات الاحتيال العادية التي يتم إنشاؤها باستخدام الذكاء الاصطناعي. على وجه الخصوص، يبدو أن عمليات الاحتيال المتعلقة بالعملات المشفرة شائعة جدًا، بل إنها يتم الترويج لها على مواقع مرموقة مثل Medium.

التضليل

موقع إعلامي مضلل مليء بمحتوى مصطنع

بينما نجد أن استخدام الذكاء الاصطناعي أقل انتشارًا في الأخبار السياسية (ويرجع ذلك في جزء كبير منه إلى حقيقة أن العديد من المعلنين يميلون إلى تجنب الأخبار السياسية بسبب مخاطر سلامة العلامة التجارية)، فإن الذكاء الاصطناعي هو عنصر متنامٍ في حملات التضليل. تمتلك Newsguard مركزًا لتتبع الذكاء الاصطناعي يوفر تتبعًا مفصلاً ومحدثًا للتضليل المدعوم بالذكاء الاصطناعي.

على عكس الأشكال الأخرى من الخداع التي نرى فيها الأطراف السيئة تستخدم الذكاء الاصطناعي، فإن الهدف من هذه المقالات هو في الواقع حث الناس على قراءة المحتوى. عادةً ما يكون الغرض من هذه الحملات هو تغيير الرأي العام أو المزاج العام بشأن موضوع معين.

مع اقتراب الانتخابات الأمريكية في نوفمبر، لا يسعنا إلا أن نتوقع استمرار هذا النوع من إساءة استخدام الذكاء الاصطناعي.

ملخص

  • حوالي 7٪ من الأخبار اليومية في العالم اعتبارًا من يوليو 2024 من المرجح أن تكون من إنتاج الذكاء الاصطناعي.
  • تعتبر غرب إفريقيا وجنوب آسيا حالتين استثنائيتين فيما يتعلق بكمية المحتوى المنشور عن الذكاء الاصطناعي.
  • تحتل مواضيع الجمال والتكنولوجيا والأعمال أعلى نسبة من محتوى الذكاء الاصطناعي، بينما تحتل مواضيع السياسة والآراء أدنى نسبة.
  • عادة ما يرتبط محتوى الذكاء الاصطناعي بنوع من النوايا السيئة أو السلوك الخادع. تحاول MFAs خداع المعلنين لجعلهم يعتقدون أن المساحة الإعلانية منخفضة الجودة هي في الواقع مساحة مميزة. المحتوى المدعوم ليس بالضرورة خادعًا، ولكنه أيضًا ليس أصليًا تمامًا ولا يمكن الخلط بينه وبين تقييم المستهلك الحقيقي. تشكل عمليات الاحتيال والتضليل تهديدًا حقيقيًا لمستخدمي الإنترنت، كما أن الضرر المحتمل الذي تسببه هذه المواقع واضح.

هل تريد معرفة المزيد عن خريطتنا لمحتوى الذكاء الاصطناعي على الويب، أو قائمة حظر الذكاء الاصطناعي للمعلنين؟ تواصل معنا على info@pangram.com!

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.