دراسات حالة

تتوقع Pangram أن 21% من المراجعات في مؤتمر ICLR تم إنشاؤها بواسطة الذكاء الاصطناعي

18 نوفمبر 2025

هل يستخدم المؤلفون نماذج اللغة الكبيرة (LLMs) لكتابة الأوراق البحثية في مجال الذكاء الاصطناعي؟ وهل يعهد المراجعون إلى أدوات الذكاء الاصطناعي التوليدية بمهمة كتابة مراجعاتهم لهذه الأوراق؟ وللتوصل إلى إجابة عن ذلك، قمنا بتحليل جميع الأوراق البحثية البالغ عددها 19,000 ورقة والمراجعات البالغ عددها 70,000 مراجعة من المؤتمر الدولي لتعلم التمثيلات (ICLR)، وهو أحد أهم وأعرق المنتديات لنشر الأبحاث في مجال الذكاء الاصطناعي. بفضل OpenReview وعملية المراجعة العامة لـ ICLR، تم إتاحة جميع الأوراق البحثية ومراجعاتها للجمهور عبر الإنترنت، وقد مكنت عملية المراجعة المفتوحة هذه من إجراء هذا التحليل.

لقد قمنا بنشر جميع النتائج على الموقع iclr.pangram.com.

لماذا ندرس الأوراق المقدمة إلى مؤتمر ICLR؟

حسناً، أولاً، لقد عُرضت علينا مكافأة!

تغريدة غراهام نيوبيغ التي عرض فيها مكافأة مالية مقابل تحليل الأوراق المقدمة إلى مؤتمر ICLRتغريدة غراهام نيوبيغ التي عرض فيها مكافأة مالية مقابل تحليل الأوراق المقدمة إلى مؤتمر ICLR

وبكل جدية، لاحظ العديد من المؤلفين والمراجعين في مجلة ICLR بعض حالات سوء السلوك العلمي الصارخة المرتبطة بالذكاء الاصطناعي، مثل ورقة بحثية أنتجها نموذج لغوي كبير (LLM) تحتوي على مراجع مختلقة تمامًا، وادعاء العديد من المؤلفين بتلقيهم مراجعات تم إنتاجها بالكامل بواسطة الذكاء الاصطناعي.

بل إن أحد المؤلفين أفاد بأن أحد المراجعين طرح 40 سؤالاً تم إنشاؤها بواسطة الذكاء الاصطناعي في مراجعته العلمية!

أردنا تقييم حجم هذه المشكلة بشكل عام: هل هذه الأمثلة على السلوك السيئ مجرد حوادث فردية، أم أنها تشير إلى نمط أوسع نطاقاً؟ ولهذا السبب قبلنا عرض غراهام!

هل يُسمح باستخدام الذكاء الاصطناعي في الأوراق المقدمة إلى مؤتمر ICLR وفي عملية المراجعة النظيرة؟

لدى ICLR سياسة واضحة ومفصلة للغاية بشأن ما هو مسموح به وما هو غير مسموح به فيما يتعلق باستخدام نماذج اللغة الكبيرة (LLM) في كل من الأوراق البحثية والمراجعات.

السياسة 1. يجب الإفصاح عن أي استخدام لبرنامج LLM، وفقًا لسياسات مدونة قواعد السلوك التي تنص على أنه «يجب الإشارة إلى جميع المساهمات في البحث» وأن المساهمين «يجب أن يتوقعوا ... الحصول على التقدير عن عملهم».

السياسة 2. يتحمل مؤلفو ومراجعو مجلة ICLR المسؤولية النهائية عن مساهماتهم، وفقًا لسياسة مدونة قواعد السلوك التي تنص على أنه «يجب على الباحثين عدم الإدلاء عمداً بادعاءات كاذبة أو مضللة، أو تلفيق البيانات أو تزويرها، أو تحريف النتائج».

كما تضع ICLR إرشادات يجب على المؤلفين اتباعها عند استخدام نماذج اللغة الكبيرة (LLMs) في أوراقهم البحثية ومراجعاتهم. وباختصار:

  • يُسمح للمؤلفين باستخدام النماذج اللغوية الكبيرة (LLMs) للمساعدة في صياغة أبحاثهم وكمساعدين بحثيين، لكن يتعين عليهم الإفصاح عن هذا الاستخدام، كما أنهم مسؤولون عن النزاهة العلمية لأبحاثهم.
  • يُسمح للمؤلفين باستخدام نماذج اللغة الكبيرة (LLM) للمساعدة في التدقيق الإملائي والنحوي في مراجعاتهم التي تستند إلى هذه النماذج، لكن استخدام نموذج لغة كبيرة لكتابة المراجعة بأكملها يُعد انتهاكًا محتملاً لقواعد السلوك الأخلاقي، وذلك استنادًا إلى كل من تقديم رأي أو وجهة نظر خارجية بشأن الورقة البحثية على أنها رأيهم الخاص، وانتهاك السرية.

لذا، فإننا لا نجري هذه الدراسة بهدف فضح المخالفين الأفراد — حيث إن استخدام النماذج اللغوية الكبيرة (LLMs) مسموح به فعليًا في كل من عملية تقديم الأوراق البحثية وعملية المراجعة النظيرة. بل نرغب بدلاً من ذلك في لفت الانتباه إلى حجم استخدام الذكاء الاصطناعي في الأوراق البحثية وعملية المراجعة النظيرة، وإبراز أن المراجعات التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي (والتي من المرجح بالفعل أن تشكل انتهاكات لقواعد الأخلاقيات) تمثل مشكلة أكثر انتشارًا بكثير مما يدركه الكثيرون.

المنهجية

قمنا أولاً بتنزيل جميع ملفات PDF الخاصة بالورقات المقدمة إلى مؤتمر ICLR باستخدام واجهة برمجة تطبيقات OpenReview. كما قمنا بتنزيل جميع الملاحظات، مما سمح لنا باستخراج نص المراجعة.

لقد وجدنا أن استخدام محلل ملفات PDF عادي مثل PyMuPDF لم يكن كافياً بالنسبة لأوراق ICLR، حيث غالباً ما لم تتم معالجة أرقام الأسطر والصور والجداول بشكل صحيح. لذلك، من أجل استخراج النص الرئيسي للورقة البحثية، استخدمنا Mistral OCR لتحليل النص الرئيسي للورقة البحثية من ملف PDF كملف Markdown. ونظرًا لأن الذكاء الاصطناعي يميل أيضًا إلى تفضيل مخرجات Markdown، فقد قمنا بعد ذلك بإعادة تنسيق ملف Markdown كنص عادي، وذلك للتخفيف من الإيجابيات الخاطئة الناتجة عن التنسيق وحده.

ثم قمنا بتشغيل مصنف النص الموسع من Pangram على النص العادي الذي تم تحليله من ملفات PDF هذه. تقوم النسخة الموسعة من المصنف أولاً بتقسيم النص إلى مقاطع، ثم تشغل نموذج الكشف عن الذكاء الاصطناعي على كل مقطع على حدة. وتكون النتيجة عبارة عن نسبة مئوية توضح عدد المقاطع التي أظهرت نتائج إيجابية باعتبارها نصوصًا أنشأها الذكاء الاصطناعي؛ وبالتالي، يمكن أن تشير النتيجة إلى أن المقالة مكتوبة بالكامل بواسطة الإنسان، أو أنشأها الذكاء الاصطناعي بالكامل، أو أنها مختلطة، حيث تظهر بعض المقاطع نتائج إيجابية وبعضها الآخر نتائج سلبية.

كما قمنا بفحص المراجعات النظيرة التي استخدمت الذكاء الاصطناعي باستخدام نموذجنا الجديد «EditLens». ولا يقتصر دور «EditLens» على الكشف عن وجود الذكاء الاصطناعي فحسب، بل يمكنه أيضًا وصف مدى مشاركة الذكاء الاصطناعي في عملية التحرير. ويمكن لـ«EditLens» توقع أن يندرج النص ضمن إحدى الفئات الخمس التالية:

  • مكتوب بالكامل بواسطة البشر
  • تم تحريرها بمساعدة الذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي بشكل طفيف
  • متوسط (تم تحريره بواسطة الذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي)
  • تم تحريرها بشكل مكثف باستخدام الذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي
  • تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي

لا يتوفر EditLens حاليًا إلا لعملائنا المشاركين في الإصدار التجريبي الخاص، ولكنه سيصبح متاحًا للجمهور في أوائل ديسمبر. سيكون لدينا المزيد لنقوله عن هذا النموذج في الأسابيع المقبلة، ولكن في نسخة ما قبل النشر من بحثنا، نصف أداءه بأنه الأحدث في مجال توليد النصوص المشتركة التأليف، وبالنسبة للمعايير الداخلية، فإنه يتمتع بدقة مماثلة لنموذجنا الحالي عند تقييمه كمصنف ثنائي، ومعدل إيجابي كاذب منخفض للغاية يبلغ 1 من كل 10,000 في النصوص المكتوبة بالكامل بواسطة البشر.

النتائج

في تحليلنا السابق لأوراق مؤتمرات الذكاء الاصطناعي، وجدنا أن معدل الإيجابيات الخاطئة لنظام «بانغرام» يبلغ صفرًا في المائة في جميع أوراق مؤتمري ICLR وNeurIPS المتاحة التي نُشرت قبل عام 2022. ورغم أن بعض هذه الأوراق موجود بالفعل في مجموعة التدريب، إلا أنها ليست كلها كذلك؛ ولذلك نعتقد أن الأداء الحقيقي لنظام «بانغرام» في مجموعة الاختبار يقترب في الواقع كثيرًا من صفر في المائة.

ماذا عن تقييمات الأقران؟ أجرينا تجربة مراقبة سلبية إضافية، حيث قمنا بتشغيل نموذج EditLens الأحدث على جميع تقييمات الأقران لعام 2022. ووجدنا معدل خطأ يبلغ حوالي 1 من كل 1000 في حالة "التحرير الخفيف" مقابل "البشري بالكامل"، ومعدل خطأ يبلغ 1 من كل 5000 في حالة "التحرير المتوسط" مقابل "البشري بالكامل"، ومعدل خطأ يبلغ 1 من كل 10000 في حالة "التحرير المكثف" مقابل "البشري بالكامل". ولم نجد أي تباين بين "المنشأ بالكامل بواسطة الذكاء الاصطناعي" و"البشري بالكامل".

توزيع تنبؤات EditLens على المراجعات في ICLR 2022 (المجموعة الضابطة السلبية)توزيع تنبؤات EditLens على المراجعات في ICLR 2022 (المجموعة الضابطة السلبية)

بالنسبة للتجربة نفسها، قمنا بتشغيل برنامج Pangram على جميع الأوراق البحثية ومراجعات الأقران. وفيما يلي النتائج الرئيسية:

وجدنا أن 21٪، أي 15,899 تقييمًا، تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي. كما وجدنا أن أكثر من نصف التقييمات تضمنت شكلاً من أشكال مشاركة الذكاء الاصطناعي، سواء كان ذلك في شكل تحرير أو مساعدة أو إنشاء كامل بواسطة الذكاء الاصطناعي.

توزيع توقعات EditLens على مراجعات ICLR 2026توزيع توقعات EditLens على مراجعات ICLR 2026

من ناحية أخرى، لا تزال معظم الأوراق البحثية المقدمة مكتوبة بواسطة البشر (61% منها كُتبت في الغالب بواسطة البشر). ومع ذلك، فقد عثرنا على عدة مئات من الأوراق البحثية التي تم إنتاجها بالكامل بواسطة الذكاء الاصطناعي، على الرغم من أنها تبدو حالات شاذة، كما أن 9% من الأوراق المقدمة احتوت على أكثر من 50% من المحتوى الذي أنتجه الذكاء الاصطناعي. وتجدر الإشارة إلى أن بعض الأوراق البحثية التي تم إنتاجها بالكامل بواسطة الذكاء الاصطناعي قد تم رفضها مبدئيًا وحذفها من منصة OpenReview قبل أن تتاح لنا الفرصة لإجراء التحليل.

توزيع محتوى الذكاء الاصطناعي في الأوراق البحثية المقدمة إلى مؤتمر ICLR 2026توزيع محتوى الذكاء الاصطناعي في الأوراق البحثية المقدمة إلى مؤتمر ICLR 2026

التحليل

لقد لاحظنا بعض الاتجاهات المثيرة للاهتمام في النتائج، والتي تسلط الضوء على كيفية استخدام الذكاء الاصطناعي في كل من تقديم الأوراق البحثية ومراجعات الأقران، وما هي الآثار المترتبة على هذا الاستخدام في عملية المراجعة نفسها.

يرتبط استخدام الذكاء الاصطناعي في الأبحاث بتقييمات أقل

على عكس دراسة سابقة أظهرت أن نماذج اللغة الكبيرة (LLMs) غالبًا ما تفضل نواتجها الخاصة على الكتابة البشرية عند استخدامها كجهة تقييم، وجدنا العكس: فكلما زاد وجود النصوص التي أنشأتها الذكاء الاصطناعي في المقالة المقدمة، كلما كانت التقييمات أسوأ.

متوسط درجات التقييم حسب محتوى الذكاء الاصطناعي في الأوراق البحثيةمتوسط درجات التقييم حسب محتوى الذكاء الاصطناعي في الأوراق البحثية

قد يعود ذلك إلى أسباب متعددة. أحدها هو أنه كلما زاد استخدام الذكاء الاصطناعي في ورقة بحثية ما، انخفض مستوى التخطيط والتنفيذ العام لتلك الورقة. ومن المحتمل أن الذكاء الاصطناعي، عند استخدامه في الكتابة العلمية، يُستخدم في الغالب للتخلص من عبء العمل أو كطريق مختصر، بدلاً من استخدامه كأداة مساعدة تكميلية. بالإضافة إلى ذلك، فإن حصول الأوراق البحثية التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي على درجات أقل يشير إلى أن الأبحاث التي يتم إنشاؤها بواسطة الذكاء الاصطناعي لا تزال ذات جودة منخفضة، ولا تمثل مساهمة حقيقية في العلوم (حتى الآن).

تحظى تقييمات الذكاء الاصطناعي بدرجات أعلى

متوسط تقييمات المستخدمين حسب مستوى استخدام الذكاء الاصطناعيمتوسط تقييمات المستخدمين حسب مستوى استخدام الذكاء الاصطناعي

لقد لاحظنا أنه كلما زاد دور الذكاء الاصطناعي في عملية المراجعة، ارتفعت الدرجة النهائية. وهذا أمر مثير للقلق: فهو يعني أنه بدلاً من إعادة صياغة رأي المراجع نفسه باستخدام الذكاء الاصطناعي كإطار مرجعي (لو كان الأمر كذلك، لكنا توقعنا أن يكون متوسط الدرجات متماثلاً بين المراجعات التي يقوم بها الذكاء الاصطناعي وتلك التي يقوم بها البشر)، فإن المراجعين في الواقع يعهدون إلى الذكاء الاصطناعي بمهمة تقييم الورقة البحثية بدلاً منهم. إن تحريف رأي نموذج اللغة الكبير (LLM) على أنه الرأي الفعلي للمراجع يعد انتهاكًا واضحًا لقواعد السلوك الأخلاقي. نحن نعلم أن الذكاء الاصطناعي يميل إلى التملق، مما يعني أنه يقول الأشياء التي يرغب الناس في سماعها والتي ترضيهم بدلاً من إبداء رأي غير متحيز: وهي خاصية غير مرغوب فيها على الإطلاق عند تطبيقها على المراجعة النظيرة! وهذا قد يفسر التحيز الإيجابي في الدرجات بين المراجعات التي يقوم بها الذكاء الاصطناعي.

تكون تقييمات الذكاء الاصطناعي أطول

متوسط طول المراجعة حسب مستوى مشاركة الذكاء الاصطناعيمتوسط طول المراجعة حسب مستوى مشاركة الذكاء الاصطناعي

في السابق، كان طول المراجعة يعني أنها مدروسة جيدًا وذات جودة أعلى، ولكن في عصر النماذج اللغوية الكبيرة (LLMs)، غالبًا ما يعني ذلك العكس تمامًا. فالمراجعات التي يُنتجها الذكاء الاصطناعي تكون أطول وتحتوي على الكثير من «المحتوى الحشو». وفقًا لـ Shaib et. al.، في ورقة بحثية بعنوان "قياس هراء الذكاء الاصطناعي في النص"، تتمثل إحدى خصائص "هراء" الذكاء الاصطناعي في انخفاض كثافة المعلومات فيه - مما يعني أن الذكاء الاصطناعي يستخدم الكثير من الكلمات ليقول القليل جدًا من حيث المحتوى الفعلي.

ونلاحظ أن هذا الأمر ينطبق أيضًا على مراجعات نماذج اللغة الكبيرة (LLM): فالذكاء الاصطناعي يستخدم عددًا كبيرًا من الكلمات، لكنه لا يقدم في الواقع تعليقات غنية بالمعلومات. ونرى أن هذا يمثل مشكلة لأن المؤلفين يضطرون إلى إضاعة الوقت في تحليل مراجعة طويلة والإجابة على أسئلة فارغة لا تحتوي في الواقع على تعليقات مفيدة. ومن الجدير بالذكر أيضًا أن معظم المؤلفين سيطلبون على الأرجح من نموذج لغوي ضخم مراجعة ما قدموه قبل إرساله فعليًا. وفي هذه الحالات، تكون التعليقات الواردة من مراجعة نموذج لغوي ضخم زائدة عن الحاجة وغير مفيدة إلى حد كبير، لأن المؤلف قد رأى بالفعل الانتقادات الواضحة التي سيقدمها النموذج اللغوي الضخم.

هل هناك اتهامات باطلة؟

على الرغم من أن معدل النتائج الإيجابية الخاطئة في Pangram منخفض للغاية، إلا أنه ليس صفراً، ولذلك تقع على عاتقنا مسؤولية تقييم مدى موثوقية الأداة قبل التوصية باستخدامها لاتخاذ قرارات محددة بشأن مصير الورقة البحثية (مثل قرار الرفض المبدئي) أو معاقبة أحد المراجعين. لقد قمنا بقياس معدل النتائج الإيجابية الخاطئة داخل المجال بشكل مباشر باستخدام دراسات المراقبة السلبية الموصوفة أعلاه، ولكن ماذا عن مجموعات البيانات والمعايير المرجعية الأخرى، وكذلك النصوص العامة؟

لقد قمنا بتوثيق معدل النتائج الإيجابية الخاطئة في Pangram في هذا المنشور السابق على المدونة.

  • يبلغ معدل الإيجابيات الخاطئة الإجمالي لـ Pangram 1 من كل 10,000 في مستندات مجموعة الاختبار.
  • يبلغ معدل النتائج الإيجابية الخاطئة لـ Pangram على الأوراق العلمية المستبعدة من ArXiV 1 من كل 100,000.
  • يبلغ معدل النتائج الإيجابية الخاطئة لنظام بانجرام عند تحليل الأوراق الطبية المستبعدة من قاعدة بيانات PubMed صفرًا (بثقة تصل إلى 3 أرقام عشرية).

كما تم التحقق من دقة Pangram من خلال العديد من الدراسات التي أجرتها جهات خارجية، بما في ذلك دراسات حديثة أجرتها كلية بوث للأعمال بجامعة شيكاغو والجمعية الأمريكية لأبحاث السرطان.

لوضع هذه الأرقام في سياقها الصحيح، فإن معدل النتائج الإيجابية الخاطئة في Pangram يماثل معدل النتائج الإيجابية الخاطئة في اختبارات الحمض النووي أو اختبارات الكشف عن المخدرات: فالحالة التي تُعتبر فيها نتيجة إيجابية خاطئة حقيقية — أي عندما يُخلط بين نص تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي ونص كُتب بالكامل بواسطة الإنسان — ليست معدومة، لكنها نادرة للغاية.

كيف يمكنك معرفة ما إذا كنت قد خضعت لمراجعة أقران باستخدام الذكاء الاصطناعي؟

إذا كنت كاتبًا وتشك في أنك تلقيت تعليقًا تم إنشاؤه بواسطة الذكاء الاصطناعي، فهناك عدة علامات دالة يمكنك البحث عنها. ورغم أن Pangram قادر على اكتشاف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، إلا أنه يمكنك أيضًا التعرف على علامات التعليقات التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالعين المجردة.

لقد قمنا بإعداد دليل عام للكشف عن أنماط الكتابة التي تنتجها الذكاء الاصطناعي بالاعتماد على الملاحظة البصرية، لكننا نلاحظ وجود بعض الإشارات والمؤشرات الإضافية التي تظهر بشكل خاص في عمليات المراجعة النظيرة التي يقوم بها الذكاء الاصطناعي.

بعض "العلامات" التي نلاحظها في المراجعات النظيرة في مجال الذكاء الاصطناعي:

  • أنماط العناوين: غالبًا ما تُنشئ المراجعات النظيرة التي تُنتجها الذكاء الاصطناعي عناوين أقسام بارزة تتضمن علامات تلخيصية مكونة من كلمتين أو ثلاث كلمات تليها فاصلة. على سبيل المثال:

نقاط القوة: صياغة واضحة للمشكلة: تتناول الورقة مشكلة حقيقية، وهي أن أنظمة التعرف الضوئي على الحروف (OCR) القائمة على نماذج اللغة المرنة (VLM) تُنتج نتائج خاطئة عند معالجة المستندات التالفة دون الإشارة إلى عدم اليقين، وهو ما يعد أسوأ من أنظمة OCR التقليدية التي تُنتج مخرجات مشوشة بشكل واضح. وقد تم توضيح الدافع وراء البحث بشكل جيد. منهجية منهجية: نهج التدريب على مرحلتين (البداية الباردة ذات التسمية الزائفة + GRPO) معقول وموصوف جيدًا. ويُظهر تصميم المكافأة متعدد الأهداف مع ضمانات ضد اختراق المكافأة (خاصة عامل التخميد لعدم تطابق الطول η) هندسة دقيقة.

الأسئلة: 1. التعميم على حالات التلف الفعلية: هل يمكن للمؤلفين إجراء تقييم على مستندات متضررة من الواقع (مثل مجموعات بيانات المستندات التاريخية) لإثبات أن هذه الطريقة قابلة للتعميم خارج نطاق مسار التلف الاصطناعي المحدد؟ 2. المقارنة مع أنظمة MinerU: تمثل MinerU وMinerU2.5 [2،3] أحدث التطورات في مجال تحليل المستندات. كيف تقارن الطريقة المقترحة بهذه الأنظمة في Blur-OCR؟ إذا لم تتمكن هذه الأنظمة من إنتاج تقديرات عدم اليقين، فهل يمكن دمجها مع نهج وضع العلامات المقترح؟

  • انتقادات سطحية بدلاً من التحليل الحقيقي: تميل المراجعات التي يُنتجها الذكاء الاصطناعي إلى التركيز على قضايا سطحية بدلاً من المخاوف الحقيقية المتعلقة بالنزاهة العلمية للورقة البحثية. وقد تشمل الانتقادات النموذجية التي يوجهها الذكاء الاصطناعي المطالبة بإجراء المزيد من عمليات الاستئصال التي تشبه إلى حد كبير تلك المعروضة، أو طلب زيادة حجم مجموعة الاختبار أو عدد المجموعات الضابطة، أو طلب مزيد من التوضيح أو المزيد من الأمثلة.

  • الكثير من الكلمات التي لا تعني شيئًا: غالبًا ما تتسم مراجعات الذكاء الاصطناعي بقلة المعلومات، حيث تستخدم لغة مطولة للتعبير عن أفكار يمكن صياغتها بشكل أكثر إيجازًا. وتؤدي هذه الإسهاب إلى زيادة عبء العمل على المؤلفين الذين يضطرون إلى فحص المراجعات المطولة لاستخلاص النقاط النقدية الجوهرية الفعلية.

لماذا تُعد الأوراق البحثية في مجال الذكاء الاصطناعي ومراجعات الأقران في هذا المجال ضارة بالعملية العلمية؟

في وقت سابق من هذا العام، نشر باحثون من جامعة UNIST في كوريا ورقة موقف أوجزوا فيها بعض أسباب تدهور جودة عملية المراجعة النظيرة. ومع استمرار نمو مجال الذكاء الاصطناعي، بدأت الضغوط التي تتعرض لها موارد نظام المراجعة النظيرة في الظهور في نهاية المطاف. فعدد المراجعين المؤهلين محدود بكل بساطة مقارنة بالزيادة الهائلة في عدد الأوراق البحثية.

تكمن المشكلة الأكبر في الأوراق البحثية ذات الجودة الرديئة التي يُنتجها الذكاء الاصطناعي في أنها تُهدر ببساطة الوقت والموارد المحدودة. ووفقًا لتحليلنا، فإن الأوراق البحثية التي يُنتجها الذكاء الاصطناعي ليست بنفس جودة الأوراق التي يكتبها البشر، والأمر الأكثر إثارة للقلق هو أنه يمكن إنتاجها بتكلفة زهيدة من قِبل المراجعين غير النزيهين و"مصانع الأوراق البحثية" التي تعتمد على أسلوب "الرش والدعاء" (أي تقديم عدد كبير من الأوراق إلى مؤتمر ما على أمل أن يتم قبول إحداها بالصدفة). إذا سُمح للأوراق البحثية التي تم إنشاؤها بواسطة الذكاء الاصطناعي بإغراق نظام المراجعة النظيرة، فستستمر جودة المراجعة في الانخفاض، وسيقل حماس المراجعين بسبب اضطرارهم لقراءة أوراق بحثية "رديئة" بدلاً من الأبحاث الحقيقية.

إن فهم الأسباب التي تجعل التعليقات التي تولدها الذكاء الاصطناعي قد تكون ضارة هو أمر أكثر تعقيدًا بعض الشيء. نحن نتفق مع ICLR في أن الذكاء الاصطناعي يمكن استخدامه بشكل إيجابي كأداة مساعدة للمراجعين لتوضيح أفكارهم بشكل أفضل، خاصةً عندما لا تكون اللغة الإنجليزية هي اللغة الأم للمراجع. بالإضافة إلى ذلك، يمكن للذكاء الاصطناعي في كثير من الأحيان تقديم ملاحظات مفيدة حقًا، وغالبًا ما يكون من المفيد للمؤلفين محاكاة عملية المراجعة النظيرة باستخدام نماذج اللغة الكبيرة (LLMs)، لجعل هذه النماذج تنتقد البحث وتكشف ثغراته، وتكتشف الأخطاء التي ربما لم يلاحظها المؤلف في الأصل.

ومع ذلك، يبقى السؤال مطروحاً: إذا كان بإمكان الذكاء الاصطناعي تقديم ملاحظات مفيدة، فلماذا نمنع استخدام التقييمات التي يُنتجها الذكاء الاصطناعي بالكامل؟ يوضح أليكس إيماس، الخبير الاقتصادي بجامعة شيكاغو، جوهر القضية في تغريدة نشرها مؤخراً: فالإجابة تعتمد على ما إذا كنا نريد أن يكون للحكم البشري دور في عملية المراجعة العلمية من قبل الأقران.

تغريدة أليكس إيماس حول التعليقات التي تم إنشاؤها بواسطة الذكاء الاصطناعيتغريدة أليكس إيماس حول التعليقات التي تم إنشاؤها بواسطة الذكاء الاصطناعي

إذا اعتقدنا أن نماذج الذكاء الاصطناعي الحالية كافية لاستبدال الحكم البشري بالكامل، فيجب على المؤتمرات ببساطة أتمتة عملية المراجعة بأكملها — أي إدخال الأوراق البحثية في نموذج لغوي كبير (LLM) وتقييمها تلقائيًا. ولكن إذا اعتقدنا أن الحكم البشري يجب أن يظل جزءًا من العملية، فيجب عندئذٍ حظر المحتوى الذي يُنتج بالكامل بواسطة الذكاء الاصطناعي. يحدد إيماس مشكلتين رئيسيتين: أولاً، توازن التجميع حيث سيحل المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي (لأنه أسهل في الإنتاج) محل الحكم البشري بسرعة في غضون بضع دورات مراجعة؛ وثانياً، مشكلة التحقق حيث يتطلب تحديد ما إذا كانت مراجعة الذكاء الاصطناعي جيدة بالفعل نفس الجهد الذي يتطلبه مراجعة الورقة البحثية بنفسك — لذا إذا كان بإمكان نماذج اللغة الكبيرة (LLM) إنشاء مراجعات أفضل من البشر، فلماذا لا يتم أتمتة العملية بأكملها؟

في رأيي، تعتبر الأحكام البشرية مكملة لتقييمات الذكاء الاصطناعي، لكنها تضيف إليها قيمة متباينة. فغالبًا ما يستطيع البشر تقديم ملاحظات خارج نطاق التوزيع قد لا تكون واضحة على الفور. وتعد آراء الخبراء أكثر فائدة من نماذج اللغة الكبيرة (LLMs) لأن آراءهم تتشكل بناءً على الخبرة والسياق ومنظور تم صقله وتطويره بمرور الوقت. ورغم قوة نماذج اللغة الكبيرة، إلا أن تقييماتها غالبًا ما تفتقر إلى الذوق والحكمة، وبالتالي تبدو «مملة».

ربما يمكن للمؤتمرات في المستقبل أن تضع مراجعة نماذج اللغة الكبيرة (LLM) التي تعتمد على أحدث ما توصلت إليه العلوم (SOTA) جنبًا إلى جنب مع المراجعات البشرية، لضمان ألا تقتصر المراجعات البشرية على إعادة صياغة الانتقادات «الواضحة» التي يمكن لنموذج اللغة الكبيرة (LLM) أن يشير إليها.

الخلاصة

يمثل تزايد المحتوى الذي تولده الذكاء الاصطناعي في مجال المراجعة الأكاديمية من قبل الأقران تحديًا جوهريًا للمجتمع العلمي. ويُظهر تحليلنا أن المراجعات التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي تشكل نسبة كبيرة من إجمالي المراجعات في مؤتمر ICLR، كما أن عدد الأوراق البحثية التي تولدها الذكاء الاصطناعي آخذ في الازدياد. ومع ذلك، فإن هذه الأوراق البحثية التي تولدها الذكاء الاصطناعي غالبًا ما تكون مجرد هراء وليست مساهمات بحثية حقيقية.

نرى أن هذا الاتجاه يمثل مشكلة ويضر بالعلوم، وندعو المؤتمرات ودور النشر إلى تبني تقنيات الكشف عن المحتوى المولد بالذكاء الاصطناعي كحل لردع إساءة الاستخدام والحفاظ على النزاهة العلمية.


برادلي إيمي
برادلي إيميالرئيس التنفيذي للتكنولوجيا، الشريك المؤسس

برادلي باحث في مجال الذكاء الاصطناعي وخبير في تطوير منتجات التعلم العميق في القطاع الصناعي. وقد تولى مؤخرًا قيادة مجموعة أبحاث التعلم العميق في شركة «أبسكي» (Absci)، وهي شركة متخصصة في اكتشاف الأدوية باستخدام الذكاء الاصطناعي التوليدي، وكان قبل ذلك عضوًا في الفريق الأساسي للرؤية الحاسوبية في نظام «تيسلا أوتوبيلوت» (Tesla Autopilot).

أثناء دراسته للدراسات العليا، ألف برادلي العديد من المنشورات البحثية في مجال التعلم العميق بالتعاون مع مختبر ستانفورد للرؤية. وهو حاصل على بكالوريوس في الفيزياء وماجستير في الذكاء الاصطناعي من جامعة ستانفورد. وبالإضافة إلى الذكاء الاصطناعي، يهتم برادلي أيضًا بمجالي التعليم والفلسفة، كما أنه لاعب غولف شغوف.

المزيد من برادلي إيمي

مقالات ذات صلة

67% من مستخدمي المحتوى عبر الإنترنت يكتشفون معلومات مضللة من الذكاء الاصطناعي
دراسات حالة

67% من مستخدمي المحتوى عبر الإنترنت يكتشفون معلومات مضللة من الذكاء الاصطناعي

15 مايو 2026
تحليل متعمق لتعليقات يلب
دراسات حالة

تحليل متعمق لتعليقات يلب

10 نوفمبر 2023
كيف يقارن موقع Pangram بموقع GPTZero؟
دراسات حالة

كيف يقارن موقع Pangram بموقع GPTZero؟

22 يناير 2026
كيف تستخدم «كورّا» أداة «بانغرام» للتعامل مع الإجابات التي تكتبها الذكاء الاصطناعي
دراسات حالة

كيف تستخدم «كورّا» أداة «بانغرام» للتعامل مع الإجابات التي تكتبها الذكاء الاصطناعي

26 سبتمبر 2024
أصبحت 3% من التعليقات التي تظهر على الصفحة الرئيسية لموقع أمازون من إنتاج الذكاء الاصطناعي
دراسات حالة

أصبحت 3% من التعليقات التي تظهر على الصفحة الرئيسية لموقع أمازون من إنتاج الذكاء الاصطناعي

4 مايو 2026
ما هو أكثر أدوات الكشف عن الذكاء الاصطناعي دقةً؟ اختبار 30 أداة (2026)
دراسات حالة

ما هو أكثر أدوات الكشف عن الذكاء الاصطناعي دقةً؟ اختبار 30 أداة (2026)

7 يناير 2026