الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

تتنبأ Pangram بأن 21% من مراجعات ICLR يتم إنشاؤها بواسطة الذكاء الاصطناعي

برادلي إيمي

18 نوفمبر 2025

هل يستخدم المؤلفون نماذج اللغة الكبيرة (LLM) لكتابة أبحاث الذكاء الاصطناعي؟ هل يقوم المراجعون الخارجيون بتعهيد كتابة مراجعاتهم لهذه الأبحاث إلى أدوات الذكاء الاصطناعي التوليدي؟ لمعرفة ذلك، قمنا بتحليل جميع الأبحاث البالغ عددها 19000 بحث و70000 مراجعة من المؤتمر الدولي لتعلم التمثيلات، وهو أحد أهم وأعرق منابر نشر أبحاث الذكاء الاصطناعي. بفضل OpenReview وعملية المراجعة العامة لـ ICLR، تم إتاحة جميع الأوراق والمراجعات للجمهور عبر الإنترنت، وقد مكنت عملية المراجعة المفتوحة هذه من إجراء هذا التحليل.

لقد نشرنا جميع النتائج على الموقع iclr.pangram.com.

لماذا ندرس الطلبات المقدمة إلى ICLR؟

حسناً، أولاً، لقد عُرضت علينا مكافأة!

تغريدة غراهام نيوبيغ التي يعرض فيها مكافأة مالية مقابل تحليل المشاركات في مؤتمر ICLR

بكل جدية، لاحظ العديد من مؤلفي ومراجعي ICLR بعض حالات سوء السلوك العلمي الصارخ المتعلق بالذكاء الاصطناعي، مثل ورقة بحثية تم إنشاؤها بواسطة LLM تحتوي على مراجع وهمية تمامًا، والعديد من المؤلفين الذين يزعمون أنهم تلقوا مراجعات تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي.

حتى أن أحد المؤلفين أفاد بأن أحد المراجعين طرح 40 سؤالاً تم إنشاؤها بواسطة الذكاء الاصطناعي في مراجعته النظيرة!

أردنا قياس حجم هذه المشكلة بشكل عام: هل هذه الأمثلة على السلوك السيئ هي حوادث فردية، أم أنها تشير إلى نمط أكبر في العمل؟ لهذا السبب قبلنا عرض غراهام!

هل يُسمح باستخدام الذكاء الاصطناعي في تقديمات ICLR والمراجعة النظيرة؟

لدى ICLR سياسة واضحة ومفصلة بشأن ما هو مسموح وما هو غير مسموح به فيما يتعلق باستخدام LLM في الأوراق البحثية والمراجعات.

السياسة 1. يجب الإفصاح عن أي استخدام لـ LLM، وفقًا لسياسات مدونة الأخلاقيات التي تنص على أن "جميع المساهمات في البحث يجب الاعتراف بها" وأن المساهمين "يجب أن يتوقعوا ... الحصول على تقدير لعملهم".

السياسة 2. يتحمل مؤلفو ومراجعو ICLR المسؤولية النهائية عن مساهماتهم، وفقًا لسياسة مدونة الأخلاقيات التي تنص على أن "الباحثين يجب ألا يقدموا عمدًا ادعاءات كاذبة أو مضللة، أو يلفقوا أو يزوروا البيانات، أو يقدموا نتائج خاطئة".

كما أن لدى ICLR إرشادات يجب على المؤلفين اتباعها عند استخدام LLMs في أوراقهم البحثية ومراجعاتهم. وباختصار:

يُسمح للمؤلفين باستخدام نماذج اللغة الكبيرة (LLMs) للمساعدة في صياغة أوراقهم البحثية وكمساعدين في البحث، ولكن يجب عليهم الإفصاح عن هذا الاستخدام ويكونون مسؤولين عن النزاهة العلمية لأوراقهم البحثية.
يُسمح للمؤلفين باستخدام نماذج اللغة الكبيرة (LLM) للمساعدة في التدقيق الإملائي والنحوي في مراجعاتهم لنماذج اللغة الكبيرة (LLM)، ولكن استخدام نموذج اللغة الكبيرة (LLM) لكتابة المراجعة بأكملها قد يشكل انتهاكًا لقواعد السلوك الأخلاقي، وذلك على أساس تحريف رأي/وجهة نظر خارجية للورقة البحثية على أنها رأيهم الخاص، وانتهاك السرية.

لذلك، لا نجري هذه الدراسة بهدف فضح المخالفين الأفراد، حيث إن استخدام نماذج اللغة الكبيرة (LLM) مسموح به في كل من عملية تقديم الأوراق البحثية وعملية المراجعة من قبل الأقران. بل نرغب بدلاً من ذلك في لفت الانتباه إلى حجم استخدام الذكاء الاصطناعي في الأوراق البحثية والمراجعة من قبل الأقران، وتسليط الضوء على أن المراجعات التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي (والتي من المحتمل أن تشكل انتهاكات لقواعد أخلاقيات المهنة) هي مشكلة أكثر انتشارًا مما يدرك الكثيرون.

المنهجية

قمنا أولاً بتنزيل جميع ملفات PDF الخاصة بتقديمات ICLR باستخدام واجهة برمجة تطبيقات OpenReview. كما قمنا بتنزيل جميع الملاحظات، مما سمح لنا باستخراج المراجعة.

وجدنا أن استخدام محلل PDF عادي مثل PyMuPDF لم يكن كافياً لأوراق ICLR، حيث غالباً ما لم يتم التعامل مع أرقام الأسطر والصور والجداول بشكل صحيح. لذلك، من أجل استخراج النص الرئيسي للورقة البحثية، استخدمنا Mistral OCR لتحليل النص الرئيسي للورقة البحثية من ملف PDF كـ Markdown. نظرًا لأن الذكاء الاصطناعي يميل إلى تفضيل مخرجات Markdown أيضًا، من أجل التخفيف من الإيجابيات الخاطئة الناتجة عن التنسيق وحده، قمنا بعد ذلك بإعادة تنسيق Markdown كنص عادي.

ثم قمنا بتشغيل مصنف النصوص الموسع من Pangram على النص العادي الذي تم تحليله من ملفات PDF هذه. تقوم النسخة الموسعة من المصنف أولاً بتقسيم النص إلى أجزاء، ثم تشغيل نموذج الكشف عن الذكاء الاصطناعي على كل جزء على حدة. والنتيجة هي نسبة مئوية توضح عدد الأجزاء التي جاءت إيجابية بالنسبة للنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، وبالتالي يمكن أن تشير النتيجة إلى أن الورقة مكتوبة بالكامل بواسطة الإنسان، أو مكتوبة بالكامل بواسطة الذكاء الاصطناعي، أو مختلطة، حيث جاءت بعض الأجزاء إيجابية وبعضها سلبية.

كما قمنا بفحص المراجعات النظيرة للذكاء الاصطناعي باستخدام نموذج EditLens الجديد. لا يقتصر دور EditLens على اكتشاف وجود الذكاء الاصطناعي فحسب، بل يمكنه أيضًا وصف درجة مشاركة الذكاء الاصطناعي في عملية التحرير. يمكن لـ EditLens توقع أن يندرج النص ضمن إحدى الفئات الخمس التالية:

مكتوب بالكامل بواسطة البشر
تم تحريره بواسطة الذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي
متوسط تحرير بالذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي
معدلة بشكل مكثف بواسطة الذكاء الاصطناعي أو بمساعدة الذكاء الاصطناعي
مولد بالكامل بواسطة الذكاء الاصطناعي

EditLens متاح حاليًا فقط للعملاء في الإصدار التجريبي الخاص بنا، ولكنه سيصبح متاحًا للجمهور في أوائل ديسمبر. سيكون لدينا المزيد لنقوله عن هذا النموذج في الأسابيع المقبلة، ولكن في نسخة مسبقة من بحثنا، نصف أداءه بأنه الأحدث في مجال إنشاء النصوص المشتركة، وبناءً على المعايير الداخلية، فإنه يتمتع بدقة مماثلة لنموذجنا الحالي عند تقييمه كمصنف ثنائي، ومعدل إيجابي خاطئ منخفض للغاية يبلغ 1 من كل 10,000 في النصوص المكتوبة بالكامل بواسطة البشر.

النتائج

في تحليلنا السابق لأوراق مؤتمر الذكاء الاصطناعي، وجدنا أن Pangram لديه معدل إيجابي خاطئ بنسبة 0٪ على جميع أوراق ICLR و NeurIPS المتاحة المنشورة قبل عام 2022. في حين أن بعض هذه الأوراق موجودة بالفعل في مجموعة التدريب، إلا أنها ليست كلها كذلك؛ ولذلك نعتقد أن الأداء الحقيقي لمجموعة الاختبار Pangram قريب جدًا من 0٪.

ماذا عن المراجعات النظيرة؟ أجرينا تجربة تحكم سلبية إضافية، حيث قمنا بتشغيل نموذج EditLens الأحدث على جميع المراجعات النظيرة لعام 2022. وجدنا معدل خطأ يبلغ 1 في 1000 في النسخة المعدلة قليلاً مقابل النسخة المعدلة بالكامل بواسطة البشر، ومعدل خطأ يبلغ 1 في 5000 في النسخة المعدلة متوسطاً مقابل النسخة المعدلة بالكامل بواسطة البشر، ومعدل خطأ يبلغ 1 في 10000 في النسخة المعدلة بكثافة مقابل النسخة المعدلة بالكامل بواسطة البشر. لم نجد أي اختلاف بين النسخة المعدلة بالكامل بواسطة الذكاء الاصطناعي والنسخة المعدلة بالكامل بواسطة البشر.

توزيع توقعات EditLens على مراجعات ICLR 2022 (التحكم السلبي)

بالنسبة للتجربة نفسها، قمنا بتشغيل Pangram على جميع الأوراق البحثية والمراجعات النظيرة. وفيما يلي النتائج الرئيسية:

وجدنا أن 21٪، أو 15899 تقييمًا، تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي. وجدنا أن أكثر من نصف التقييمات تضمنت شكلاً من أشكال مشاركة الذكاء الاصطناعي، سواء كان ذلك في التحرير أو المساعدة أو الإنشاء بالكامل بواسطة الذكاء الاصطناعي.

توزيع توقعات EditLens على مراجعات ICLR 2026

من ناحية أخرى، لا تزال معظم الأوراق البحثية مكتوبة بواسطة البشر (61٪ منها مكتوبة بواسطة البشر في الغالب). ومع ذلك، فقد عثرنا على عدة مئات من الأوراق البحثية التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي، على الرغم من أنها تبدو استثنائية، و9٪ من الأوراق البحثية المقدمة تحتوي على أكثر من 50٪ من محتوى الذكاء الاصطناعي. وكإشارة تحذيرية، تم بالفعل رفض بعض الأوراق البحثية التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي وإزالتها من OpenReview قبل أن نتمكن من إجراء التحليل.

توزيع محتوى الذكاء الاصطناعي في الأوراق المقدمة إلى مؤتمر ICLR 2026

التحليل

وجدنا بعض الاتجاهات المثيرة للاهتمام في النتائج التي تسلط الضوء على كيفية استخدام الذكاء الاصطناعي في تقديم الأوراق البحثية والمراجعات النظيرة، وما هي الآثار الناتجة عن هذا الاستخدام على عملية المراجعة نفسها.

يرتبط استخدام الذكاء الاصطناعي في الأوراق البحثية بانخفاض عدد المراجعات

على عكس دراسة سابقة أظهرت أن نماذج اللغة الكبيرة (LLMs) غالبًا ما تفضل مخرجاتها الخاصة على الكتابة البشرية عند استخدامها كحكم، وجدنا العكس: فكلما زاد النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في المشاركة، كانت التقييمات أسوأ.

متوسط درجات التقييم حسب محتوى الذكاء الاصطناعي في الأوراق البحثية

قد يكون ذلك لعدة أسباب. أحدها هو أنه كلما زاد استخدام الذكاء الاصطناعي في ورقة بحثية، كلما قلت جودة التفكير والتنفيذ في الورقة بشكل عام. من المحتمل أن الذكاء الاصطناعي، عند استخدامه في الكتابة العلمية، يُستخدم في الغالب للتخفيف عن العبء وتقصير المسافة بدلاً من استخدامه كمساعد إضافي. بالإضافة إلى ذلك، فإن الحصول على درجات منخفضة للورقات البحثية التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي يشير إلى أن الأبحاث التي تم إنشاؤها بواسطة الذكاء الاصطناعي لا تزال منخفضة الجودة، ولا تمثل مساهمة حقيقية في العلوم (حتى الآن).

تحصل مراجعات الذكاء الاصطناعي على درجات أعلى

متوسط درجات التقييم حسب مستوى مشاركة الذكاء الاصطناعي

نجد أنه كلما زادت حضور الذكاء الاصطناعي في المراجعة، ارتفعت النتيجة. وهذا يمثل مشكلة: فهذا يعني أنه بدلاً من إعادة صياغة رأي المراجع باستخدام الذكاء الاصطناعي كإطار (إذا كان الأمر كذلك، لكنا نتوقع أن تكون النتيجة المتوسطة هي نفسها للمراجعات التي أجراها الذكاء الاصطناعي والمراجعات التي أجراها البشر)، فإن المراجعين في الواقع يعهدون بتقييم الورقة البحثية إلى الذكاء الاصطناعي أيضًا. إن تحريف رأي LLM على أنه رأي المراجع الفعلي هو انتهاك واضح لقواعد الأخلاق. نحن نعلم أن الذكاء الاصطناعي يميل إلى التملق، مما يعني أنه يقول أشياء يريد الناس سماعها وتسعدهم بدلاً من إعطاء رأي غير متحيز: وهي خاصية غير مرغوب فيها تمامًا عند تطبيقها على المراجعة النظيرة! وهذا قد يفسر التحيز الإيجابي في الدرجات بين المراجعات التي أجراها الذكاء الاصطناعي.

مراجعات الذكاء الاصطناعي أطول

متوسط طول المراجعة حسب مستوى مشاركة الذكاء الاصطناعي

في السابق، كانت المراجعة الأطول تعني أن المراجعة مدروسة جيدًا وذات جودة أعلى، ولكن في عصر نماذج اللغة الكبيرة (LLMs)، غالبًا ما تعني العكس. المراجعات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي أطول وتحتوي على الكثير من "المحتوى الحشو". وفقًا لـ Shaib et. al.، في ورقة بحثية بعنوان Measuring AI Slop in Text، إحدى خصائص "الهراء" الناتج عن الذكاء الاصطناعي هي أنه يحتوي على كثافة معلومات منخفضة، مما يعني أن الذكاء الاصطناعي يستخدم الكثير من الكلمات لقول القليل جدًا من حيث المحتوى الفعلي.

نجد أن هذا صحيح أيضًا في مراجعات LLM: تستخدم الذكاء الاصطناعي الكثير من الكلمات ولكنها لا تقدم في الواقع تعليقات غنية بالمعلومات. نعتقد أن هذا يمثل مشكلة لأن المؤلفين يضطرون إلى إضاعة الوقت في تحليل مراجعة طويلة والإجابة على أسئلة فارغة لا تحتوي في الواقع على الكثير من التعليقات المفيدة. ومن الجدير بالذكر أيضًا أن معظم المؤلفين سيطلبون على الأرجح من نموذج لغوي كبير مراجعة مشاركاتهم قبل تقديمها فعليًا. في هذه الحالات، تكون التعليقات الواردة في مراجعة LLM زائدة عن الحاجة وغير مفيدة إلى حد كبير، لأن المؤلف قد رأى بالفعل الانتقادات الواضحة التي سيوجهها LLM.

هل هناك اتهامات كاذبة؟

على الرغم من أن معدل الإيجابية الكاذبة في Pangram منخفض للغاية، إلا أنه لا يساوي صفرًا، وبالتالي فإننا نتحمل مسؤولية قياس موثوقية الأداة قبل التوصية بها لاتخاذ قرارات منفصلة بشأن مصير ورقة بحثية (مثل قرار الرفض المكتبي) أو معاقبة أحد المراجعين. قمنا بقياس معدل الإيجابية الكاذبة في المجال مباشرةً باستخدام دراسات التحكم السلبية الموضحة أعلاه، ولكن ماذا عن مجموعات البيانات الأخرى والمعايير المرجعية والنصوص العامة؟

لقد قمنا بتوثيق معدل الإيجابية الكاذبة لـ Pangram في هذا المنشور السابق على المدونة.

معدل الإيجابية الكاذبة الإجمالي لـ Pangram هو 1 من كل 10,000 في مجموعة مستندات الاختبار.
معدل الإيجابية الكاذبة لـ Pangram على الأوراق العلمية المحتجزة من ArXiV هو 1 من 100,000.
معدل الإيجابية الكاذبة لـ Pangram على الأوراق الطبية المحجوبة من PubMed هو 0 (بثقة تصل إلى 3 أرقام عشرية).

كما تم التحقق من دقة Pangram من خلال العديد من الدراسات التي أجرتها جهات خارجية، بما في ذلك الدراسات الحديثة التي أجرتها جامعة شيكاغو بوث والجمعية الأمريكية لأبحاث السرطان.

لوضع هذه الأرقام في سياقها الصحيح، فإن معدل الإيجابية الكاذبة في Pangram يمكن مقارنته بمعدل الإيجابية الكاذبة في اختبار الحمض النووي أو اختبار المخدرات: الإيجابية الكاذبة الحقيقية، حيث يتم الخلط بين نص تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي ونص تم إنشاؤه بالكامل بواسطة الإنسان، هي غير صفرية، ولكنها نادرة للغاية.

كيف يمكنك معرفة ما إذا كنت قد تلقيت مراجعة نظراء بالذكاء الاصطناعي؟

إذا كنت مؤلفًا وتشك في أنك تلقيت مراجعة تم إنشاؤها بواسطة الذكاء الاصطناعي، فهناك عدة علامات دالة يمكنك البحث عنها. في حين أن Pangram يمكنه اكتشاف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، يمكنك أيضًا اكتشاف علامات المراجعات التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالعين المجردة.

لقد قمنا بتجميع دليل عام للكشف عن أنماط الكتابة بالذكاء الاصطناعي بالعين المجردة، ولكننا نلاحظ بعض الإشارات والعلامات الإضافية الموجودة بشكل خاص في المراجعات النظيرة للذكاء الاصطناعي.

بعض "العلامات" التي نلاحظها في مراجعات الأقران في مجال الذكاء الاصطناعي:

أنماط العناوين: تحب المراجعات النظيرة التي تم إنشاؤها بواسطة الذكاء الاصطناعي إنشاء عناوين أقسام بالخط العريض مع علامات ملخص مكونة من 2-3 كلمات متبوعة بفاصلة. على سبيل المثال:

نقاط القوة: صياغة واضحة للمشكلة: تتناول الورقة مشكلة حقيقية — أنظمة OCR القائمة على VLM تهلوس على المستندات المتدهورة دون الإشارة إلى عدم اليقين، وهو أسوأ من أنظمة OCR الكلاسيكية التي تنتج مخرجات مشوشة بشكل واضح. الدافع واضح ومفصل جيدًا. منهجية منهجية: نهج التدريب على مرحلتين (بداية باردة شبه مصنفة + GRPO) معقول وموصوف جيدًا. يُظهر تصميم المكافأة متعدد الأهداف مع ضمانات ضد اختراق المكافأة (خاصة عامل التخميد η لعدم تطابق الطول) هندسة دقيقة.

الأسئلة: 1. التعميم على حالات التلف الحقيقية: هل يمكن للمؤلفين إجراء تقييم على مستندات متلفة في العالم الحقيقي (مثل مجموعات بيانات المستندات التاريخية) لإثبات أن النهج يتجاوز خط أنابيب التلف الاصطناعي المحدد؟ 2. المقارنة مع أنظمة MinerU: تمثل MinerU و MinerU2.5 [2،3] أحدث التطورات في تحليل المستندات. كيف تقارن الطريقة المقترحة بهذه الأنظمة على Blur-OCR؟ إذا لم تتمكن هذه الأنظمة من إنتاج تقديرات عدم اليقين، فهل يمكن دمجها مع نهج وضع العلامات المقترح؟

انتقادات سطحية بدلاً من تحليل حقيقي: تميل المراجعات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي إلى التركيز على القضايا السطحية بدلاً من المخاوف الحقيقية المتعلقة بالنزاهة العلمية للورقة البحثية. قد تشمل الانتقادات النموذجية للذكاء الاصطناعي الحاجة إلى المزيد من الاستئصال المشابه جدًا للاستئصال المقدم، أو طلب زيادة حجم مجموعة الاختبار أو عدد عناصر التحكم، أو طلب مزيد من التوضيح أو المزيد من الأمثلة.
قول الكثير من الكلمات التي لا تعني الكثير: غالبًا ما تتميز مراجعات الذكاء الاصطناعي بانخفاض كثافة المعلومات، حيث تستخدم لغة مطولة لتوضيح نقاط يمكن التعبير عنها بشكل أكثر إيجازًا. هذه الإسهاب يخلق عملًا إضافيًا للمؤلفين الذين يتعين عليهم تحليل المراجعات الطويلة لاستخراج النقد الموضوعي الفعلي.

لماذا تعتبر الأوراق البحثية المتعلقة بالذكاء الاصطناعي والمراجعات النظيرة للذكاء الاصطناعي ضارة بالعملية العلمية؟

في وقت سابق من هذا العام، نشر باحثون من جامعة UNIST في كوريا ورقة موقفية أوضحوا فيها بعض أسباب تدهور جودة عملية المراجعة النظيرة. مع استمرار نمو مجال الذكاء الاصطناعي، بدأت الضغوط على موارد نظام المراجعة النظيرة تظهر في نهاية المطاف. فعدد المراجعين المؤهلين محدود مقارنة بالزيادة الهائلة في عدد الأوراق البحثية.

أكبر مشكلة في الأوراق البحثية ذات الجودة الرديئة التي يتم إنتاجها بواسطة الذكاء الاصطناعي هي أنها ببساطة تهدر الوقت والموارد المحدودة. وفقًا لتحليلنا، فإن الأوراق البحثية التي يتم إنتاجها بواسطة الذكاء الاصطناعي ليست بجودة الأوراق البحثية التي يكتبها البشر، والأكثر إشكالية من ذلك أنها يمكن أن يتم إنتاجها بتكلفة زهيدة من قبل المراجعين غير النزيهين ومصانع الأوراق البحثية التي تعتمد على أسلوب "الرش والرجاء" (تقديم عدد كبير من الأوراق البحثية إلى مؤتمر على أمل أن يتم قبول إحداها بالصدفة). إذا سُمح للأوراق البحثية التي تم إنشاؤها بواسطة الذكاء الاصطناعي بإغراق نظام المراجعة النظيرة، فستستمر جودة المراجعة في التدهور، وسيقل حماس المراجعين بسبب اضطرارهم إلى قراءة أوراق بحثية "رديئة" بدلاً من الأبحاث الحقيقية.

فهم سبب كون المراجعات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي ضارة أمر أكثر تعقيدًا بعض الشيء. نحن نتفق مع ICLR في أن الذكاء الاصطناعي يمكن استخدامه بشكل إيجابي كوسيلة مساعدة للمراجعين للتعبير عن أفكارهم بشكل أفضل، خاصةً عندما لا تكون اللغة الإنجليزية هي لغة المراجعين الأم. بالإضافة إلى ذلك، يمكن للذكاء الاصطناعي في كثير من الأحيان تقديم ملاحظات مفيدة حقًا، وغالبًا ما يكون من المفيد للمؤلفين أن يقوموا بدور المراجعين الأقران باستخدام نماذج اللغة الكبيرة (LLMs)، للحصول على انتقادات ونقد من نماذج اللغة الكبيرة (LLMs) للبحث، واكتشاف الأخطاء التي قد لا يلاحظها المؤلف في الأصل.

ومع ذلك، يبقى السؤال: إذا كان بإمكان الذكاء الاصطناعي توليد تعليقات مفيدة، فلماذا نحظر المراجعات التي يتم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي؟ يوضح أليكس إيماس، الاقتصادي بجامعة شيكاغو، القضية الأساسية في تغريدة حديثة: الجواب يعتمد على ما إذا كنا نريد أن يكون للحكم البشري دور في المراجعة العلمية من قبل الأقران.

تغريدة أليكس إيماس حول التقييمات التي تم إنشاؤها بواسطة الذكاء الاصطناعي

إذا كنا نعتقد أن نماذج الذكاء الاصطناعي الحالية كافية لتحل محل الحكم البشري بالكامل، فيجب على المؤتمرات ببساطة أتمتة عملية المراجعة بأكملها — إدخال الأوراق البحثية في نظام LLM وتعيين الدرجات تلقائيًا. ولكن إذا كنا نعتقد أن الحكم البشري يجب أن يظل جزءًا من العملية، فيجب فرض عقوبات على المحتوى الذي تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي. يحدد إيماس مشكلتين رئيسيتين: أولاً، توازن تجميعي حيث سيحل المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي (الذي يسهل إنتاجه) محل الحكم البشري بسرعة في غضون بضع دورات مراجعة؛ وثانياً، مشكلة التحقق حيث يتطلب تحديد ما إذا كانت مراجعة الذكاء الاصطناعي جيدة بالفعل نفس الجهد الذي يتطلبه مراجعة الورقة بنفسك — لذا إذا كان بإمكان نماذج LLM إنشاء مراجعات أفضل من البشر، فلماذا لا يتم أتمتة العملية بأكملها؟

في رأيي، الأحكام البشرية مكملة، لكنها توفر قيمة متعامدة لمراجعات الذكاء الاصطناعي. غالبًا ما يمكن للبشر تقديم ملاحظات خارج نطاق التوزيع قد لا تكون واضحة على الفور. آراء الخبراء أكثر فائدة من نماذج اللغة الكبيرة (LLM) لأن آراءهم تتشكل من خلال الخبرة والسياق ومنظور يتم تنقيحه وصقله بمرور الوقت. نماذج اللغة الكبيرة (LLM) قوية، لكن مراجعاتها غالبًا ما تفتقر إلى الذوق والحكم، وبالتالي تبدو "مسطحة".

ربما يمكن للمؤتمرات في المستقبل أن تضع مراجعة SOTA LLM بجانب المراجعات البشرية للتأكد من أن المراجعات البشرية لا تقتصر على إعادة صياغة الانتقادات "الواضحة" التي يمكن أن يشير إليها LLM.

الخلاصة

يمثل ظهور المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في المراجعة الأكاديمية من قبل الأقران تحديًا كبيرًا للمجتمع العلمي. يظهر تحليلنا أن المراجعات التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي تمثل نسبة كبيرة من إجمالي المراجعات في ICLR، كما أن عدد الأوراق البحثية التي تم إنشاؤها بواسطة الذكاء الاصطناعي آخذ في الازدياد. ومع ذلك، فإن هذه الأوراق البحثية التي تم إنشاؤها بواسطة الذكاء الاصطناعي غالبًا ما تكون رديئة أكثر منها مساهمات بحثية حقيقية.

نحن نرى أن هذا الاتجاه يمثل مشكلة ويضر بالعلم، وندعو المؤتمرات والناشرين إلى تبني تقنية الكشف عن الذكاء الاصطناعي كحل لردع إساءة الاستخدام والحفاظ على النزاهة العلمية.

اشترك في نشرتنا الإخبارية

نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.

اشترك في
للحصول على آخر المستجدات

ابق على اطلاع بأحدث أخبارنا وعروضنا.

soc2

SOC2 TYPE2

تم التحقق من قبل AssuranceLab

© 2025 Pangram. جميع الحقوق محفوظة.

info@pangram.com

انضم إلى مجتمعنا

© 2025 Pangram. جميع الحقوق محفوظة.