الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
رسم بياني يوضح النسبة المئوية للملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمقدمة إلى ICLR حسب السنة، ويكشف عن اتجاه تصاعدي منذ عام 2023.
في فبراير 2024، نشرت مجلة Frontiers in Cell and Developmental Biology مقالاً تضمن صوراً من الواضح أنها تم إنشاؤها بواسطة الذكاء الاصطناعي. وقد تصدر هذا المقال عناوين الصحف لأن إحدى الصور تضمنت فأراً ذو خصيتين كبيرتين بشكل غير معقول ونصاً غير مفهوم لا معنى له على الإطلاق.
هذه ورقة بحثية حقيقية نُشرت في مجلة Frontiers in Cell and Developmental Biology. من الواضح أن الأشكال الواردة فيها تم إنشاؤها بواسطة الذكاء الاصطناعي. أحدها يظهر فأرًا له خصيتان كبيرتان بشكل غير معقول. النص الموجود في الأشكال غير مفهوم. pic.twitter.com/4Acn2YZYwM
— كليف سوان (@cliff_swan) 15 فبراير 2024
في حين أن المراجعة النظيرة (نظريًا) يجب أن تكون كافية للكشف عن الحالات الواضحة مثل هذه، فماذا عن الحالات التي يكون فيها محتوى الورقة البحثية نفسه من إنتاج الذكاء الاصطناعي؟ حتى الخبراء يجدون صعوبة في التمييز بين الأبحاث التي أنتجها الذكاء الاصطناعي وتلك التي كتبها البشر.
يسلط تقرير إخباري نشرته مجلة Nature مؤخرًا الضوء على القلق المتزايد بشأن المحتوى الذي تولده الذكاء الاصطناعي في الأوراق الأكاديمية. يناقش المقال دراسة استخدم فيها علماء الكمبيوتر Claude 3.5، أحد أحدث نماذج لغات كبيرة (LLM)، لتوليد أفكار بحثية وكتابة أوراق بحثية، تم تقديمها بعد ذلك إلى مراجعين علميين. ثم قام هؤلاء المراجعون بتقييم الأوراق البحثية من حيث "الجدة والإثارة والجدوى والفعالية المتوقعة". في المتوسط، وجد أن المراجعين أعطوا الأوراق البحثية التي كتبتها الذكاء الاصطناعي درجات أعلى من الأوراق البحثية التي كتبها البشر! وهذا يقودنا إلى السؤال التالي: هل يقدم الذكاء الاصطناعي أفكارًا بحثية أفضل من البشر؟ على الرغم من إغراء الاعتقاد بأن هذا قد يكون صحيحًا، إلا أن من بين 4000 ورقة بحثية تم إنشاؤها بواسطة الذكاء الاصطناعي والتي درسها الباحثون، لم تحتوِ سوى 200 ورقة (5٪) على أي فكرة أصلية: فقد كانت معظم الأوراق البحثية مجرد تكرار لأفكار موجودة بالفعل في مجموعة تدريب نموذج اللغة الكبيرة (LLM).
في النهاية، تضر الأبحاث التي يتم إنتاجها بواسطة الذكاء الاصطناعي بالمجتمع من خلال إضافة ضوضاء وتقليل الإشارات في عملية المراجعة النظيرة، ناهيك عن إضاعة وقت وجهد المراجعين الذين يحرصون على الحفاظ على معايير البحث. علاوة على ذلك، ما هو أسوأ من ذلك هو أن الأبحاث التي يتم إنتاجها بواسطة الذكاء الاصطناعي غالبًا ما تبدو مقنعة، ولكن في الواقع، النص الذي ينتجه نموذج اللغة يبدو سلسًا فقط، وقد يكون مليئًا بالأخطاء والهلوسات والتناقضات المنطقية. والمخاوف هنا هي أن المراجعين الخبراء أنفسهم غالبًا ما لا يستطيعون تمييز ما إذا كان ما يقرؤونه هو هلوسة LLM.
يتفق منظمو المؤتمرات الكبرى في مجال التعلم الآلي معنا: لا مكان للنصوص التي تم إنشاؤها بواسطة LLM في الكتابة العلمية. السياسة الرسمية للمؤتمر الدولي للتعلم الآلي (ICML) هي كما يلي:
توضيح بشأن سياسة النماذج اللغوية الكبيرة
لقد قمنا (رؤساء البرنامج) بإدراج البيان التالي في دعوة تقديم الأوراق البحثية لمؤتمر ICML الذي سيعقد في عام 2023:
يحظر استخدام الأوراق البحثية التي تتضمن نصوصًا تم إنشاؤها من نموذج لغوي واسع النطاق (LLM) مثل ChatGPT، ما لم يتم تقديم النص الناتج كجزء من التحليل التجريبي للورقة البحثية.
أثار هذا البيان عددًا من الأسئلة من المؤلفين المحتملين ودفع البعض إلى التواصل معنا بشكل استباقي. نحن نقدر ملاحظاتكم وتعليقاتكم ونود توضيح المقصود من هذا البيان وكيف نخطط لتنفيذ هذه السياسة في ICML 2023.
TLDR؛
تحظر سياسة النموذج اللغوي الكبير (LLM) لـ ICML 2023 النصوص التي تم إنتاجها بالكامل بواسطة النماذج اللغوية الكبيرة (أي "المولدة"). هذا لا يمنع المؤلفين من استخدام النماذج اللغوية الكبيرة لتحرير أو صقل النصوص المكتوبة من قبل المؤلفين. تستند سياسة النموذج اللغوي الكبير إلى حد كبير على مبدأ التحفظ فيما يتعلق بالحماية من المشكلات المحتملة لاستخدام النماذج اللغوية الكبيرة، بما في ذلك الانتحال.
على الرغم من هذا التحذير، نجد أن عددًا كبيرًا ومتزايدًا من المؤلفين في مجال التعلم الآلي ينتهكون هذه السياسة ويستخدمون الذكاء الاصطناعي لإنشاء نصوص في أبحاثهم على أي حال.
في Pangram، أردنا قياس حجم هذه المشكلة في مجالنا: الذكاء الاصطناعي. شرعنا في الإجابة على السؤال التالي: هل يستخدم باحثو الذكاء الاصطناعي ChatGPT لكتابة أبحاثهم؟
لدراسة هذه المشكلة، استخدمنا واجهة برمجة تطبيقات OpenReview لاستخراج المشاركات في المؤتمرات من عام 2018 إلى عام 2024 في اثنين من أكبر مؤتمرات الذكاء الاصطناعي: ICLR و NeurIPS.
ثم قمنا بتشغيل أداة AI Detector من Pangram على جميع الملخصات المقدمة إلى هذه المؤتمرات. وفيما يلي النتائج التي توصلنا إليها:
رسم بياني يوضح النسبة المئوية للملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمقدمة إلى ICLR حسب السنة، ويكشف عن اتجاه تصاعدي منذ عام 2023.
رسم بياني يوضح النسبة المئوية للملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمقدمة إلى Neurips حسب السنة، ويكشف عن اتجاه تصاعدي منذ عام 2023.
يمكننا اعتبار كل ما سبق عام 2022 بمثابة مجموعة تحقق لمعدل الإيجابية الكاذبة لنموذجنا، لأن النماذج اللغوية الكبيرة لم تكن موجودة في ذلك الوقت. كما هو موضح في الأشكال، نتوقع أن يتم توقع كل ملخص مؤتمر من عام 2022 أو قبله على أنه مكتوب بواسطة الإنسان من قبل نموذجنا. وهذا من شأنه أن يوحي بالثقة في دقة نموذجنا: معدل الإيجابية الكاذبة لدينا جيد جدًا في الملخصات العلمية، لذا يمكننا أن نثق في أن كل توقع إيجابي يتم في عامي 2023 و 2024 هو توقع إيجابي حقيقي.
ما نراه منذ ذلك الحين مثير للقلق للغاية. لقد عقدت 3 دورات مؤتمرات منذ إطلاق ChatGPT في نوفمبر 2022.
حدثت الدورة الأولى في وقت قريب من إطلاق ChatGPT (ICLR 2023). كان الموعد النهائي لتقديم الملخصات قبل إطلاق ChatGPT، ولكن كان لدى المؤلفين فرصة لإجراء تعديلات قبل انعقاد المؤتمر نفسه، الذي عقد بعد شهرين من إطلاق ChatGPT. ما وجدناه كان متوقعًا: فقط عدد قليل من الملخصات كُتبت بواسطة الذكاء الاصطناعي (وجدنا فقط 2 من بين عدة آلاف كُتبت بواسطة الذكاء الاصطناعي في هذه الدورة) ومن المرجح أنها تم تعديلها بعد الموعد النهائي.
الدورة الثانية كانت بعد حوالي 6 أشهر، NeuRIPS 2023، والتي كان موعدها النهائي في صيف 2023 لمؤتمر ديسمبر. في هذا المؤتمر، أبلغنا أن حوالي 1.3٪ من الملخصات المقدمة تم إنشاؤها بواسطة الذكاء الاصطناعي: نسبة صغيرة ولكنها مهمة.
أخيرًا، في الدورة الأخيرة، ICLR 2024، التي عقدت قبل بضعة أشهر، لاحظنا ارتفاعًا بنسبة 4.9٪: وهو ما يمثل نموًا بنحو 4 أضعاف في المراجعات التي تم إنشاؤها بواسطة الذكاء الاصطناعي مقارنةً بـ NeuRIPS 2023!
تسلط هذه النتائج الضوء على اتجاه مثير للقلق: فليس فقط عدد الأوراق البحثية التي تم إنتاجها بواسطة الذكاء الاصطناعي والمقدمة إلى المؤتمرات الكبرى المتخصصة في الذكاء الاصطناعي في تزايد، بل إن هذا العدد يتزايد بمعدل متسارع: بمعنى آخر، إن وتيرة تقديم الأوراق البحثية التي تم إنتاجها بواسطة الذكاء الاصطناعي آخذة في التسارع.
ألقِ نظرة على بعض هذه الملخصات وتأكد بنفسك مما إذا كانت تبدو مثل النوع من الكتابة الذي اعتدت قراءته في الأدبيات العلمية التقنية:
في المشهد المعقد للبيانات المتصلة بالشبكة، يمثل فهم الآثار السببية للتدخلات تحديًا بالغ الأهمية له انعكاسات على مختلف المجالات. وقد برزت الشبكات العصبية البيانية (GNN) كأداة قوية لالتقاط التبعيات المعقدة، إلا أن إمكانات التعلم العميق الهندسي للاستدلال السببي للشبكات القائمة على GNN لا تزال غير مستكشفة بالكامل. يقدم هذا العمل ثلاث مساهمات رئيسية لسد هذه الفجوة. أولاً، نؤسس علاقة نظرية بين انحناء الرسم البياني والاستدلال السببي، ونكشف أن الانحناءات السلبية تشكل تحديات في تحديد الآثار السببية. ثانيًا، استنادًا إلى هذه الرؤية النظرية، نقدم نتائج حسابية باستخدام انحناء ريتشي للتنبؤ بموثوقية تقديرات الآثار السببية، ونثبت تجريبيًا أن مناطق الانحناء الإيجابي تعطي تقديرات أكثر دقة. أخيرًا، نقترح طريقة تستخدم تدفق ريتشي لتحسين تقدير تأثير العلاج على البيانات الشبكية، مما يظهر أداءً فائقًا من خلال تقليل الأخطاء عن طريق تسوية الحواف في الشبكة. تفتح نتائجنا آفاقًا جديدة للاستفادة من الهندسة في تقدير التأثير السببي، وتقدم رؤى وأدوات تعزز أداء شبكات GNN في مهام الاستدلال السببي.
في مجال نماذج اللغة، يعد ترميز البيانات أمراً محورياً، حيث يؤثر على كفاءة وفعالية تدريب النموذج. ترميز أزواج البايتات (BPE) هو تقنية ترميز كلمات فرعية راسخة توازن بين الكفاءة الحسابية والتعبير اللغوي من خلال دمج أزواج البايتات أو الأحرف المتكررة. نظراً لأن تدريب نماذج اللغة يتطلب موارد حسابية كبيرة، فإننا نقترح Fusion Token، وهي طريقة تعزز بشكل كبير نهج ترميز أزواج البايتات (BPE) التقليدي في ترميز البيانات لنماذج اللغة. تستخدم Fusion Token استراتيجية حسابية أكثر قوة مقارنة بـ BPE، حيث توسع مجموعات الرموز من ثنائيات إلى عشرة أحرف. ومن الملاحظ أنه مع إضافة 1024 رمزًا إلى المفردات، يتجاوز معدل الضغط بشكل كبير معدل الضغط في أداة تحويل الرموز BPE العادية التي تحتوي على مليون مفردة. بشكل عام، تؤدي طريقة Fusion Token إلى تحسينات ملحوظة في الأداء بسبب زيادة نطاق البيانات لكل وحدة حسابية. بالإضافة إلى ذلك، يؤدي الضغط الأعلى إلى أوقات استدلال أسرع بسبب قلة الرموز لكل سلسلة معينة. من خلال تخصيص المزيد من موارد الحوسبة لعملية بناء المُرمز، تعمل Fusion Token على تعظيم إمكانات نماذج اللغة كمحركات ضغط بيانات فعالة، مما يتيح أنظمة نمذجة لغة أكثر فعالية.
في مجال توليد الحركة الذي يشهد تطوراً سريعاً، تم الاعتراف بتحسين دلالات النصوص كاستراتيجية واعدة للغاية لإنتاج حركات أكثر دقة وواقعية. ومع ذلك، تعتمد التقنيات الحالية في كثير من الأحيان على نماذج لغوية واسعة النطاق لتحسين الأوصاف النصية، دون ضمان التوافق الدقيق بين البيانات النصية وبيانات الحركة. غالبًا ما يؤدي هذا عدم التوافق إلى إنشاء حركات دون المستوى الأمثل، مما يحد من إمكانات هذه الأساليب. لمعالجة هذه المشكلة، نقدم إطار عمل جديدًا يسمى SemanticBoost، والذي يهدف إلى سد الفجوة بين البيانات النصية وبيانات الحركة. تدمج حلولنا المبتكرة المعلومات الدلالية التكميلية المستمدة من بيانات الحركة نفسها، إلى جانب شبكة مخصصة لإزالة الضوضاء، لضمان التماسك الدلالي ورفع الجودة الإجمالية لتوليد الحركة. من خلال تجارب وتقييمات مكثفة، نثبت أن SemanticBoost يتفوق بشكل كبير على الطرق الحالية من حيث جودة الحركة والمواءمة والواقعية. علاوة على ذلك، تؤكد نتائجنا على إمكانية الاستفادة من الإشارات الدلالية من بيانات الحركة، مما يفتح آفاقًا جديدة لتوليد حركة أكثر بديهية وتنوعًا.
هل لاحظت أي أنماط؟ أولاً، نرى أن جميعها تبدأ بعبارات متشابهة جداً: "في المشهد المعقد لـ"، "في مجال"، "في المجال سريع التقدم لـ". نسمي هذه اللغة لغة زخرفية مصطنعة. لقد كتبنا من قبل عن مدى تكرار استخدام نماذج اللغة الكبيرة (LLMs) للكثير من الكلمات لإنتاج محتوى فعلي قليل جدًا. في حين أن هذا قد يكون مرغوبًا بالنسبة لطالب يحاول الوصول إلى الحد الأدنى من عدد الكلمات في واجب منزلي، إلا أن هذا النوع من اللغة المفرطة في الإسهاب يجعل قراءة الورقة البحثية أكثر صعوبة وتستغرق وقتًا أطول، بينما يجعل الرسالة الفعلية للورقة أقل وضوحًا.
تساءلنا عما إذا كانت الأوراق البحثية التي تم إنشاؤها بواسطة الذكاء الاصطناعي يتم ترشيحها بشكل فعال من خلال عملية المراجعة النظيرة، أم أن بعضها يمر دون أن يتم اكتشافه.
للإجابة على هذا السؤال، قمنا بتحليل العلاقة بين الملخصات التي تم إنشاؤها بواسطة الذكاء الاصطناعي وقرارات الأوراق البحثية في ICLR 2024. (الأوراق البحثية الشفوية والملفتة للانتباه والملصقات هي جميعها أوراق "مقبولة"؛ الأوراق الشفوية والملفتة للانتباه هي فئات تقدير خاصة). وإليكم ما توصلنا إليه:
| الفئة | النسبة المئوية الناتجة عن الذكاء الاصطناعي |
|---|---|
| ICLR 2024 شفوي | 2.33% |
| ملصق ICLR 2024 | 2.71% |
| أضواء على ICLR 2024 | 1.36% |
| مرفوض | 5.42% |
على الرغم من أن نسبة الأوراق البحثية التي تم قبولها والتي تم إنشاؤها بواسطة الذكاء الاصطناعي أقل من النسبة التي تم تقديمها، إلا أن عددًا كبيرًا منها نجح في اجتياز عملية المراجعة من قبل الأقران. وهذا يعني أن المراجعين قد يكتشفون بعض المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، لكنهم لا يكتشفونه كله.
نلاحظ أن بعض الأوراق البحثية الشفوية والبارزة تحتوي على ملخصات تم إنشاؤها بواسطة الذكاء الاصطناعي! وبتفسير الموقف بشكل إيجابي، قد نجد في المستقبل أن البحث قد يكون في الواقع عالي الجودة، وأن المؤلفين يستخدمون ChatGPT كطريقة مختصرة لمساعدتهم على تقديم أو مراجعة العمل بشكل أفضل.
والجدير بالذكر أن معظم أفراد مجتمع الباحثين ليسوا من الناطقين باللغة الإنجليزية، لذا سيزداد استخدام نماذج اللغة الكبيرة (LLM) لترجمة الأوراق البحثية المكتوبة بلغات أخرى إلى اللغة الإنجليزية.
على الرغم من طلب مجتمع الذكاء الاصطناعي الصريح من المؤلفين بعدم استخدام ChatGPT، يتجاهل العديد من المؤلفين هذه السياسة ويستخدمون نماذج اللغة الكبيرة (LLM) لمساعدتهم في كتابة أبحاثهم على أي حال. والأمر الأكثر إثارة للقلق هو أن حتى خبراء الذكاء الاصطناعي، الذين يعملون كمراجعين نظراء لحماية المؤتمرات من الأبحاث التي تم إنشاؤها بواسطة نماذج اللغة الكبيرة (LLM)، غير قادرين على اكتشافها!
يحدث ChatGPT تأثيرات متتالية أكبر على العملية الأكاديمية برمتها. فقد وجدت دراسة حالة حديثة أجرتها ICML أن ما بين 6 و 16 في المائة من المراجعات النظيرة نفسها تم إنشاؤها بواسطة الذكاء الاصطناعي، وهناك علاقة إيجابية بين المراجعات النظيرة التي تم إنشاؤها بواسطة الذكاء الاصطناعي ومدى قرب موعد تقديم المراجعة من الموعد النهائي!
ندعو مجتمع الذكاء الاصطناعي إلى تطبيق هذه السياسات بشكل أفضل، وندعو المؤلفين إلى تحمل مسؤوليتهم للتأكد من أن أبحاثهم من صنع البشر.
