الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
دراسة بحثية أجرتها جهة خارجية تظهر أن Pangram هو أقوى كاشف للذكاء الاصطناعي
وجد باحثون من جامعة هيوستن وجامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في إيرفين وشركة Esperanto AI الناشئة أن Pangram هو أقوى كاشف نصوص يعمل بالذكاء الاصطناعي من بين مجموعة واسعة من الأساليب التجارية والمفتوحة المصدر. في الورقة البحثية بعنوان "Esperanto: تقييم العبارات المركبة لتعزيز قوة كشف الذكاء الاصطناعي لأصل النص"، درس الباحثون تأثيرات ترجمة اللغة على قدرة كاشفات الذكاء الاصطناعي.
من المعروف أن تمرير نص تم إنشاؤه بواسطة الذكاء الاصطناعي عبر مترجم Google إلى لغة أجنبية ثم إعادة ترجمته إلى اللغة الإنجليزية يمكن أن يساعد الخصم (أو ببساطة طالب ذكي يعاني من ضيق الوقت) على التهرب من برامج الكشف عن الذكاء الاصطناعي. في Pangram، نسمي هذا الهجوم داخليًا "الترجمة المزدوجة"، ويشير إليه الباحثون باسم "الترجمة العكسية". فيما يلي مثال على الترجمة المزدوجة. نطلب من ChatGPT كتابة بعض النصوص لنا. نقوم أولاً بترجمة النص إلى اليابانية، ثم نعيد ترجمته إلى الإنجليزية. نلاحظ أن بعض العبارات قد تغيرت بسبب حقيقة أن برامج الترجمة ليست مثالية وغالبًا ما توجد طرق متعددة لقول الشيء نفسه. وهذا له تأثير مشابه لما تفعله أداة إعادة الصياغة مثل Quillbot.
نص تم إنشاؤه بواسطة ChatGPT
نص مترجم مرتين
مثال على الترجمة المزدوجة
العديد من منافسينا ليسوا قادرين على مواجهة هذا الاستغلال. أعلاه أحد أكثر أجهزة الكشف عن الذكاء الاصطناعي شيوعًا في السوق. نرى أن النموذج يمكنه الكشف عن الذكاء الاصطناعي مباشرة من ChatGPT، ولكن بمجرد إخضاعه لترجمة مزدوجة، فإنه يتنبأ بوجود الذكاء الاصطناعي بنسبة 15% فقط.
نتائج GPTZero
تصنف أداة منافسة شهيرة النص الأصلي الذي تمت ترجمته بواسطة الذكاء الاصطناعي بشكل صحيح، ولكنها تصنف النص المترجم مرتين بشكل خاطئ على أنه نص كتب بواسطة الإنسان.
ومع ذلك، فإن Pangram قادر على التنبؤ بكل من النص الأصلي لـ ChatGPT والنص المترجم مرتين على أنه 99.99٪ من الذكاء الاصطناعي. نحن قادرون ليس فقط على التنبؤ بأن هذا النص تم إنشاؤه بواسطة الذكاء الاصطناعي، ولكننا قادرون أيضًا على التنبؤ بثقة أن GPT-4 هو المصدر الأصلي. شرع الباحثون في دراسة هذه الظاهرة بشكل عام وعلى نطاق واسع.
نتائج Pangram
يحدد Pangram بشكل صحيح النص الأصلي والنص المترجم مرتين على أنهما من إنتاج الذكاء الاصطناعي.
مثال واحد لا يكفي لإثبات أن كاشفنا قوي وأن الكواشف الأخرى ليست كذلك. في الدراسة البحثية، جمع الباحثون آلاف المقالات الإخبارية وملخصات الأوراق العلمية ومنشورات Reddit ومراجعات المنتجات التي تم التأكد من أنها مكتوبة بواسطة البشر. ثم قاموا بإنشاء عدة أمثلة للذكاء الاصطناعي باستخدام GPT-3.5-Turbo و LLaMA 3 و Mistral و Phi3 و Yi.
بشكل عام، حتى قبل استخدام هجوم الترجمة، فإن العديد من الأساليب مفتوحة المصدر وأجهزة الكشف التجارية هي في الواقع غير فعالة تمامًا.
أولاً، تم اختيار عتبة: وهذا يعني تحديد النسبة المئوية التي فوقها نعتبر الوثيقة من صنع الذكاء الاصطناعي. توفر معظم أجهزة الكشف عن الذكاء الاصطناعي نسبة مئوية كنتيجة نهائية. ولجعل جميع أجهزة الكشف قابلة للمقارنة، تم اختيار العتبات بحيث يكون لكل نموذج معدل إيجابي كاذب بنسبة 1٪. بعد ذلك، يمكن مقارنة دقة جهاز الكشف كنسبة من الإيجابيات الحقيقية: كم عدد أمثلة الذكاء الاصطناعي التي يمكن لكل جهاز كشف اكتشافها عند تلك العتبة؟
العديد من الطرق الأخرى التي تمت دراستها في الورقة البحثية فشلت تمامًا في اكتشاف محتوى الذكاء الاصطناعي. على سبيل المثال، لا تستطيع ZeroGPT و GPTZero تحقيق معدل إيجابي خاطئ بنسبة 1٪ عند أي عتبة في بعض المجالات، كما أن الأوراق البحثية الأكاديمية المشهورة مثل RADAR و LLMDet تقل دقتها عن 50٪.
المقياس المقترح لتقييم الأداء هو قياس TPR @ 1٪ FPR: بمعنى، مع معدل إيجابي خاطئ ثابت بنسبة 1٪، كم مرة يمكن للنموذج اكتشاف النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي؟ لا يمكن لـ ZeroGPT تحقيق معدل إيجابي خاطئ بنسبة 1٪ في أي عتبة في معظم المجالات، وتحقق الأوراق الأكاديمية المقتبسة جيدًا مثل RADAR و LLMDet أقل من 50٪ في هذا المقياس.
في الوقت نفسه، يحقق Pangram نسبة استرجاع تزيد عن 96٪ في جميع المجالات عند معدل FPR بنسبة 1٪، بل ويحقق نسبة 85٪ في مجموعة بيانات المراجعات الصعبة، التي تحتوي على مراجعات لا يتجاوز طولها 40-50 كلمة (وهو أقل بكثير من الحد الأدنى الموصى به لعدد الكلمات للكشف عن الذكاء الاصطناعي في الاستخدام التجاري).
بعد هجوم الترجمة المزدوجة، تفشل العديد من أجهزة الكشف تمامًا. على سبيل المثال، تنخفض نسبة نجاح GPTZero من 97% إلى 42% فقط في مجال الأخبار ومن 65% إلى 9% في مجال المراجعات. ويخلص الباحثون إلى أن "نتائج GPTZero و ZeroGPT تشير إلى عدم وجود قوة ضد تقنيات الترجمة العكسية... بينما يُظهر Pangram درجة من القوة، خاصة في النصوص الطويلة."
النتائج الكاملة معروضة هنا. يُظهر Pangram أداءً متميزًا في جميع الفئات.
جدول النتائج يقارن بين أجهزة الكشف عن الذكاء الاصطناعي
جدول النتائج من ورقة الإسبرانتو يوضح قوة بانغرام
يدعم هذا البحث ادعاءاتنا بأن Pangram هو برنامج الكشف عن الذكاء الاصطناعي الوحيد في السوق اليوم الذي يعمل بشكل موثوق بما يكفي لاستخدامه في البيئات الأكاديمية والتجارية، ولا يمكن تجاوزه بواسطة حيل مثل الترجمة المزدوجة.
هذا ليس مصادفة أو صدفة. قوة Pangram هي دليل على وجود نموذج قوي يعرف كيفية التعميم ويستند إلى مجموعات بيانات كبيرة ونهج التعلم النشط المستهدف. في حين أن أي شخص يمكنه إنشاء أداة كشف تعتمد على الذكاء الاصطناعي تعمل في بعض الأحيان أو حتى في معظم الأحيان، فإن نهجنا القابل للتطوير هو الطريقة الوحيدة لتحقيق دقة موثوقة ومتسقة لا تنهار تمامًا عند تعديل النص أو تغييره.
نحن نعمل دائمًا على تحسين أداء ومتانة نموذج الكشف بالذكاء الاصطناعي الخاص بنا. نبقى على اطلاع بأحدث الأبحاث في مجال التعلم الآلي التنافسي ونقوم باستمرار باختبار نموذجنا الخاص لمواجهة الهجمات والتجاوزات المحتملة.
المزيد قريبًا حول هذا الموضوع!
