الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
عندما تبحث على الإنترنت عن كيفية عمل أجهزة الكشف عن الذكاء الاصطناعي، ستجد عادةً العديد من المصادر التي تستشهد بمصطلحي "الحيرة" و"الاندفاع". ماذا تعني هذين المصطلحين، ولماذا لا يعملان في نهاية المطاف في الكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي؟ اليوم أريد أن أشرح ما هي الحيرة والاندفاع، وأوضح لماذا لا تناسبان الكشف عن الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي. سنفهم أيضًا سبب عدم فعاليتها، ولماذا تشير أجهزة الكشف القائمة على الحيرة والاندفاع بشكل خاطئ إلى إعلان الاستقلال على أنه من إنتاج الذكاء الاصطناعي، ولماذا تتحيز هذه الأجهزة أيضًا ضد المتحدثين غير الناطقين باللغة الإنجليزية. هيا بنا!
سنبدأ بتعريف غير دقيق وغير تقني لمصطلح "الحيرة"، فقط للحصول على فكرة عامة عن ماهية الحيرة ودورها. لمزيد من المعلومات الأساسية عن الحيرة، وجدت هذا المقال التوضيحي الذي يستغرق دقيقتين مفيدًا للغاية.
الحيرة هي مدى توقع أو مفاجأة كل كلمة في نص ما، عند النظر إليها من منظور نموذج لغوي معين أو LLM.
على سبيل المثال، إليك جملتان. لنركز على الكلمة الأخيرة في كل جملة، لأغراض التوضيح. في المثال الأول، الكلمة الأخيرة لها درجة حيرة منخفضة، بينما في المثال الثاني، الكلمة الأخيرة لها درجة حيرة عالية.
انخفاض الحيرة:
اليوم، تناولت وعاء من *الحساء* على الغداء.
ارتفاع مستوى الحيرة:
اليوم، تناولت طبقًا من *العناكب* على الغداء.
السبب في أن الجملة الثانية تثير حيرة كبيرة هو أنه نادراً ما ترى نماذج اللغة أمثلة لأشخاص يأكلون أطباق من العناكب في مجموعة بيانات التدريب الخاصة بها، ولذلك فإنه من المفاجئ جداً لنموذج اللغة أن تنتهي الجملة بكلمة "عناكب"، بدلاً من كلمة مثل "حساء" أو "شطيرة" أو "سلطة".
تأتي كلمة "perplexity" من نفس جذر كلمة "perplexed" التي تعني "محتار" أو "مشوش". من المفيد التفكير في كلمة "perplexity" على أنها ارتباك نموذج اللغة: عندما يرى شيئًا غير مألوف أو غير متوقع، مقارنة بما قرأه واستوعبه في إجراءات التدريب، يمكننا التفكير في نموذج اللغة على أنه مرتبك أو مشوش بسبب الإكمال.
حسناً، رائع، ماذا عن التقلب؟ التقلب هو التغير في درجة التعقيد على مدار الوثيقة. إذا كانت هناك بعض الكلمات والعبارات المفاجئة متناثرة في جميع أنحاء الوثيقة، فإننا نقول إنها عالية التقلب.
لسوء الحظ، فإن معظم أجهزة الكشف التجارية (باستثناء Pangram) لا تتسم بالشفافية فيما يتعلق بمنهجياتها، ولكن من خلال ما يمكن فهمه من وصفها، يُعتبر النص البشري أكثر تعقيدًا وأكثر اندفاعًا من النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، بينما النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي أقل احتمالية وأقل اندفاعًا.
يمكننا رؤية تصور لذلك أدناه! قمت بتنزيل نموذج GPT-2 من Huggingface، وحسبت درجة التعقيد لجميع النصوص في وثيقتين: مجموعة من تقييمات المطاعم التي كتبها بشر، ومجموعة من التقييمات التي أنشأتها الذكاء الاصطناعي. ثم قمت بتمييز النصوص ذات درجة التعقيد المنخفضة باللون الأزرق، والنصوص ذات درجة التعقيد العالية باللون الأحمر.
تصور الحيرة مقارنة بين النصوص المكتوبة بواسطة الذكاء الاصطناعي والنصوص المكتوبة بواسطة البشر
كما ترون، النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يظهر باللون الأزرق الداكن في جميع أنحائه، مما يشير إلى قيم منخفضة وموحدة من حيث درجة التعقيد. أما النص الذي تم إنشاؤه بواسطة الإنسان فيظهر باللون الأزرق في الغالب، ولكنه يحتوي على نقاط حمراء. وهذا ما نسميه ارتفاع معدل التقلب.
هذه الفكرة هي التي ألهمت أجهزة الكشف عن الحيرة والاندفاع. لم تقتصر هذه الفكرة على بعض أقدم أجهزة الكشف التجارية التي تعمل بالذكاء الاصطناعي فحسب، بل ألهمت أيضًا بعض المؤلفات الأكاديمية مثل DetectGPT و Binoculars.
لنكون منصفين تمامًا، فإن أجهزة الكشف عن الحيرة والاندفاع تعمل في بعض الأحيان! لكننا لا نعتقد أنها يمكن أن تعمل بشكل موثوق في المواقف الحرجة التي يجب تجنب الأخطاء فيها، مثل الفصول الدراسية، حيث يمكن أن يؤدي الكشف الخاطئ عن الذكاء الاصطناعي إلى تقويض الثقة بين المعلم والطالب، أو ما هو أسوأ من ذلك، إلى خلق أدلة غير دقيقة في قضية قانونية.
بالنسبة لأولئك الذين ليسوا على دراية بكيفية إنشاء نماذج اللغة الكبيرة (LLM)، قبل أن تصبح نماذج اللغة الكبيرة (LLM) متاحة للنشر والاستخدام كروبوتات دردشة، يجب أن تخضع أولاً لإجراء يسمى التدريب. أثناء التدريب، ترى نموذج اللغة مليارات النصوص وتتعلم الأنماط اللغوية الأساسية لما يسمى "مجموعة التدريب".
تفاصيل إجراءات التدريب الميكانيكية الدقيقة خارج نطاق هذه المدونة، ولكن التفصيل المهم هو أنه في عملية التحسين، يتم تحفيز LLM مباشرة لتقليل الحيرة في وثائق مجموعة التدريب الخاصة به! بمعنى آخر، يتعلم النموذج بمرور الوقت أن أجزاء النص التي يراها مرارًا وتكرارًا في إجراءات التدريب يجب أن تكون أقل حيرة قدر الإمكان.
لماذا هذا يمثل مشكلة؟
نظرًا لأن النموذج مطلوب منه أن يجعل وثائق مجموعة التدريب الخاصة به منخفضة التعقيد، فإن أجهزة الكشف عن التعقيد والاندفاع تصنف وثائق مجموعة التدريب الشائعة على أنها من صنع الذكاء الاصطناعي، حتى عندما تكون وثائق مجموعة التدريب مكتوبة بالفعل بواسطة البشر!
هذا هو السبب في أن أجهزة الكشف عن الذكاء الاصطناعي القائمة على الحيرة تصنف إعلان الاستقلال على أنه من إنتاج الذكاء الاصطناعي: لأن إعلان الاستقلال هو وثيقة تاريخية شهيرة تم استنساخها في عدد لا يحصى من الكتب المدرسية والمقالات على الإنترنت، فهي تظهر في مجموعات تدريب الذكاء الاصطناعي... كثيرًا. ونظرًا لأن النص هو نفسه تمامًا في كل مرة يظهر فيها أثناء التدريب، يمكن للنموذج أن يحفظ ماهية إعلان الاستقلال عندما يراه، ثم يخصص تلقائيًا لجميع الرموز درجة حيرة منخفضة جدًا، مما يجعل معدل الاندفاع منخفضًا جدًا أيضًا.
قمت بتشغيل نفس التصور أعلاه على إعلان الاستقلال - ونرى نفس توقيع الذكاء الاصطناعي: لون أزرق عميق ومتسق في جميع الأنحاء، مما يشير إلى أن كل كلمة لها درجة منخفضة من التعقيد. من منظور كاشف يعتمد على التعقيد والاندفاع، لا يمكن تمييز إعلان الاستقلال تمامًا عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
ومن المثير للاهتمام أننا نلاحظ أن الجملة الأولى من إعلان الاستقلال هي أزرق أعمق وأقل إرباكًا من البقية. يحدث هذا لأن الجملة الأولى هي الجزء الأكثر تكرارًا في المقطع، وتظهر بشكل متكرر في مجموعة تدريب GPT-2.
تصور الحيرة في إعلان الاستقلال
وبالمثل، نجد أن المصادر الشائعة الأخرى لبيانات تدريب LLM تشهد أيضًا معدلات إيجابية خاطئة مرتفعة مع أجهزة الكشف عن الحيرة والاندفاع. تعد ويكيبيديا مجموعة بيانات تدريب شائعة جدًا نظرًا لجودتها العالية وترخيصها غير المقيد: وبالتالي، فمن الشائع جدًا أن يتم توقعها بشكل خاطئ على أنها ناتجة عن الذكاء الاصطناعي لأن نماذج اللغة يتم تحسينها مباشرة لتقليل الحيرة في مقالات ويكيبيديا.
هذه مشكلة تتفاقم مع استمرار تطور الذكاء الاصطناعي وتقدمه، لأن أحدث نماذج اللغة تتطلب كميات هائلة من البيانات: فبينما تقرأ هذا المقال، تعمل برامج الزحف التابعة لـ OpenAI و Google و Anthropic على جمع البيانات من الإنترنت بوتيرة سريعة، وتستمر في استيعاب البيانات لتدريب نماذج اللغة. هل يجب على الناشرين ومالكي مواقع الويب أن يقلقوا من أن السماح لهذه البرامج بفحص مواقعهم الإلكترونية لتدريب نماذج اللغة الكبيرة (LLM) قد يعني أن محتواهم قد يتم تصنيفه بشكل خاطئ على أنه من إنتاج الذكاء الاصطناعي في المستقبل؟ هل يجب على الشركات التي تفكر في ترخيص بياناتها لـ OpenAI أن تزن مخاطر عودة تلك البيانات ليتم توقعها بشكل خاطئ على أنها من إنتاج الذكاء الاصطناعي بمجرد استيعابها من قبل نماذج اللغة الكبيرة (LLM)؟ نعتبر هذا حالة فشل غير مقبولة على الإطلاق، وهي حالة تتفاقم بمرور الوقت.
هناك مشكلة أخرى في استخدام الحيرة والاندفاع كمقاييس للكشف، وهي أنها نسبية بالنسبة لنموذج لغة معين. فما يمكن توقعه من GPT على سبيل المثال قد لا يكون متوقعًا من Claude. وعندما تظهر نماذج جديدة، تختلف حيرتها أيضًا.
تحتاج أجهزة الكشف القائمة على الحيرة التي تسمى "الصندوق الأسود" إلى اختيار نموذج لغوي لقياس الحيرة الفعلية. ولكن عندما تختلف حيرة النموذج اللغوي عن حيرة المولد، تحصل على نتائج غير دقيقة للغاية، وتزداد هذه المشكلة تعقيدًا مع إصدار نماذج جديدة.
لا يقدم مزودو المصادر المغلقة دائمًا احتمالات كل رمز، لذا لا يمكنك حتى حساب الحيرة بالنسبة للنماذج التجارية ذات المصادر المغلقة، مثل ChatGPT و Gemini و Claude. في أفضل الأحوال، يمكنك استخدام نموذج مفتوح المصدر لقياس الحيرة، ولكن ذلك يواجه نفس المشاكل المذكورة في العيب 2.
ظهرت رواية مفادها أن الكشف عن الذكاء الاصطناعي متحيز ضد المتحدثين غير الناطقين باللغة الإنجليزية، مدعومة بدراسة أجرتها جامعة ستانفورد عام 2023 على 91 مقالًا من اختبار TOEFL. في حين أن Pangram يقيس بشكل مكثف النصوص غير الناطقة باللغة الإنجليزية ويدمجها في مجموعة التدريب لدينا حتى يتمكن النموذج من التعرف عليها واكتشافها، فإن أجهزة الكشف القائمة على الحيرة لديها بالفعل معدل إيجابي كاذب مرتفع على النصوص غير الناطقة باللغة الإنجليزية.
والسبب في ذلك هو أن النصوص التي يكتبها متعلمو اللغة الإنجليزية تتميز عمومًا بانخفاض مستوى التعقيد والاندفاع. ونعتقد أن هذا ليس من قبيل الصدفة: فهذا يحدث لأن مفردات الطالب تكون محدودة بشكل كبير أثناء عملية تعلم اللغة، كما أن الطالب غير قادر على تكوين جمل معقدة قد تكون غير عادية أو مفاجئة بالنسبة لنموذج اللغة. نحن نرى أن تعلم الكتابة بطريقة عالية التعقيد ومتقطعة ولكنها لا تزال صحيحة لغويًا هو مهارة لغوية متقدمة تأتي من الخبرة في اللغة.
الناطقون باللغة الإنجليزية غير الأصليين، ونعتقد أن ذلك يشمل الطلاب ذوي التنوع العصبي أو الطلاب ذوي الإعاقة، هم أكثر عرضة للوقوع في شرك أجهزة الكشف عن الذكاء الاصطناعي القائمة على الحيرة.
ما نعتقد أنه أكبر عيب في أجهزة الكشف القائمة على الحيرة، والسبب الذي دفعنا في Pangram إلى اختيار نهج قائم على التعلم العميق بدلاً من ذلك، هو أن أجهزة الكشف القائمة على الحيرة لا يمكنها تحسين نفسها باستخدام البيانات وحجم الحوسبة.
ماذا يعني هذا؟ كلما اكتسب Pangram المزيد من الخبرة في التعامل مع النصوص البشرية من خلال خوارزمية التعلم النشط الخاصة بنا، كلما تحسن أداءه تدريجياً. هكذا تمكنا من خفض معدل الإيجابيات الخاطئة من 2% إلى 1% ثم إلى 0.1%، والآن إلى 0.01%. لا تستطيع أجهزة الكشف القائمة على الحيرة أن تتحسن من خلال رؤية المزيد من البيانات.
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature هي ورقة بحثية تبحث في مشهد الحيرة المحلية لتمييز الكتابة البشرية عن الكتابة التي تنتجها الذكاء الاصطناعي بدلاً من قيم الحيرة المطلقة.
اكتشاف LLMs بالمنظار: الكشف الفوري عن النصوص التي تم إنشاؤها آليًا uses a novel metric called "cross-perplexity" to improve upon basic perplexity detection.
تتعمق الورقة التقنية لشركة Pangram في حلنا البديل للكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي استنادًا إلى التعلم النشط العميق.
هناك فرق كبير بين حساب إحصائية ترتبط بالكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي وبناء نظام على مستوى الإنتاج يمكنه اكتشاف الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل موثوق. في حين أن أجهزة الكشف القائمة على الحيرة تلتقط جانبًا مهمًا مما يجعل الكتابة البشرية بشرية وما يجعل الكتابة بالذكاء الاصطناعي ذكاءً اصطناعيًا، للأسباب الموضحة في هذه المقالة، لا يمكنك استخدام جهاز كشف قائم على الحيرة لاكتشاف الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل موثوق مع الحفاظ على معدل إيجابي كاذب منخفض بما يكفي لتطبيقات الإنتاج.
في بيئات مثل التعليم حيث تجنب الإيجابيات الخاطئة أمر بالغ الأهمية، نأمل أن نرى المزيد من الأبحاث تتجه نحو الأساليب القائمة على التعلم العميق وتبتعد عن الحيرة والاندفاع، أو الأساليب القائمة على المقاييس.
نأمل أن يوفر هذا بعض التوضيح حول سبب اختيار Pangram عدم استخدام معاملات perplexity و burstiness للكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والتركيز بدلاً من ذلك على طرق موثوقة قابلة للتطوير.
