الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
من الانتقادات الشائعة الموجهة إلى أجهزة الكشف عن الذكاء الاصطناعي أنها متحيزة ضد المتحدثين غير الناطقين باللغة الإنجليزية. يُشار إلى النصوص المكتوبة بواسطة متحدثين غير ناطقين باللغة الإنجليزية بـ ESL (اللغة الإنجليزية كلغة ثانية)، أو بشكل أكثر دقة، ELL (متعلمي اللغة الإنجليزية). في مقالات سابقة، شرحنا لماذا أجهزة الكشف عن الذكاء الاصطناعي الأخرى القائمة على الحيرة والاندفاع عرضة لهذا العيب.
لا يمتلك المتحدثون غير الناطقين باللغة الإنجليزية عمق المفردات أو إتقان أنماط بناء الجمل الإنجليزية المعقدة للكتابة بطريقة تظهر درجة عالية من الاندفاع. لذلك، فشلت المحاولات السابقة للكشف عن الذكاء الاصطناعي: غالبًا ما أخطأت في تصنيف اللغة الإنجليزية كلغة ثانية على أنها كتابة تم إنشاؤها بواسطة الذكاء الاصطناعي، وبالتالي أظهرت معدل إيجابي خاطئ مرتفع على اللغة الإنجليزية كلغة ثانية.
نُشرت دراسة بارزة من جامعة ستانفورد في يوليو 2023 من قبل Weixin Liang و James Zou وآخرين، تدعي أن أجهزة الكشف عن GPT متحيزة ضد الكتّاب غير الناطقين باللغة الإنجليزية. على الرغم من أن الدراسة أجريت على عينة صغيرة (91 مقالًا فقط من امتحان TOEFL)، وكان هناك بعض العيوب المنهجية (قرر المؤلفون تصنيف النصوص البشرية المعدلة بواسطة GPT-4 على أنها "بشرية" عند اختبار أجهزة الكشف)، إلا أن النتائج أظهرت بشكل عام أظهرت النتائج أن أجهزة الكشف السبعة التي تم اختبارها (لم يتم اختبار Pangram في هذه الدراسة) أظهرت تحيزًا قويًا ضد الكتابة باللغة الإنجليزية كلغة ثانية (ESL) - حيث تم وضع علامة AI على أكثر من 60٪ من عينات الكتابة البشرية باللغة الإنجليزية كلغة ثانية (ESL).
أجرت دراسة أحدث في أغسطس 2024 من ETS، وهو مركز خدمات اختبار يدير GRE، وهو اختبار موحد للقبول في الدراسات العليا، دراسة على نطاق أوسع على حوالي 2000 عينة كتابة من متحدثين غير ناطقين باللغة الإنجليزية في GRE، على أجهزة كشف تعلم آلي بسيطة قاموا بتدريبها بأنفسهم على ميزات مصنوعة يدويًا، بما في ذلك الحيرة. لم يجدوا أي تحيز في أجهزة الكشف الخاصة بهم ضد اللغة الإنجليزية غير الأم، على الرغم من أن الإعداد التجريبي كان مبسطًا للغاية ومصطنعًا، وهناك اختلافات مهمة بين هذه الدراسة والعالم الحقيقي. علاوة على ذلك، لم يدرسوا أجهزة الكشف التجارية التي تُستخدم بالفعل في الممارسة العملية. ومع ذلك، تسلط الدراسة الضوء على نقطة مثيرة للاهتمام: عندما يتم تمثيل البيانات من المتحدثين غير الناطقين باللغة الإنجليزية بشكل كافٍ في مجموعة التدريب، يتم التخفيف من التحيز الناتج بشكل كافٍ.
من أجل قياس معدل الإيجابية الكاذبة لـ Pangram على بيانات ESL، قمنا بتشغيل كاشف الذكاء الاصطناعي Pangram على أربع مجموعات بيانات ESL عامة (نحتفظ بهذه المجموعات أثناء التدريب، حتى لا يكون هناك أي تسرب بين التدريب والاختبار).
تشمل مجموعات البيانات التي ندرسها ما يلي:
النتائج موضحة أدناه.
| مجموعة البيانات | معدل الإيجابية الكاذبة | حجم العينة |
|---|---|---|
| إليبس | 0.00% | 3,907 |
| ICNALE | 0.018% | 5,600 |
| PELIC | 0.045% | 15,423 |
| ليانغ تووفل | 0% | 91 |
| بشكل عام | 0.032% | 25,021 |
يبلغ معدل الإيجابية الكاذبة الإجمالي لـ Pangram 0.032٪، وهو معدل لا يزيد بشكل كبير عن معدل الإيجابية الكاذبة العام لدينا البالغ 0.01٪.
نقارن Pangram مباشرةً بـ TurnItIn باستخدام نفس مجموعات البيانات التي استخدمتها TurnItIn في تقييم عام لمؤشر الكتابة بالذكاء الاصطناعي الخاص بها.
نقوم بتقييم كل من اللغة الإنجليزية "L1" (غير ESL) و"L2" (ESL) على نفس مجموعات البيانات مثل TurnItIn. نظرًا لأن TurnItIn لا يقوم بتقييم المستندات التي يزيد عدد كلماتها عن 300 كلمة، فإننا نطبق نفس التصفية على مجموعة البيانات قبل التقييم.
| مجموعة البيانات | بانجرام FPR | TurnItIn FPR |
|---|---|---|
| اللغة الإنجليزية L2 300+ كلمة | 0.02% | 1.4% |
| L1 الإنجليزية 300+ كلمة | 0.00% | 1.3% |
وجدنا أن Pangram أكثر دقة بمرتين من TurnItIn في النصوص الإنجليزية كلغة ثانية (ESL)، كما أن Pangram لا يكتشف أي نتائج إيجابية خاطئة في النصوص الإنجليزية الأصلية من هذه الدراسة.
أبلغت GPTZero عن معدل إيجابي خاطئ بنسبة 1.1٪ في دراسة Liang TOEFL الأصلية، على الرغم من أن 6.6٪ من مجموعة بيانات Liang TOEFL تم تصنيفها بشكل خاطئ على أنها "محتوى محتمل للذكاء الاصطناعي".
وبالمقارنة، لا يبلغ Pangram عن أي نتيجة إيجابية خاطئة في مجموعة بيانات Liang TOEFL، ونحن واثقون تمامًا من كل مثال.
في Pangram، نأخذ أداءنا في اللغة الإنجليزية غير الأم على محمل الجد، ولهذا السبب استخدمنا عدة استراتيجيات للتخفيف من الإيجابيات الخاطئة في نموذج الكتابة بالذكاء الاصطناعي الخاص بنا.
لا تعمل نماذج التعلم الآلي بشكل جيد خارج نطاق توزيع التدريب الخاص بها، ولذلك نحرص على تضمين النصوص غير الإنجليزية في مجموعة البيانات الخاصة بنا.
ومع ذلك، فإننا لا نتوقف عند هذا الحد. في حين أن أجهزة الكشف عن الكتابة بالذكاء الاصطناعي الأخرى تركز بشكل خاص على كتابات الطلاب والمقالات الأكاديمية فقط، فإننا ندرب نموذجنا على نطاق واسع من الكتابة. غالبًا ما تعاني أجهزة الكشف عن الكتابة التي تعتمد على الذكاء الاصطناعي والتي يتم تدريبها على المقالات فقط من نقص تمثيل اللغة الإنجليزية غير الرسمية والمحادثة في مجموعة التدريب. على النقيض من ذلك، نستخدم نصوصًا من وسائل التواصل الاجتماعي والمراجعات والنصوص العامة على الإنترنت التي غالبًا ما تكون غير رسمية وأكثر تمثيلاً للكتابة غير المثالية التي تشبه اللغة الإنجليزية التي يستخدمها غير الناطقين بها أو متعلمو اللغة الإنجليزية.
كما نحرص على تضمين المصادر التي قد تحتوي على نصوص مكتوبة باللغة الإنجليزية غير الأم، حتى لو لم تكن تلك المصادر عبارة عن مجموعات بيانات خاصة باللغة الإنجليزية كلغة ثانية. على سبيل المثال، النصوص الإنجليزية على مواقع الويب ذات النطاقات الأجنبية هي مصدر رائع للنصوص المكتوبة باللغة الإنجليزية غير الأم.
وعلى عكس أجهزة الكشف الأخرى التي تعمل بالذكاء الاصطناعي، فإننا لا نقتصر على اللغة الإنجليزية فقط. في الواقع، نحن لا نقيّد لغة نموذجنا على الإطلاق: سنستخدم جميع اللغات الموجودة على الإنترنت لتدريب نموذجنا حتى يعمل بشكل جيد على جميع اللغات الشائعة.
لقد كتبنا سابقًا عن أدائنا المتعدد اللغات الممتاز، ونعتقد أن التقنيات التي استخدمناها لجعل Pangram يعمل بشكل جيد جدًا مع اللغات الأخرى يمكن تطبيقها بشكل جيد جدًا على اللغة الإنجليزية كلغة ثانية (ESL).
على الرغم من أننا لا نستطيع أن نكون متأكدين تمامًا من الآليات المسؤولة عن التعميم والنقل الجيدين، فإننا نعتقد أن ESL يمكن اعتبارها لغة مجاورة للغة الإنجليزية. من خلال تحسين النموذج ليؤدي أداءً جيدًا في جميع اللغات، لا يمكن للنموذج أن يتكيف بشكل مفرط مع أي أنماط لغوية أو تركيبات نحوية أو اختيارات كلمات خاصة بالطرق الشائعة للتعبير عن الأفكار في أي لغة معينة. من خلال النظر إلى النصوص البشرية بجميع اللغات، نعلم النموذج كيف يكتب جميع البشر، وليس فقط المتحدثين الأصليين للغة الإنجليزية. وهذا يجعل النموذج أقل عرضة للتركيز بشكل غير صحيح على الأنماط الاصطلاحية التي يعبر عنها المتحدثون الأصليون.
نهجنا في التعلم النشط هو السبب في أن Pangram أكثر دقة بكثير ويقلل بشكل كبير من عدد النصوص البشرية التي يخطئ في تصنيفها على أنها نصوص مكتوبة بواسطة الذكاء الاصطناعي مقارنة بالمنافسين.
من خلال التناوب المتكرر بين التدريب والتعدين السلبي الصعب، نجد الأمثلة البشرية التي تشبه إلى حد كبير النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي للتدريب. لا يقتصر هذا النهج على إظهار الأمثلة البشرية الأكثر شبهاً بالنصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يساعد النموذج على فهم الاختلافات الدقيقة بين النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي والنصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بل يساعدنا أيضاً في العثور على أمثلة مشابهة للغة الإنجليزية كلغة ثانية (ESL) والتي ستنتقل بشكل جيد وتساعد النموذج على تعلم أنماط أفضل بشكل عام.
عند إنشاء أمثلة للذكاء الاصطناعي لكي يتعلم منها النموذج، نحاول استخدام مجموعة شاملة من المطالبات حتى يتمكن النموذج من التعميم على أنماط الكتابة المختلفة. على سبيل المثال، غالبًا ما نضيف معدلات إلى نهاية مطالباتنا مثل "اكتب هذا المقال بأسلوب طالب في المدرسة الثانوية" أو "اكتب هذا المقال بأسلوب متحدث غير ناطق باللغة الإنجليزية".
من خلال إنشاء العديد من أنماط الكتابة المختلفة، لا يتعلم النموذج الطريقة الافتراضية التي تكتب بها نماذج اللغة الاصطناعية فحسب، بل يتعلم أيضًا الأنماط الأساسية الكامنة وراء النصوص الاصطناعية.
من منظور إحصائي، نقوم بتصميم خط أنابيب المرآة الاصطناعية لدينا بطريقة تجعل نموذجنا غير متأثر بالسمات غير ذات الصلة مثل الموضوع أو مستوى الكتابة أو النبرة. من خلال تحفيز النموذج بطرق تتوافق مع سمات النص البشري، نبني الثبات من خلال وجود عدد متساوٍ من الأمثلة البشرية وأمثلة الذكاء الاصطناعي التي تعرض كل سمة.
أخيرًا، نطبق عملية تقييم وضمان جودة شاملة وصارمة للغاية قبل الموافقة على كل تحديث جديد للنموذج.
في التقييم، نركز على الجودة والكمية. على سبيل المثال، تحتوي مجموعة بيانات Liang TOEFL على 91 مثالًا فقط، لذا لن نتمكن من الحصول إلا على تقدير تقريبي جدًا لمعدل الإيجابية الكاذبة في ESL إذا استخدمنا مجموعة بيانات Liang TOEFL فقط. إذا أخطأنا في مثال واحد فقط، فسنبلغ عن معدل إيجابية كاذبة بنسبة 1.1٪، لذلك لن نتمكن من التمييز بين النماذج التي لديها بالفعل معدل إيجابية كاذبة حقيقي أقل من 1٪.
نظرًا لأننا نسعى جاهدين إلى الحصول على نسبة إيجابية خاطئة أقل بكثير من 1٪ (تتراوح نسبة الإيجابية الخاطئة المستهدفة لدينا بين 1 من كل 10,000 و 1 من كل 100,000)، فإننا بحاجة إلى قياس ملايين الأمثلة حتى نتمكن من تأكيد الدقة إلى هذا المستوى.
كما أن إجراء تقييم واسع النطاق يساعدنا على اكتساب فهم أفضل لأنماط الفشل التي يظهرها نموذجنا، وتصحيحها بمرور الوقت من خلال الحصول على بيانات أفضل ووضع استراتيجيات خوارزمية أفضل تستهدف حالات الفشل لدينا على وجه التحديد.
من خلال قياساتنا ونتائج التقييم التفصيلية واستراتيجيات التخفيف القابلة للتفسير، نعتقد أن Pangram دقيق بما يكفي بالنسبة للمتحدثين غير الناطقين باللغة الإنجليزية ليتم استخدامه في البيئة التعليمية.
ومع ذلك، فإن وجود كاشف ذكاء اصطناعي غير متحيز بشكل كافٍ لا يكفي لمنع جميع أشكال التحيز في عملية النزاهة الأكاديمية. يجب أن يدرك المعلمون أن التحيز قد يظهر بطرق غير واعية. على سبيل المثال، إذا كان المعلم أكثر ميلًا لاستخدام كاشف الذكاء الاصطناعي على أعمال الطلاب غير الناطقين باللغة الإنجليزية بسبب شكوك لا شعورية بأن طلاب اللغة الإنجليزية كلغة ثانية أقل صدقًا، فإن ذلك يعد شكلاً من أشكال التحيز.
بالإضافة إلى ذلك، يجب أن يدرك المعلمون أن المتحدثين باللغة الإنجليزية غير الأم يعانون من عيوب متأصلة في المجال الأكاديمي مقارنة بنظرائهم المتحدثين باللغة الإنجليزية الأم. من المرجح أن يستخدم طلاب اللغة الإنجليزية كلغة ثانية (ESL) أدوات خارجية مثل ChatGPT لتحسين كتاباتهم، والتي عند استخدامها بكمية كافية، فإنها تثير انتباه برامج الكشف عن الذكاء الاصطناعي. لهذا السبب نوصي باستخدام مقياس تقييم الذكاء الاصطناعي بيركنز لتسهيل التواصل الواضح مع الطلاب حول أنواع المساعدة التي يقدمها الذكاء الاصطناعي المسموح بها وتلك غير المسموح بها.
أخيرًا، نحن نعلم أن الطلاب يغشون عندما يتعرضون للضغط والتوتر، ويشعرون بنقص في الكفاءة الذاتية خاصة عند مقارنتهم بأقرانهم، وعندما يشعرون أن استخدام أداة الغش هو الطريقة الوحيدة التي يمكنهم من خلالها تحقيق النجاح. نحن نشجع المعلمين على معالجة هذه المخاوف بشكل استباقي، من خلال تقديم الدعم لهؤلاء الطلاب، والتواصل بوضوح بشأن نوع المساعدة المتاحة والمسموح بها، وإمكانية إعادة النظر في استراتيجيات التقييم التي لا تتوقع إجادة اللغة الإنجليزية من الطلاب الذين يأتون إلى الفصل الدراسي وهم يعانون بالفعل من حرمان.
يجب استخدام Pangram كأداة للمساعدة في دعم النزاهة الأكاديمية حتى يتمكن المعلمون من فهم أفضل طريقة يمكنهم من خلالها دعم تعلم طلابهم.
لمعرفة المزيد عن أبحاثنا والطرق التي نتبعها للتخفيف من التحيز في برامج الكشف عن الذكاء الاصطناعي، يرجى الاتصال بنا على info@pangram.com.
