يستخدم مصنفنا بنية نموذج لغوي تقليدية. فهو يستقبل النص المدخل ويقسمه إلى رموز. ثم يحول النموذج كل رمز إلى «تضمين»، وهو متجه من الأرقام يمثل معنى كل رمز.
يتم تمرير المدخلات عبر الشبكة العصبية، مما ينتج عنه تضمين للمخرجات. ثم يقوم رأس المصنف بتحويل تضمين المخرجات إلى تنبؤ بقيمة 0 أو 1، حيث تمثل القيمة 0 التصنيف البشري، بينما تمثل القيمة 1 تصنيف الذكاء الاصطناعي.
كان النموذج الأولي فعالاً بالفعل، لكننا أردنا تعزيز الدقة إلى أقصى حد وتقليل أي احتمال لحدوث نتائج إيجابية خاطئة (أي التنبؤ الخاطئ بأن المستندات التي كتبها البشر هي من إنتاج الذكاء الاصطناعي). ولتحقيق ذلك، قمنا بتطوير خوارزمية مصممة خصيصاً لنماذج الكشف عن الذكاء الاصطناعي.
مع مجموعة البيانات الأولية، لم يكن لدى نموذجنا ما يكفي من المؤشرات للانتقال من دقة تبلغ 99% إلى دقة تبلغ 99.999%. ورغم أن النموذج يتعلم الأنماط الأولية في البيانات بسرعة، إلا أنه يحتاج إلى التعرض لحالات حدية صعبة حتى يتمكن من التمييز بدقة بين النصوص البشرية والنصوص التي يكتبها الذكاء الاصطناعي.
ونحن نحل هذه المشكلة باستخدام النموذج للبحث في مجموعات البيانات الضخمة عن حالات الإيجابية الكاذبة، ثم نُثري مجموعة التدريب الأولية بهذه الأمثلة الصعبة الإضافية قبل إعادة التدريب. وبعد عدة دورات من هذه العملية، يُظهر النموذج الناتج معدل إيجابية كاذبة يقترب من الصفر، فضلاً عن تحسن الأداء العام على مجموعات التقييم التي تم استبعادها.
