الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

تقرير فني حول الكشف عن النصوص عالية الدقة التي تم إنشاؤها بواسطة الذكاء الاصطناعي

برادلي إيمي وماكس سبيرو
21 فبراير 2024

عملية التدريب لمصنف النصوص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من Pangram Labs

مقدمة

في Pangram Labs، نحن نعمل على بناء أفضل نموذج للكشف عن النصوص باستخدام الذكاء الاصطناعي لحماية الإنترنت من إغراقه بمحتوى غير أصلي ومضلل ومنخفض الجودة. نحن نؤمن بأن في عالم مدعوم بواسطة نماذج اللغة الكبيرة (LLMs)، سيحتاج البشر إلى تزويدهم بأفضل الأدوات لتحديد الحقيقة، ونريد توفير التكنولوجيا المناسبة لتلبية هذه الحاجة.

قامت Pangram Labs بتطوير مصنف جاد للكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي يمكن أن تكون محتوى مزعجًا أو احتياليًا. ما مدى تفوق نموذجنا على البدائل الأخرى المتوفرة؟ في هذه المدونة، نقدم تحليلًا شاملاً لأداء نموذجنا، مصحوبًا بأول ورقة تقنية عامة لنا.

ستتناول هذه المدونة عدة مواضيع:

  • لماذا يعتبر الكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي مشكلة مهمة؟
  • ما هو أفضل كاشف للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي؟
  • لماذا الدقة العالية مهمة؟
  • ما أنواع المحتوى التي يمكن لـ Pangram Labs اكتشافها؟
  • كيف تعاملت Pangram Labs مع حل هذه المشكلة؟

للحصول على مزيد من المعلومات الفنية المتعمقة بما في ذلك المنهجية، راجع تقريرنا الفني حول مصنف النصوص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي Pangram.

TL;DR

أجرينا مقارنة تنافسية باستخدام ما يقرب من 2000 وثيقة لتحديد مقاييس الدقة الرئيسية، بما في ذلك الدقة الإجمالية وحالات الإيجابية الكاذبة وحالات السلبية الكاذبة.

Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.

مقارنة الدقة الإجمالية

مقدمة إلى النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي

شهدت نماذج اللغات الكبيرة (LLMs) مثل ChatGPT طفرة في شعبيتها في عام 2023 مع وصول قدرات الذكاء الاصطناعي إلى نقطة تحول. يمكن لنماذج اللغات الكبيرة التي تدعم مساعدات الذكاء الاصطناعي الإجابة على الأسئلة، وتبادل الأفكار، وكتابة المحتوى، كل ذلك مع إعطاء انطباع مقنع بأنها بشرية. وقد أدى ذلك إلى بعض النتائج الإيجابية - أصبحت المعلومات أكثر سهولة من أي وقت مضى ويمكن للمساعدات توفير الوقت في القيام بالمهام الروتينية. ومع ذلك، يمكن لأي شخص إنتاج نصوص مقنعة تبدو إنسانية دون بذل أي جهد، وهو ما ينطوي على بعض الجوانب السلبية. يمكن لمرسلي البريد العشوائي كتابة رسائل بريد إلكتروني يصعب تصفية. يمكن لبائعي الأسواق الإلكترونية إنتاج آلاف التقييمات التي تبدو أصلية في غضون دقائق. يمكن للمتصيدين استخدام وسائل التواصل الاجتماعي والتأثير على الرأي العام باستخدام آلاف الروبوتات التي تعمل بنماذج اللغة الكبيرة.

لسوء الحظ، لا يمكن التخفيف من هذه المخاطر المجتمعية على مستوى LLM - فالنماذج اللغوية لا تملك القدرة على فهم ما إذا كان الطلب مشروعًا أم أنه واحد من آلاف الطلبات التي أنشأها مرسِل بريد مزعج. ولهذا السبب، نحتاج إلى مرشحات محتوى على مستوى التطبيق - للحفاظ على الطابع الإنساني للمساحات البشرية.

لماذا تهتم Pangram Labs بالدقة بشكل كبير؟

لقد سمعنا الكثير من الشكوك حول هذا النوع من العمل. أن المشكلة مستحيلة، وأنه ثبت أن أجهزة الكشف عن الذكاء الاصطناعي "لا تعمل"، أو أنه يمكنك ببساطة التحايل عليها. أو حتى لو كان ذلك ممكناً الآن، فسيكون أصعب في العام المقبل، ومستحيلاً بحلول الوقت الذي يظهر فيه الذكاء الاصطناعي العام.

أطروحتنا مختلفة قليلاً. نحن نؤمن إيماناً راسخاً بأن حل هذه المشكلة ليس ممكناً فحسب، بل ضرورياً. لا يهم مدى صعوبة الأمر، أو عدد الساعات التي يتعين علينا قضاؤها لبناء شيء يمكن للمستخدمين استخدامه والثقة به. بدون عملنا، لن يستغرق الأمر سوى بضع سنوات حتى يغزو مرسلي الرسائل غير المرغوب فيها الذين يستخدمون الذكاء الاصطناعي الإنترنت. وستغرق أصوات البشر في ضجيج لا نهاية له.

بالنسبة لنا، فإن ضمان حل المشكلة يتطلب الاستمرار في زيادة صعوبة مجموعات التقييم لدينا. كان من السهل في التقييمات المبكرة الوصول إلى دقة 100٪، ولكن سرعان ما أصبح واضحًا أن هذا لا يعكس الدقة في العالم الحقيقي. من خلال إنشاء تقييمات أكثر صعوبة، يمكننا قياس تحسننا بطريقة موضوعية. نعتقد بالفعل أن معيارنا الحالي أصعب قليلاً مما يطرحه مرسلي البريد العشوائي في العالم الحقيقي، وهذا المعيار قريب من الحد الأقصى. عندما نعود بأرقام جديدة، قد يبدو أن الطرق الأخرى أصبحت أسوأ، ولكن الحقيقة هي أننا سنعود بمجموعة تقييم أصعب، حيث يتم دفع أذكى الذكاءات الاصطناعية إلى أقصى حدودها لإنشاء نص يبدو أصليًا، وهدفنا هو أن نتمكن من اكتشافه بدقة تصل إلى 99٪.

لن يتم حل المشكلة بالكامل أبدًا، ولكننا بحاجة إلى إحراز تقدم مطرد لتجنب التخلف عن الركب مع تزايد قدرات نماذج اللغة الكبيرة (LLM). هذا هو ما وقعنا عليه، وسنواصل السعي لتحقيقه حتى النهاية.

مقارنة بين أدوات الكشف عن الذكاء الاصطناعي

في تقريرنا الفني، قمنا بمقارنة Pangram Labs بأداتين رائدتين للكشف عن الذكاء الاصطناعي، بالإضافة إلى طريقة أكاديمية متطورة للكشف عن الذكاء الاصطناعي لعام 2023.

نقارن:

  • مختبرات Pangram
  • GPTZero
  • Originality.ai
  • DetectGPT

يشمل معيارنا 1976 وثيقة - نصفها كتبها بشر، والنصف الآخر أنتجته ثمانية من أكثر نماذج اللغة الكبيرة (LLM) شيوعًا، بما في ذلك ChatGPT و GPT-4.

مقارنة الدقة الإجمالية

شرح سريع لمعنى هذه الأرقام:

  • الدقة: ما هي النسبة المئوية من إجمالي المستندات التي صنّفتها الأداة بشكل صحيح؟
  • معدل الإيجابية الكاذبة: من بين جميع المستندات البشرية، كم منها تم تصنيفها بشكل خاطئ على أنها AI؟
  • معدل النتائج السلبية الخاطئة: من بين جميع المستندات التي تمت معالجتها بواسطة الذكاء الاصطناعي، كم عدد المستندات التي تم تصنيفها بشكل خاطئ على أنها بشرية؟

لإيضاح معدل الإيجابية الكاذبة بشكل ملموس - 9٪ يعني أن واحدًا من كل 11 مستندًا بشريًا سيتم وضع علامة عليه على أنه AI. معدل الإيجابية الكاذبة 2٪ يعني أن واحدًا من كل 50 مستندًا بشريًا سيتم وضع علامة عليه على أنه AI. و 0.67٪ يعني أن واحدًا من كل 150 مستندًا بشريًا سيتم وضع علامة عليه على أنه AI.

وبالمثل، فإن معدل النتائج السلبية الخاطئة بنسبة 10٪ يعني أن واحدًا من كل عشرة مستندات AI يمر دون أن يتم اكتشافه، بينما معدل النتائج السلبية الخاطئة بنسبة 1.4٪ يعني أن واحدًا من كل سبعين مستندًا AI يمر دون أن يتم اكتشافه.

ضع في اعتبارك الآثار المترتبة على هذه النتائج. لا يمكن الوثوق بنموذج الكشف الذي تبلغ نسبة الإيجابية الكاذبة فيه 9٪ - وإلا فستكثر الاتهامات الكاذبة. كما أن نموذج الكشف الذي تبلغ نسبة السلبية الكاذبة فيه 10٪ سيسمح بمرور الكثير من الرسائل غير المرغوب فيها التي ترسلها الذكاء الاصطناعي، بحيث سيظل المستخدمون يتلقون كميات هائلة من هذه الرسائل في حالة تعرضهم لأي هجوم.

التعمق في النتائج

ينقسم معيارنا إلى محورين مختلفين: مجال النص ومصدر LLM. "مجال النص" أو "المجال" هو طريقة للإشارة إلى فئة معينة من الكتابة. على سبيل المثال، تختلف قراءة مقال مدرسي عن قراءة ورقة علمية، التي تختلف بدورها عن قراءة رسالة بريد إلكتروني. من خلال تقسيم النتائج إلى مجالات مختلفة، يمكننا الحصول على نظرة أكثر شمولية على المجالات التي نجيدها والمجالات التي يمكننا التركيز على تحسينها.

الدقة حسب مجال النص

تظهر النتائج أن Pangram Labs يتفوق على GPTZero و Originality في جميع المجالات العشرة التي تم تقييمها.

أحد المجالات، وهو البريد الإلكتروني، حقق نتيجة قوية بشكل خاص لأن Pangram Labs لا تضم أي بريد إلكتروني في بيانات التدريب الخاصة بها. يعتمد أداءنا في مجال البريد الإلكتروني بالكامل على تدريب نموذج قوي يمكن تعميمه على معظم فئات الكتابة التي يمكن أن ينتجها LLM.

وثائق الذكاء الاصطناعي المصنفة بشكل صحيح، حسب المصدر LLM

يخبرنا التقسيم حسب أصل LLM قصة أخرى، وهي أن نماذج الكشف عن الذكاء الاصطناعي المتنافسة يمكن أن تعمل بشكل أفضل على نماذج مفتوحة المصدر أقل قدرة، ولكنها تعمل بشكل أسوأ على ChatGPT (gpt-3.5-turbo) وتواجه صعوبة كبيرة على GPT-4، وهو LLM الأكثر قدرة من OpenAI. قمنا بتقييم إصدارات متعددة من نماذج GPT 3.5 Turbo و GPT-4، لأنها الأكثر استخدامًا في الواقع.

وجدنا أننا النموذج الوحيد الذي يمكنه اكتشاف نص GPT-4 بشكل موثوق، كما أننا نتفوق على المنافسين في كل النماذج الأخرى التي اختبرناها.

من الملاحظات المثيرة للاهتمام أن منافسينا يحققون أداءً أفضل بكثير في النماذج مفتوحة المصدر مقارنةً بنماذج GPT و Gemini مغلقة المصدر. نفترض أن هذا يرجع إلى الاعتماد المفرط على ميزات الحيرة والاندفاع – على الرغم من أن هذه الميزات قيّمة، إلا أنه لا يمكن حساب الحيرة والاندفاع بدقة إلا في نموذج مفتوح المصدر: في النماذج مغلقة المصدر، لا يمكن إلا إجراء تقدير تقريبي. وهذا يوضح قيمة نهجنا القائم على التعلم العميق – فهو لا يعتمد على ميزات هشة مثل الحيرة، ويمكنه تعلم أنماط أساسية أكثر دقة.

المتانة

السؤال الذي كثيراً ما يُطرح علينا هو: ماذا يحدث عند إصدار نموذج لغة جديد؟ هل تحتاج إلى التدريب على كل نموذج جديد لكي تتمكن من اكتشاف مخرجاته؟ الإجابة المختصرة هي: لا. أصدرت OpenAI نسختين جديدتين من نماذج اللغة الكبيرة (LLM) في الأسابيع الماضية. دون الحاجة إلى التدريب على نماذج اللغة الكبيرة الجديدة هذه، قمنا بتقييم نموذجنا ووجدنا أنه لا يزال يعمل بشكل جيد!

  • GPT-3.5-Turbo-0125: دقة 99.66٪
  • GPT-4-0125-Preview: دقة 99.18٪

هذه الإصدارات الجديدة مشابهة للإصدارات السابقة التي أصدرتها OpenAI. لذا فإن السؤال التالي الذي نطرحه هو: كيف نبلي في عائلات نماذج مختلفة تمامًا؟ للإجابة على هذا السؤال، قمنا بتقييم نموذجنا على مجموعة من النماذج مفتوحة المصدر التي لم يسبق لمصنفنا أن رأى مثلها من قبل.

أداء بواسطة LLM مفتوح المصدر، لم تشاهده Pangram Labs أثناء التدريب.

رائع جدًا! يعود الفضل في ذلك إلى حد كبير إلى حقيقة أن العديد من النماذج مفتوحة المصدر إما تبدأ من عائلة Llama أو تستخدم مجموعات تدريب مفتوحة المصدر مماثلة، ولكن هذا يساعدنا على الثقة في قدرتنا على التعميم دون الحاجة إلى التدريب على كل نموذج مفتوح المصدر على حدة.

ومع ذلك، تم تصميم خط أنابيب البيانات لدينا بحيث يمكننا إنشاء مجموعة تدريب جديدة في غضون ساعات من إصدار واجهة برمجة تطبيقات LLM - مع وجود عائق واحد فقط يتمثل في حدود معدل واجهة برمجة التطبيقات. نحن ندرك جيدًا أن نماذج LLM تستمر في التحسن، ومع اقترابنا من AGI، سيصبح من المهم بشكل متزايد البقاء على اطلاع دائم والتأكد من قدرتنا على اللحاق حتى بأحدث عوامل الذكاء الاصطناعي.

اللغة الإنجليزية كلغة ثانية

وجدت الأبحاث السابقة أن أجهزة الكشف التجارية LLM تتحيز باستمرار ضد المتحدثين غير الناطقين باللغة الإنجليزية (ESL، أو الإنجليزية كلغة ثانية). لاختبار ذلك، استخدم الباحثون معيارًا مكونًا من 91 مقالًا من اختبار TOEFL (اختبار اللغة الإنجليزية كلغة أجنبية) لاختبار عدة أجهزة كشف.

قمنا بإجراء اختبار على 91 مقالًا من اختبار TOEFL من مجموعة التدريب الخاصة بنا وقمنا بتقييم Pangram Labs على المعيار المرجعي. نظرًا لعملنا على تقليل معدلات الإيجابية الكاذبة لـ ESL، فإننا نبلغ عن معدل إيجابية كاذبة بنسبة 0٪ على المعيار المرجعي TOEFL - مما يعني أنه لم يتم تصنيف أي من المقالات البشرية في هذا المعيار المرجعي بشكل خاطئ على أنها AI.

مقارنة مع معيار TOEFL

نهج Pangram Labs في الكشف عن الذكاء الاصطناعي

اكتشاف المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي ليس بالمهمة السهلة. نحن نقوم بتدريب نموذج التعلم العميق باستخدام بنية قائمة على المحولات، مع استخدام طريقتين رئيسيتين لرفع دقة نموذجنا إلى المستوى التالي.

مرايا اصطناعية

كل وثيقة في مجموعة التدريب لدينا مصنفة إما على أنها "بشرية" أو "ذكاء اصطناعي". في التعلم الآلي، نسمي هذه الوثائق "أمثلة".

لدينا ملايين الأمثلة البشرية المتاحة للتدريب من قواعد البيانات العامة، ولكن لا توجد قواعد بيانات مكافئة للذكاء الاصطناعي. نحل هذه المشكلة عن طريق إقران كل مثال بشري بـ "مرآة اصطناعية" - وهو مصطلح نستخدمه لوصف مستند تم إنشاؤه بواسطة الذكاء الاصطناعي استنادًا إلى مستند بشري. نطلب من LLM مستندًا عن نفس الموضوع وبنفس الطول. بالنسبة لجزء صغير من الأمثلة، نجعل LLM يبدأ بالجملة الأولى من المستند البشري، لجعل مستندات الذكاء الاصطناعي أكثر تنوعًا.

التعدين السلبي الصعب

في البداية، واجهنا عقبة في تدريب نموذجنا. حاولنا إضافة المزيد من الأمثلة، لكننا اكتشفنا في النهاية أن النموذج كان "مشبعًا" - فالمزيد من أمثلة التدريب لم يحسن النموذج أكثر من ذلك.

تجربة قوانين القياس

كان أداء هذا النموذج الأولي غير مرضٍ - حيث كان لا يزال يحتوي على معدل إيجابي خاطئ يزيد عن 1٪ في العديد من المجالات. ما اكتشفناه هو أننا لم نكن بحاجة إلى المزيد من الأمثلة فحسب، بل كنا بحاجة إلى أمثلة أصعب.

حددنا أمثلة أصعب من خلال أخذ نموذجنا الأولي ومسح عشرات الملايين من الأمثلة البشرية في مجموعات البيانات المفتوحة، بحثًا عن أصعب المستندات التي أخطأ نموذجنا في تصنيفها. ثم أنشأنا نسخًا اصطناعية لهذه المستندات وأضفناها إلى مجموعة التدريب الخاصة بنا. وأخيرًا، أعدنا تدريب النموذج وكررنا العملية.

عملية التدريب لمصنف النصوص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من Pangram Labs

بفضل طريقة التدريب هذه، تمكنا من تقليل معدلات الإيجابية الخاطئة بمقدار 100 ضعف وتقديم نموذج نفخر به.

جدول معدلات الإيجابية الكاذبة حسب المجال

نسمي هذه الطريقة بالتعدين السلبي الصعب باستخدام المرايا الاصطناعية، ونستعرض هذه العملية بمزيد من التفصيل في تقريرنا الفني.

ما هي الخطوة التالية لشركة Pangram Labs؟

من الواضح أن هذه ليست نهاية رحلتنا. لدينا مجموعة من الأفكار الجديدة حول كيفية الارتقاء بالأداء إلى المستوى التالي. سنواصل تحسين مجموعات التقييم لدينا حتى نتمكن من تتبع معدل الإيجابيات الخاطئة بشكل أفضل إلى أجزاء من المائة. نخطط لتوسيع نموذجنا ليعمل بلغات غير الإنجليزية ونعمل على فهم حالات الفشل لدينا واكتشافها. ترقبوا ما سنفعله بعد ذلك!

هل لديك أي أسئلة أو تعليقات؟ اتصل بنا على info@pangram.com!

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.