الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
نحن متحمسون لرؤية البحث الجديد الذي أجرته جينا راسل ومارزينا كاربينسكا وموهيت إيير، المتعاونون من جامعة ماريلاند ومايكروسوفت، والذي يظهر أن Pangram هو أفضل نظام للكشف عن الذكاء الاصطناعي، والوحيد الذي يمكنه التفوق على الخبراء البشريين المدربين في الكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. اقرأ الورقة البحثية كاملة هنا.

بالإضافة إلى دراسة فعالية أجهزة الكشف الآلية التي تعمل بالذكاء الاصطناعي، يبحث الباحثون أيضًا في كيفية قيام الخبراء البشريين المدربين بالتقاط الإشارات التي تساعدهم على تحديد العلامات الدالة على المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. نعتقد أن هذا البحث يمثل خطوة كبيرة إلى الأمام في مجال قابلية التفسير والتأويل في الكشف عن الذكاء الاصطناعي، ونحن متحمسون لاستكشاف هذا الاتجاه البحثي بشكل أعمق.
في هذا المنشور على المدونة، سنشرح أبرز نتائج البحث وما يعنيه ذلك بالنسبة لتطور تقنية الكشف عن LLM في المستقبل.
لقد كتبنا في الماضي عن كيفية اكتشاف الكتابة التي تستخدم الذكاء الاصطناعي واختبار الأساس البشري، وكيف نستخدمه لاكتساب حدس قيم حول النصوص التي يولدها الذكاء الاصطناعي والتي تساعدنا على تطوير نماذج أفضل.
عادةً، عندما نبدأ في تدريب أنفسنا على اكتشاف المراجعات أو المقالات أو منشورات المدونات أو الأخبار التي تم إنشاؤها بواسطة الذكاء الاصطناعي، فإننا لا نكون جيدين في ذلك في البداية. يستغرق الأمر بعض الوقت قبل أن نبدأ في التقاط العلامات الدالة على أن نصًا ما تم إنشاؤه بواسطة ChatGPT أو نموذج لغوي آخر. على سبيل المثال، عندما بدأنا في دراسة المراجعات، تعلمنا بمرور الوقت من خلال النظر إلى الكثير من البيانات أن ChatGPT يحب أن يبدأ المراجعة بعبارة "لقد كان من دواعي سروري مؤخرًا"، أو عندما بدأنا في قراءة قصص الخيال العلمي التي تم إنشاؤها بواسطة الذكاء الاصطناعي، غالبًا ما تبدأ بعبارة "في عام". ومع ذلك، بمرور الوقت، نبدأ في استيعاب هذه الأنماط ويمكننا البدء في التعرف عليها.
كما تساءل الباحثون عما إذا كان من الممكن تدريب الخبراء على اكتشاف المقالات التي تم إنشاؤها بواسطة الذكاء الاصطناعي بنفس الطريقة. وقاموا بتدريب خمسة محللين على Upwork لاكتشاف المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي وقارنوا قدرتهم على اكتشاف الذكاء الاصطناعي بالعين المجردة مع غير الخبراء.
في حين أنه من المتوقع أن يكون هناك فرق في قدرة هاتين المجموعتين على اكتشاف النصوص المكتوبة بواسطة الذكاء الاصطناعي، إلا أن الباحثين وجدوا فارقًا كبيرًا. فأداء غير الخبراء في اكتشاف النصوص المكتوبة بواسطة الذكاء الاصطناعي يشبه الأداء العشوائي، في حين أن أداء الخبراء دقيق للغاية (معدل إيجابي حقيقي يزيد عن 90٪ في المتوسط).

أحد الأقسام التي وجدناها أكثر إثارة للاهتمام كان قسم "ما الذي يراه المعلقون الخبراء ولا يراه غير الخبراء؟". طلب الباحثون من المشاركين شرح أسباب اعتقادهم بأن نصًا ما تم إنشاؤه بواسطة الذكاء الاصطناعي أو لا، ثم قاموا بتحليل تعليقات المشاركين.
فيما يلي بعض التحليلات المأخوذة مباشرة من الورقة:
"غالبًا ما يركز غير الخبراء بشكل خاطئ على خصائص لغوية معينة مقارنة بالخبراء. أحد الأمثلة على ذلك هو اختيار المفردات، حيث يعتبر غير الخبراء أن استخدام أي كلمات "مبالغ فيها" أو كلمات نادرة الاستخدام دليل على أن النص تم إنشاؤه بواسطة الذكاء الاصطناعي؛ في المقابل، فإن الخبراء أكثر دراية بالكلمات والعبارات التي يكثر استخدامها الذكاء الاصطناعي (مثل testament و crucial). يعتقد غير الخبراء أيضًا أن المؤلفين البشريين أكثر عرضة لتكوين جمل صحيحة نحويًا، وبالتالي ينسبون الجمل المتتالية إلى الذكاء الاصطناعي، ولكن العكس هو الصحيح: البشر أكثر عرضة من الذكاء الاصطناعي لاستخدام جمل غير نحوية أو متتالية. أخيرًا، ينسب غير الخبراء أي نص مكتوب بلهجة محايدة إلى الذكاء الاصطناعي، مما يؤدي إلى العديد من النتائج الإيجابية الخاطئة لأن الكتابة البشرية الرسمية غالبًا ما تكون محايدة في لهجتها." (Russell, Karpinska, & Iyyer, 2025).
في الملحق، يقدم المؤلفون قائمة بـ"مفردات الذكاء الاصطناعي" التي يشيع استخدامها في ChatGPT – وهي ميزة أطلقناها مؤخرًا في لوحة معلومات Pangram تسلط الضوء على العبارات الشائعة الاستخدام في مجال الذكاء الاصطناعي!

من واقع خبرتنا، وجدنا أنه على الرغم من اعتقاد الكثيرين بأن الذكاء الاصطناعي يستخدم مفردات معقدة و"مبهرجة"، فإننا نجد في الواقع أن الذكاء الاصطناعي يميل إلى استخدام مفردات مبتذلة ومجازية لا معنى لها في كثير من الأحيان. بشكل غير رسمي، يمكننا القول أن نماذج اللغة الكبيرة (LLMs) تشبه الأشخاص الذين يحاولون أن يبدووا أذكياء، ولكنهم في الحقيقة يستخدمون عبارات يعتقدون أنها ستجعلهم يبدووا أذكياء.
أحد الأسئلة التي نتلقاها كثيرًا في Pangram هو: كيف تواكبون أحدث النماذج؟ عندما تتحسن نماذج اللغة، هل يعني ذلك أن Pangram لن يعمل بعد الآن؟ هل هي لعبة القط والفأر التي ستتفوق علينا فيها مختبرات الطليعة مثل OpenAI؟
تساءل الباحثون عن هذا الأمر أيضًا، ودرسوا أداء العديد من طرق الكشف بالذكاء الاصطناعي مقابل o1-pro من OpenAI، وهو النموذج الأكثر تقدمًا الذي تم إصداره حتى الآن.
وجد الباحثون أن Pangram دقيق بنسبة 100٪ في الكشف عن مخرجات o1-pro، وما زلنا دقيقين بنسبة 96.7٪ في الكشف عن مخرجات o1-pro "المُعدلة" (التي سنتطرق إليها بعد قليل)! وبالمقارنة، لا يوجد أي كاشف آلي آخر يتجاوز نسبة 76.7٪ في مخرجات o1-pro الأساسية.
كيف يستطيع Pangram التعميم بهذه الطريقة؟ بعد كل شيء، في وقت إجراء الدراسة، لم يكن لدينا حتى أي بيانات o1-pro في مجموعة التدريب الخاصة بنا.
مثل جميع نماذج التعلم العميق، نحن نؤمن بقوة الحجم والقدرة الحاسوبية. أولاً، نبدأ بنموذج أساسي قوي تم تدريبه مسبقاً على مجموعة تدريب ضخمة، تماماً مثل نماذج اللغة الكبيرة (LLMs) نفسها. ثانياً، قمنا ببناء خط أنابيب بيانات مخصص للحجم. Pangram قادر على التعرف على الأنماط الدقيقة من مجموعة التدريب التي تضم 100 مليون وثيقة بشرية.
نحن لا نبني فقط مجموعة بيانات للمقالات أو الأخبار أو المراجعات: نحن نحاول الحصول على أكبر شبكة ممكنة من جميع البيانات المكتوبة بواسطة البشر، حتى يتمكن النموذج من التعلم من توزيع البيانات الأعلى جودة والأكثر تنوعًا والتعرف على جميع أنواع الكتابة البشرية. نجد أن هذا النهج العام للكشف عن الذكاء الاصطناعي يعمل بشكل أفضل بكثير من النهج المتخصص المتمثل في بناء نموذج واحد لكل مجال نصي.
يكمل قاعدة البيانات البشرية الضخمة عالية الجودة لدينا خط أنابيب البيانات الاصطناعية وخوارزمية البحث القائمة على التعلم النشط. من أجل الحصول على بيانات الذكاء الاصطناعي لخوارزميتنا، نستخدم مكتبة شاملة من المطالبات وجميع نماذج الذكاء الاصطناعي الرئيسية مفتوحة ومغلقة المصدر لتوليد بيانات اصطناعية. نستخدم مطالبات مرآة اصطناعية، والتي كتبنا عنها في تقريرنا الفني، والتعدين السلبي الصعب، الذي يبحث عن الأمثلة في مجموعة بياناتنا التي تحتوي على أعلى نسبة أخطاء، ويخلق أمثلة للذكاء الاصطناعي تشبه إلى حد كبير الأمثلة البشرية، ويعيد تدريب النموذج حتى لا نرى أي أخطاء أخرى. يتيح لنا ذلك خفض معدلات الإيجابية الكاذبة والسلبية الكاذبة لنموذجنا إلى الصفر بكفاءة عالية.
باختصار، يأتي تعميمنا من حجم بيانات التدريب المسبق لدينا، وتنوع المطالبات و LLMs المستخدمة لتوليد البيانات الاصطناعية، وكفاءة البيانات من التعلم النشط ونهج التنقيب السلبي الصعب.
علاوة على ذلك، نحن لا نسعى فقط إلى تحقيق أداء رائع خارج نطاق التوزيع، بل نريد أيضًا التأكد من أن أكبر عدد ممكن من نماذج LLM الشائعة تكون ضمن نطاق التوزيع قدر الإمكان. لذلك، قمنا ببناء خط أنابيب آلي قوي لسحب البيانات من أحدث النماذج حتى نتمكن من بدء التدريب على نماذج LLM الجديدة فور إصدارها والبقاء على اطلاع دائم بأحدث المستجدات. نجد أنه لا يوجد تناقض بين موازنة الأداء على النماذج المختلفة: نجد أنه في كل مرة ندخل فيها نموذج LLM جديد إلى مجموعة التدريب، يتحسن تعميم النموذج.
مع نظامنا الحالي، لا نجد أن النماذج تصبح أكثر صعوبة في الكشف عنها مع تحسنها. في كثير من الحالات، يكون نموذج الجيل التالي أسهل في الكشف عنه. على سبيل المثال، وجدنا أننا كنا أكثر دقة في الكشف عن Claude 3 عند إصداره مقارنةً بـ Claude 2.
في سلسلة منشورات المدونة الأخيرة، وصفنا ما هو "مُجسِّم الذكاء الاصطناعي " وأرسلنا أيضًا نموذجًا يتمتع بأداء محسّن بشكل كبير على النصوص التي تمت معالجتها بواسطة الذكاء الاصطناعي المُجسَّم. ويسعدنا أن نرى بالفعل أن طرفًا ثالثًا قد أثبت صحة ادعاءاتنا باستخدام مجموعة بيانات من مقالات o1-pro المُجسَّمة.
في النص o1-pro المُعَدّل ليكون أكثر إنسانية، حققنا دقة بنسبة 96.7٪، في حين أن أفضل نموذج آلي آخر لا يستطيع اكتشاف سوى 46.7٪ من النص المُعَدّل ليكون أكثر إنسانية.
نحن أيضًا دقيقون بنسبة 100٪ في نص GPT-4o الذي تمت إعادة صياغته جملةً بجملة.
نحن متحمسون لرؤية الأداء القوي لـ Pangram في دراسة مستقلة حول قدرات الكشف عن الذكاء الاصطناعي. يسعدنا دائمًا دعم الأبحاث الأكاديمية، ونوفر وصولاً مفتوحًا لأي أكاديميين يرغبون في دراسة جهاز الكشف الخاص بنا.
بالإضافة إلى قياس أداء أجهزة الكشف الآلية، نحن متحمسون لرؤية الأبحاث التي تبدأ أيضًا في معالجة قابلية تفسير الكشف بالذكاء الاصطناعي: ليس فقط ما إذا كان شيء ما مكتوبًا بالذكاء الاصطناعي، ولكن لماذا. نتطلع إلى كتابة المزيد عن كيفية مساعدة هذه النتائج للمعلمين والمربين في اكتشاف النصوص التي تم إنشاؤها بالذكاء الاصطناعي بالعين المجردة، وكيف نخطط لدمج هذه الأبحاث في أدوات كشف آلية أكثر قابلية للتفسير.
لمزيد من المعلومات، يرجى زيارة موقعنا الإلكتروني pangram.com أو الاتصال بنا على info@pangram.com.
