الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

Pangram هو البرنامج الرائد في الكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي كتبها ChatGPT وClaude وGemini وغيرها، وفي التمييز بين النصوص المكتوبة بواسطة الذكاء الاصطناعي والنصوص المكتوبة بواسطة البشر.
نحن الآن نخطو خطوة أخرى إلى الأمام ونطلق نموذجًا متقدمًا لا يمكنه فقط اكتشاف المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، بل يمكنه أيضًا تحديد أي LLM تم إنشاء نص ما بواسطة الذكاء الاصطناعي. نسمي تقنيتنا الجديدة "تحديد الذكاء الاصطناعي".
بشكل بديهي، بدأ الناس يدركون أن نماذج اللغة الكبيرة المختلفة لها أنماط كتابة مختلفة. على سبيل المثال، تشتهر ChatGPT بأنها مباشرة وصريحة للغاية، وتشتهر Claude بأنها أكثر طلاقة وحوارية، وتشتهر Grok بأنها غير خاضعة للرقابة واستفزازية، وبدأت Deepseek-R1 تشتهر بأنها متشعبة ومطولة.
غراهام نيوبيغ يسخر من الاتجاهات الأسلوبية المختلفة لبرامج LLM
يتأمل إيثان موليك في شخصية كلود سونيت اللطيفة.
بحثت دراسة حديثة أجرتها ليزا دنلاب ومعاونوها في جامعة كاليفورنيا في بيركلي الفروق النوعية (أو بشكل غير رسمي، "الانطباعات") بين مختلف نماذج اللغة الكبيرة (LLM). ووجدوا العديد من الأمور المثيرة للاهتمام، مثل "أن Llama أكثر روح الدعابة، وتستخدم تنسيقات أكثر، وتقدم أمثلة أكثر، وتعلق بشكل أقل بكثير على الأخلاقيات مقارنة بـ GPT و Claude". والمعنى الضمني لذلك هو أن أداء النموذج لا يتوافق دائمًا مع تفضيلات البشر: على الرغم من أن GPT-4 و Claude-3.5 هما نموذجان أكثر تقدمًا من سلسلة Llama، إلا أن Llama يبدو دائمًا أنه يتفوق على نفسه في Chatbot Arena، وهو تصنيف جماعي لنماذج LLM يستند إلى تفضيلات الإجابات على نفس الأسئلة. هل النماذج التي تعمل بشكل جيد على Chatbot Arena أكثر ذكاءً وقدرة، أم أنها تحاول فقط التلاعب بعلم النفس البشري بطريقة تجعلها أكثر "جاذبية"؟ وبعض النماذج أكثر فائدة وجاذبية من غيرها، فهل من المهم أنها قد تكون أقل قدرة على حل مشاكل الاستدلال على مستوى الدكتوراه؟ هذه أسئلة تستحق الدراسة، وهي أسئلة مهمة لفهم فائدة أنظمة مثل Chatbot Arena مقارنة بتقييمات النماذج التقليدية.
تساءلنا في Pangram عما إذا كان من الممكن أن يستخدم نموذجنا هذه الترددات لتحديد وتمييز هذه النماذج اللغوية الكبيرة عن بعضها البعض.
على غرار الطريقة التي ندرب بها نموذج الكشف الأساسي للذكاء الاصطناعي لتمييز الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي عن النصوص البشرية، فإننا ندرب أيضًا نفس نموذج الكشف على إجراء تحديد الذكاء الاصطناعي باستخدام تقنية تسمى التعلم متعدد المهام. في الممارسة العملية، نقوم بتصنيف النماذج اللغوية المختلفة إلى 9 مجموعات، والتي حددناها من خلال تجارب مكثفة.
العائلات هي التالية:
الطريقة التي نحقق بها ذلك عمليًا هي إضافة "رأس" آخر إلى شبكتنا العصبية. عندما نشرف على مهمة الكشف عن الذكاء الاصطناعي، فإننا نشرف أيضًا على مهمة تحديد الذكاء الاصطناعي عن طريق تمرير تسمية النموذج إلى الشبكة وإعادة نشر الخطأ في تحديد الذكاء الاصطناعي وكذلك توقع الكشف.
مصدر الصورة: GeeksForGeeks
تتشارك المهمتان في جميع طبقات النموذج تقريبًا، ولا يتم تقسيم سوى طبقة التنبؤ النهائية.
نجد في التعلم متعدد المهام أن بعض المهام تساعد بعضها البعض عند تعلمها معًا، وبعض المهام تضر بعضها البعض. في علم الأحياء، هناك مفهوم مشابه وهو فكرة التعايش مقابل التطفل. على سبيل المثال، تعتبر أسماك المهرج التي تعيش في شقائق النعمان البحرية مثالاً على التعايش: تتغذى أسماك المهرج على المفترسات التي يمكن أن تضر بشقائق النعمان، بينما تحمي أسماك المهرج نفسها من مفترسيها عن طريق التمويه والاختباء داخل شقائق النعمان.
وجدنا أن إضافة مهمة تحديد LLM تتكامل مع مهمة الكشف عن LLM. بمعنى آخر، إن مطالبة نموذجنا ليس فقط بالكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بل وتحديد النموذج الذي تم إنشاؤها منه، يساعد بشكل عام على الكشف عن الذكاء الاصطناعي. وقد أكد باحثون آخرون أيضًا أن نماذج LLM المختلفة لا يمكن تمييزها عن النصوص البشرية فحسب، بل يمكن تمييزها عن بعضها البعض أيضًا.

التضمين هو تمثيل لجزء من النص كمتجه رقمي. القيم الفعلية للتضمين ليست ذات معنى بمفردها، ولكن عندما يكون هناك تضمينان قريبان من بعضهما، فهذا يعني أن لهما معنى مشابهًا أو أسلوبًا مشابهًا. باستخدام تقنية تسمى UMAP، يمكننا تصور التضمينات، التي هي ذات أبعاد عالية جدًا، في فضاء ثنائي الأبعاد. وجد هؤلاء المؤلفون أنه عند تحويل المستندات المكتوبة بواسطة البشر و LLMs إلى تضمينات أسلوبية، كما ترون في الصورة أعلاه، فإن جميع المستندات المطابقة لنفس LLM قابلة للفصل في فضاء التضمين! وهذا يعني أن جميع المستندات المكتوبة بواسطة نفس LLM أقرب في أسلوبها من تلك المكتوبة بواسطة LLMs مختلفة، أو LLMs والبشر.
أعطتنا هذه النتيجة الثقة في إمكانية إنشاء مصنف قادر على تحديد مصدر LLM.
يتميز نموذجنا بدقة تصل إلى 93٪ في تحديد عائلة LLM الصحيحة التي انبثق منها نص تم إنشاؤه بواسطة الذكاء الاصطناعي. فيما يلي مصفوفة الارتباك، التي توضح عدد المرات التي يحدد فيها نموذجنا بشكل صحيح كل عائلة LLM (الخلايا القطرية) مقابل عدد المرات التي يخلط فيها بين LLM واحد وآخر (الخلايا غير القطرية). كلما كان اللون أغمق، زاد عدد التنبؤات التي تقع في تلك الخلية. النموذج المثالي سيكون به مربعات داكنة فقط على طول القطر ومربعات بيضاء في كل مكان آخر.

بعض الملاحظات المثيرة للاهتمام حول مصفوفة الارتباك لدينا:
تحدث حالات الالتباس بشكل أكثر تكرارًا بين عائلات النماذج. على سبيل المثال، غالبًا ما يتم الخلط بين GPT-4 وسلسلة الاستدلال OpenAI. وهذا أمر منطقي، لأن GPT-4 من المرجح أن يكون مكونًا أو نقطة انطلاق لنماذج الاستدلال OpenAI!
غالبًا ما يخلط النموذج بين نماذج LLM و"أخرى" أكثر من خلطه بين نماذج LLM محددة. وهذا يدل على أنه في الحالات التي لا يكون فيها النموذج متأكدًا، فإنه يميل إلى اختيار "أخرى" بشكل افتراضي بدلاً من الالتزام بنموذج LLM معين.
على الرغم من أن مصنف LLM ليس مثالياً، إلا أنه غالباً ما يكون دقيقاً، والأهم من ذلك أنه عندما يخطئ مصنف LLM، فإنه يخلط بين أنظمة الذكاء الاصطناعي مع أنظمة أخرى، ولكنه لا يخلط بين مخرجات أنظمة الذكاء الاصطناعي والكتابة البشرية الحقيقية.
اعتقدنا أنه من المهم تجاوز الكشف عن الذكاء الاصطناعي وحل مشكلة تحديد الذكاء الاصطناعي لعدة أسباب.
أولاً، نعتقد أن تعليم النموذج كيفية التمييز بين أنماط الكتابة المختلفة لبرامج LLM، وهي مهمة أصعب من مجرد تحديد ما إذا كان شيء ما هو ذكاء اصطناعي أم لا، يساعد في تعزيز أداء كاشف الذكاء الاصطناعي نفسه. من خلال مطالبة النموذج بالذهاب إلى أبعد من ذلك، فإنه يكتسب بطريقة ما مهارات متقدمة ومعرفة كامنة تساعده على التعميم في الكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي بدقة أعلى.
القابلية للتفسير هي سبب آخر يجعلنا نرغب في عرض نتائج مصنف LLM. نود أن نبني الثقة في أن النموذج يعرف بالفعل ما يفعله في الخلفية، ولا يقوم فقط بتخمين عشوائي (مثل العديد من أجهزة الكشف العشوائية الأخرى). من خلال عرض ليس فقط درجة الذكاء الاصطناعي، ولكن أيضًا LLM الذي جاء منه النص، نأمل في بناء الثقة في قدرة النموذج على فهم الفروق الدقيقة في أسلوب الكتابة بالذكاء الاصطناعي.
أخيرًا، نريد اكتشاف الأنماط على مر الزمن: ما هي نماذج اللغة الكبيرة (LLM) المستخدمة في الواقع وبأي تكرار؟ ما هي نماذج اللغة الكبيرة (LLM) المفضلة لدى الطلاب، مقابل المحتالين، مقابل المبرمجين؟ هذه هي الأسئلة التي نأمل الآن أن نجيب عليها في دراسات مستقبلية.
نأمل أن تستمتعوا بتجربة ميزة التعرف على الذكاء الاصطناعي الخاصة بنا، وأن تكون مفيدة في مساعدة الناس على فهم الشخصيات والأساليب الفطرية لمختلف عائلات LLM. لمزيد من المعلومات، يرجى التواصل مع info@pangram.com!
