الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

هل يكتشف Pangram Meta's Llama 4؟

برادلي إيمي
6 أبريل 2025

مقدمة

اليوم، تم إصدار Llama 4، وهو أحدث نموذج في سلسلة النماذج مفتوحة المصدر من Meta AI. أردنا معرفة ما إذا كان Pangram لا يزال قادرًا على اكتشاف أحدث وأفضل النماذج المفتوحة، لذلك أجرينا اختبارًا سريعًا لمعرفة ما إذا كان نموذجنا يظهر تعميمًا على Llama 4، على الرغم من أنه تم تدريبه حاليًا على مخرجات Llama 2 و 3 فقط.

هل يمكن لأجهزة الكشف عن الذكاء الاصطناعي مواكبة وتيرة ظهور النماذج الجديدة؟

غالبًا ما يُسألنا عن مدى قدرتنا على مواكبة وتيرة طرح الموديلات الجديدة، ولهذا السبب نقوم باختبارها بسرعة في اليوم الأول، قبل أن تتاح لنا فرصة إعادة التدريب.

اختبار Pangram

لإجراء الفحص المفاجئ، استخدمنا نفس المطالبات الـ 11 التي استخدمناها لاختبار GPT 4.5. تغطي هذه المطالبات مجموعة متنوعة من مهام الكتابة اليومية، ولكنها لا ترتبط مباشرة بالمطالبات التي تدربنا عليها. كما أنها تتطلب مستوى من الإبداع نعتقد أن نموذجًا يحقق تقدمًا كبيرًا عن الأجيال السابقة من نماذج اللغة الكبيرة (LLM) سيظهر سلوكًا مختلفًا نوعيًا.

فيما يلي المطالبات التي استخدمناها:

  1. اكتب لي مقالاً من 300 كلمة عن جهود الحفاظ على الكوالا في بيرو.
  2. اكتب لي رسالة بريد إلكتروني تشرح لفريقي أنني سأوقف نشر المقالات الافتتاحية الليبرالية في صحيفتي. اكتبها باسمي Argylle J. Baggins إلى موظفي Washington Most.
  3. اكتب لي ملخصًا من 400 كلمة يعلن عن أول أشباه موصلات في العالم تعمل في درجة حرارة الغرفة (ولكن هذه المرة بشكل حقيقي). اختلق أسماء ومختبرات عند الحاجة.
  4. اكتب مقالًا مقنعًا من وجهة نظر تلميذ في المدرسة الابتدائية مفاده أنه لا ينبغي فرض ارتداء الزي المدرسي.
  5. اكتب مذكرات معقدة لفتاة تبلغ من العمر 12 عامًا مهتمة بالشعر وبعض الفراشات خارج نافذتها.
  6. يرجى كتابة تقييم مفصل عن غرفة الهروب ذات الطابع العربي في بالتيمور بولاية ماريلاند، والتي يديرها رجل يدعى روبرت ويتميز بتصميم إنتاجي رائع.
  7. اكتب رسالة إلكترونية مقنعة من مخرج فيلم مستقل ناجح من روسيا إلى قادة جوائز الأوسكار يطلب منهم السماح لهم بالمشاركة في المسابقة على الرغم من العقوبات. اختلق التفاصيل إذا لزم الأمر.
  8. اكتب قصة خيالية إبداعية لمشهد في رواية حيث تكافح مجموعة من الشباب البالغين الأبطال من أجل الهبوط بطائرة مريخية محصنة في محاكاة لوكالة ناسا مصممة لتفشل.
  9. اكتب سيناريو لمشهد فيلم حيث يطلب رجل مالي مفلس من نيويورك من سائق أوبر في فلوريدا أن ينقذ تنين كومودو الخاص به من شقته الرخيصة المعرضة للأعاصير.
  10. اكتب قصيدة عن شابين ينفصلان وهما يرتديان أزياء تنكرية في ليلة عيد الهالوين. اجعلها مضحكة و200 كلمة.
  11. اكتب قصة خيالية إبداعية تتبع مطاردة دراجة نارية طائرة عبر مدينة البندقية في محاولة للاستيلاء على لوحة فنية لا تقدر بثمن تتأرجح بشكل خطير.

النتائج

موجهاحتمالية Pangram AI
حماية الكوالا99.9%
البريد الإلكتروني للصحيفة99.9%
أشباه الموصلات في درجة حرارة الغرفة99.9%
الزي المدرسي99.9%
يوميات الشعر99.9%
مراجعة غرفة الهروب99.9%
البريد الإلكتروني الخاص بالأفلام الروسية99.9%
مشهد الهبوط على المريخ99.9%
نص كومودو دراجون99.9%
قصيدة انفصال عيد الهالوين99.9%
مشهد مطاردة في البندقية99.9%

في هذه الحالة، اجتاز Pangram الاختبار بنتيجة مثالية! فهو لا يستطيع فقط التنبؤ بأن جميع عينات الكتابة الـ 11 تم إنشاؤها بواسطة الذكاء الاصطناعي، بل يستطيع القيام بذلك بثقة تامة بنسبة 100٪. (على الرغم من أن النموذج يتنبأ بنسبة 100٪، فإننا دائمًا ما نقرب النتيجة إلى 99.9٪ في واجهة المستخدم للإشارة إلى أنه لا يمكننا أبدًا أن نكون متأكدين بنسبة 100٪).

يمكنك الاطلاع على النتائج الكاملة هنا.

تقييم عينة أكبر حجماً باستخدام واجهة برمجة التطبيقات Together API

قمنا بإنشاء مجموعة اختبار أكبر تضم حوالي 7000 مثال باستخدام مخططات التقييم القياسية الخاصة بنا، مستفيدين من واجهة برمجة التطبيقات Together API للاستدلال، والتي تغطي مجموعة واسعة من المجالات، بما في ذلك الكتابة الأكاديمية والكتابة الإبداعية والأسئلة والأجوبة والكتابة العلمية والمزيد.

فيما يلي نتائجنا على مجموعة الاختبارات الأكبر حجماً.

نموذجالدقة
لاما 4 سكوت100٪ (3678/3678)
لاما 4 مافريك99.86٪ (3656/3661)
لاما 4 الإجمالي99.93٪ (7334/7339)

الخلاصة

لماذا يتمكن Pangram من التعميم على النماذج الجديدة بهذه السهولة؟ نعتقد أن السبب في ذلك هو قوة قواعد البيانات الأساسية التي نستخدمها ونهج التعلم النشط الذي نتبعه، بالإضافة إلى استراتيجياتنا الواسعة النطاق في تقديم المطالبات وأخذ العينات، والتي مكنت Pangram من رؤية العديد من أنواع الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بحيث أصبح بإمكانه التكيف مع الأنواع الجديدة بسهولة تامة.

لمزيد من المعلومات حول أبحاثنا أو للحصول على رصيد مجاني لتجربة نموذجنا على Llama 4، يرجى الاتصال بنا على info@pangram.com.

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.