الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
اليوم، تم إصدار Llama 4، وهو أحدث نموذج في سلسلة النماذج مفتوحة المصدر من Meta AI. أردنا معرفة ما إذا كان Pangram لا يزال قادرًا على اكتشاف أحدث وأفضل النماذج المفتوحة، لذلك أجرينا اختبارًا سريعًا لمعرفة ما إذا كان نموذجنا يظهر تعميمًا على Llama 4، على الرغم من أنه تم تدريبه حاليًا على مخرجات Llama 2 و 3 فقط.
غالبًا ما يُسألنا عن مدى قدرتنا على مواكبة وتيرة طرح الموديلات الجديدة، ولهذا السبب نقوم باختبارها بسرعة في اليوم الأول، قبل أن تتاح لنا فرصة إعادة التدريب.
لإجراء الفحص المفاجئ، استخدمنا نفس المطالبات الـ 11 التي استخدمناها لاختبار GPT 4.5. تغطي هذه المطالبات مجموعة متنوعة من مهام الكتابة اليومية، ولكنها لا ترتبط مباشرة بالمطالبات التي تدربنا عليها. كما أنها تتطلب مستوى من الإبداع نعتقد أن نموذجًا يحقق تقدمًا كبيرًا عن الأجيال السابقة من نماذج اللغة الكبيرة (LLM) سيظهر سلوكًا مختلفًا نوعيًا.
فيما يلي المطالبات التي استخدمناها:
| موجه | احتمالية Pangram AI |
|---|---|
| حماية الكوالا | 99.9% |
| البريد الإلكتروني للصحيفة | 99.9% |
| أشباه الموصلات في درجة حرارة الغرفة | 99.9% |
| الزي المدرسي | 99.9% |
| يوميات الشعر | 99.9% |
| مراجعة غرفة الهروب | 99.9% |
| البريد الإلكتروني الخاص بالأفلام الروسية | 99.9% |
| مشهد الهبوط على المريخ | 99.9% |
| نص كومودو دراجون | 99.9% |
| قصيدة انفصال عيد الهالوين | 99.9% |
| مشهد مطاردة في البندقية | 99.9% |
في هذه الحالة، اجتاز Pangram الاختبار بنتيجة مثالية! فهو لا يستطيع فقط التنبؤ بأن جميع عينات الكتابة الـ 11 تم إنشاؤها بواسطة الذكاء الاصطناعي، بل يستطيع القيام بذلك بثقة تامة بنسبة 100٪. (على الرغم من أن النموذج يتنبأ بنسبة 100٪، فإننا دائمًا ما نقرب النتيجة إلى 99.9٪ في واجهة المستخدم للإشارة إلى أنه لا يمكننا أبدًا أن نكون متأكدين بنسبة 100٪).
يمكنك الاطلاع على النتائج الكاملة هنا.
قمنا بإنشاء مجموعة اختبار أكبر تضم حوالي 7000 مثال باستخدام مخططات التقييم القياسية الخاصة بنا، مستفيدين من واجهة برمجة التطبيقات Together API للاستدلال، والتي تغطي مجموعة واسعة من المجالات، بما في ذلك الكتابة الأكاديمية والكتابة الإبداعية والأسئلة والأجوبة والكتابة العلمية والمزيد.
فيما يلي نتائجنا على مجموعة الاختبارات الأكبر حجماً.
| نموذج | الدقة |
|---|---|
| لاما 4 سكوت | 100٪ (3678/3678) |
| لاما 4 مافريك | 99.86٪ (3656/3661) |
| لاما 4 الإجمالي | 99.93٪ (7334/7339) |
لماذا يتمكن Pangram من التعميم على النماذج الجديدة بهذه السهولة؟ نعتقد أن السبب في ذلك هو قوة قواعد البيانات الأساسية التي نستخدمها ونهج التعلم النشط الذي نتبعه، بالإضافة إلى استراتيجياتنا الواسعة النطاق في تقديم المطالبات وأخذ العينات، والتي مكنت Pangram من رؤية العديد من أنواع الكتابة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بحيث أصبح بإمكانه التكيف مع الأنواع الجديدة بسهولة تامة.
لمزيد من المعلومات حول أبحاثنا أو للحصول على رصيد مجاني لتجربة نموذجنا على Llama 4، يرجى الاتصال بنا على info@pangram.com.
