الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

تحديث نص Pangram: GPT-4o، Claude 3، LLaMA 3

برادلي إيمي
22 مايو 2024

الصورة من Google DeepMind.

اليوم، نحن متحمسون لعرض قدرتنا على التكيف بسرعة مع نماذج اللغة الكبيرة الجديدة في السوق من خلال إصدار تحديث لنموذجنا الذي يحقق دقة شبه مثالية في اكتشاف النصوص المكتوبة بواسطة الذكاء الاصطناعي من GPT-4o و Claude 3 و LLaMA 3.

TL;DR:

  • أصدرنا إصدارًا جديدًا من Pangram Text يعمل على تحسين الأداء على GPT-4o وClaude 3 وLLaMA 3.
  • تم إعداد بنيةنا التحتية بحيث يمكنها استيعاب كميات كبيرة من نصوص الذكاء الاصطناعي من النماذج الجديدة بمجرد إتاحتها للجمهور.
  • نجد أنه مع اقتراب أداء جميع هذه النماذج الجديدة من مستوى أداء GPT-4، فإنها جميعًا تبدأ في الظهور بنفس الأسلوب أيضًا.

النتائج

كان أحدث نموذج أصدرناه جيدًا جدًا في اكتشاف مخرجات النماذج الجديدة، حتى دون رؤية أي أمثلة عليها في مجموعة التدريب. ومع ذلك، نحن لا نكتفي بكونه "جيدًا جدًا" فحسب، بل نريد أن نضمن استمرارنا في دفع حدود ما هو ممكن مع اكتشاف الذكاء الاصطناعي وتحقيق أفضل دقة ممكنة لعملائنا.

لاختبار مدى جودة أدائنا على نماذج اللغة من الجيل التالي، قمنا بتجديد مجموعة التقييم الخاصة بنا التي تضم 25,000 مثال من النصوص البشرية الصعبة التصنيف والنصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي من مجموعة من نماذج اللغة. يتكون حوالي 40٪ من مجموعة التقييم الجديدة هذه من مجموعة متنوعة من النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي من GPT-4o و Claude 3 و LLaMA 3، والتي تغطي عدة مجالات من النصوص بما في ذلك الأخبار والمراجعات والتعليم والمزيد.

نستخدم جميع إصدارات النماذج الجديدة عند توفرها: على سبيل المثال، نأخذ عينات متساوية من إصدارات Opus و Sonnet و Haiku من Claude 3.

بعد تحديث مجموعة بيانات التدريب لدينا لتضمين أحدث نماذج اللغة الكبيرة (LLM)، وجدنا أننا نحقق مرة أخرى دقة شبه مثالية في النصوص التي تم إنشاؤها بواسطة أحدث جيل من نماذج اللغة.

ماجستير في القانوندقة نص بانغرام في شهر مارسنص بانغرام قد الدقةنسبة التحسن
كل99.54%99.84%+0.30%
GPT-4o99.78%100%+0.22%
كلود 399.12%99.76%+0.64%
LLaMA 399.58%99.97%+0.39%

بالإضافة إلى تحسين الأداء في النماذج الجديدة، وجدنا أن تضمين بيانات التدريب من أحدث جيل من النماذج يؤدي في الواقع إلى تحسين الأداء بشكل طفيف في العديد من النماذج القديمة.

وجدنا أنه على الرغم من عدم إدخال أي تراجع على مجموعة تقييم النموذج القديم لدينا، إلا أننا في الواقع قمنا بتحسين العديد من الحالات من GPT-3.5 و GPT-4 (العادي). على وجه التحديد، وجدنا أن 8 حالات GPT-3.5 التي فشل النموذج في اجتيازها سابقًا قد اجتازت الآن، و 13 حالة GPT-4 التي فشل النموذج في اجتيازها سابقًا قد اجتازت الآن. نستنتج هنا أن زيادة قدرة نموذجنا على اكتشاف GPT-4o و Claude 3 و LLaMA 3 لا تأتي على حساب القدرة على اكتشاف النماذج القديمة.

البقاء في الصدارة

كنا ندرك منذ البداية أن حدود نماذج اللغة الكبيرة (LLM) ستتغير بسرعة، لذلك صممنا بنية نظامنا مع أخذ ذلك في الاعتبار. تم تصميم أنظمتنا بحيث تكون قادرة على إعادة إنشاء البيانات والبدء في تدريب نموذج جديد في غضون ساعات من إتاحة واجهة برمجة تطبيقات جديدة للجمهور.

عندما يتم إصدار نموذج جديد، فإن إنشاء مجموعة بيانات جديدة وإعادة تدريب النموذج أمر بسيط مثل تغيير التكوين. لدينا مكتبة قياسية من قوالب المطالبات المصممة لتغذية نماذج اللغة الكبيرة (LLMs) لإنتاج نصوص شبيهة بالبشرية، قريبة من الجانب البشري لمجموعة البيانات لدينا، ولكنها ليست مطابقة له تمامًا. نوضح هذه العملية، التي تسمى التعدين السلبي الصعب باستخدام المرايا الاصطناعية، بالتفصيل في تقريرنا الفني.

كان الجدول الزمني لإصدار هذا الطراز الجديد كما يلي:

13 مايو: تم إصدار GPT-4o وإتاحته في واجهة برمجة تطبيقات OpenAI. 14 مايو: تم تحديث مسار مجموعة البيانات وإنشاء مجموعات تدريب وتقييم جديدة. 15-16 مايو: تم تدريب نموذج الكشف عن الذكاء الاصطناعي باستخدام مجموعات البيانات الجديدة. 17 مايو: تم إجراء اختبارات ضمان الجودة والتحقق من سلامة النموذج، ثم تم إصدار النموذج.

تتيح لنا البنية التحتية التي أنشأناها التكيف بسرعة، بما في ذلك إدراج نصوص من نماذج جديدة في نظام الكشف عن الإنتاج في غضون أسبوع واحد فقط.

تناقص العائدات؟

مع تحسن النماذج الجديدة، من الطبيعي أن يصبح اكتشافها أكثر صعوبة، أليس كذلك؟ ما زلنا بحاجة إلى إثباتات تدعم هذا الرأي المغري، ولكنه في النهاية خاطئ.

من خلال الملاحظة، وجدنا أن النماذج الأكثر قدرة، بسبب أسلوبها الأكثر خصوصية، هي في الواقع أسهل في الكشف عنها من النماذج الأقل قدرة. على سبيل المثال، وجدنا أن نموذجنا القديم كان أفضل في الكشف عن كلود أوبوس من سونيت وهايكو.

كما نرى في قائمة LMSYS، نلاحظ أن العديد من النماذج الأساسية تتقارب بشكل لا نهائي إلى مستوى GPT-4، ولكن لم يتفوق عليها أي نموذج حتى الآن بفارق كبير. بالنظر إلى الوضع من منظور شامل، إذا اتبعت عدة شركات نماذج أساسية مختلفة نفس البنية القائمة على الاهتمام وقامت بتدريبها على الإنترنت بأكمله، فليس من المستغرب أن تصبح اللغة الناتجة عن جميع النماذج متشابهة بشكل لا يصدق. أولئك الذين يتفاعلون مع نماذج اللغة بشكل منتظم سيفهمون على الفور ما نعنيه بذلك.

على مستوى الملاحظة، ما زلنا نجد أن نماذج اللغة الكبيرة (LLM)، عندما يُطلب منها الكتابة بشكل إبداعي وأصيل، مثل كتابة مقال رأي أو مراجعة أو قصة قصيرة إبداعية، لا تزال تنتج هراءً مملًا وخاليًا من الخيال. نعتقد أن هذا هو في الأساس خاصية هدف التحسين المتمثل في توقع اكتمالات ذات احتمالية عالية مع الابتعاد عن الأفكار والأفكار الأصلية غير الموزعة.

نحن نقدر الكتابة الأصلية من زملائنا البشر لأنها قد توفر لنا منظوراً جديداً أو طريقة مختلفة في التفكير، وليس لأنها شيء عادي قد يقوله أي شخص. طالما أن هذه القيمة صحيحة، فستظل هناك حاجة إلى الكشف عن الذكاء الاصطناعي، وسيظل هناك دائماً طريق لحل هذه المشكلة.

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.