الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

ما مدى كفاءة Pangram في اكتشاف نماذج الاستدلال؟

برادلي إيمي
16 يوليو 2025

كان أحد أهم الإنجازات في مجال النماذج اللغوية الكبيرة في عام 2025 هو ظهور نماذج الاستدلال. وهي نماذج تعلمت، بشكل عام، كيفية التفكير قبل التحدث.

ما هو نموذج الاستدلال؟

نموذج الاستدلال هو نفس نموذج LLM العادي، باستثناء أنه بالإضافة إلى إنتاج رموز الإخراج، يتم تدريب هذه النماذج أيضًا على إنتاج رموز التفكير أو رموز الاستدلال. في مرحلة التفكير، يحاول النموذج الاستدلال من خلال مهام معقدة، وتجربة مناهج مختلفة وطرح الأسئلة على نفسه قبل إعطاء إجابة. في الممارسة العملية، تتفوق هذه النماذج في حل المشكلات، لا سيما في مجالات الرياضيات والبرمجة، وتحقق نتائج تفوق بكثير نتائجها في اختبارات القياس المعياري.

كيف تعمل نماذج الاستدلال؟

تقوم نماذج الاستدلال بما يسمى "سلسلة الأفكار" قبل التحدث. فيما يلي مثال على شكل ذلك، من Deepseek-R1، وهو النموذج الوحيد للاستدلال الذي يعرض "أفكار" النموذج للجمهور.

مثال على سلسلة أفكار Deepseek R1

في هذا المثال، يفكر Deepseek في ما يريده المستخدم قبل أن يقرر البدء في إخراج الرموز، مما يجعله أكثر فعالية في التنظيم المنطقي والتفكير في أفضل ناتج ممكن.

ما هي نماذج التفكير الأكثر شيوعًا؟

طور العديد من المزودين نماذج استدلالية حققت أداءً متطورًا.

OpenAI

سلسلة نماذج الاستدلال الخاصة بـ OpenAI تسمى O-series. النماذج المتاحة حاليًا هي o1 و o1-mini و o3 و o3-pro و o4-mini. o3-pro هو الأكثر قدرة بين هذه النماذج.

أنثروبي

أضافت Anthropic قدرات الاستدلال إلى أحدث إصدارات Claude. يتمتع كل من Claude 4 Opus و Claude 4 Sonnet بوضع "التفكير الموسع" الذي يتيح لهما الاستدلال قبل الإجابة.

الجوزاء

تستخدم سلسلة نماذج Gemini 2.5 من Google الآن عملية تفكير داخلية، وهي أيضًا نماذج استدلالية. تتمتع كل من Gemini 2.5 Pro وGemini 2.5 Flash وGemini 2.5 Flash-Lite بقدرات تفكيرية.

ديبسيك

كان Deepseek R1 أول نموذج استدلال مفتوح المصدر وأصدرته شركة Deepseek الصينية. على عكس النماذج التجارية المغلقة المصدر الأخرى، في Deepseek، يمكنك بالفعل رؤية أفكار النموذج بالإضافة إلى الناتج النهائي.

كوين

بالإضافة إلى ذلك، أطلقت شركة صينية أخرى، وهي Qwen، نموذج تفكير يسمى Qwen-QWQ-32B. وهو نموذج استدلال أصغر حجماً يمكن استخدامه في سياقات أكثر تنوعاً من Deepseek R1.

كيف يؤدي Pangram في نماذج الاستدلال هذه؟

أصدرنا مؤخرًا تحديثًا لنموذج الكشف عن الذكاء الاصطناعي Pangram الذي يحسن الأداء على نماذج الاستدلال بشكل عام.

نموذجبانجرام (قديم)Pangram (إصدار يوليو)
OpenAI o199.86%100%
OpenAI o1-mini100%100%
OpenAI o393.4%99.86%
OpenAI o3-pro93.9%99.97%
OpenAI o3-mini100%100%
OpenAI o4-mini99.64%99.91%
جيميني 2.5 برو ثينكينج99.72%99.91%
كلود أوبوس 499.89%99.94%
كلود سونيت 499.89%99.91%
Deepseek-R1100%100%
Qwen-QWQ-32b100%100%

أقوى تحسن في الأداء يأتي في o3 و o3-pro. أدركنا أن o3 و o3-pro هما نموذجان مختلفان تمامًا عن النماذج التي أصدرتها OpenAI سابقًا، ولم يكن نموذجنا القديم للكشف عن الذكاء الاصطناعي قادرًا على التعميم بشكل جيد ضدهما، حيث حقق أداءً بنسبة 93٪ فقط عند اختباره لأول مرة.

حل o3 و o3-pro

مشكلة أخرى واجهتنا هي أن o3 و o3-pro أغلى بكثير من سابقاتهما، مما يعني أننا لن نتمكن من توليد بيانات منهما بنفس حجم النماذج الأخرى. وما زاد الأمور تعقيدًا هو أن هذه النماذج تستغرق وقتًا أطول في التشغيل لأنها تقضي وقتًا طويلاً في التفكير قبل توليد الرموز الناتجة.

أعدنا إنشاء بيانات مجموعة التدريب الخاصة بنا مع تضمين كمية صغيرة من بيانات o3 و o3-pro. في مجموعة التدريب النهائية الخاصة بنا لإصدار يوليو، لا يشكل نص o3 سوى 0.17% من مزيج بيانات التدريب، ولا يشكل نص o3-pro سوى 0.35%. قمنا بموازنة ذلك وأملنا في التعميم من خلال زيادة تركيبة نص o3-mini إلى 5٪ من مزيج بيانات التدريب. والمثير للدهشة أن هذا نجح بشكل جيد للغاية! من خلال تعديل طفيف في مجموعة التدريب، تمكنا من مطابقة استرجاع o3 و o3 pro مع استرجاع نماذج اللغة الكبيرة الأخرى التي قمنا بتقييمها، دون الحاجة إلى التنازل عن أي نتائج إيجابية خاطئة.

Pangram هو متعلم قليل التكرار

هذا السلوك الذي يتبعه Pangram، حيث يمكننا تدريبه على عينة صغيرة من البيانات من نماذج لغة كبيرة جديدة تختلف نوعياً عن سابقاتها، يجعل Pangram ما نسميه "متعلم قليل التدريب". لهذا السلوك آثار قوية: عندما يتم إصدار نماذج لغة كبيرة جديدة، أو حتى منتجات جديدة قائمة على نماذج لغة كبيرة تعتمد في الخلفية على نماذج لغة كبيرة مضبوطة بدقة قد يكون لها أنماط كتابة أساسية مختلفة، فإن Pangram قادر على التكيف معها بسرعة وبتكلفة منخفضة، دون الحاجة إلى إعادة إنشاء مجموعات بيانات ضخمة.

يسألنا الكثير من الناس لماذا نعتقد أننا قادرون على الفوز في ما هو في النهاية لعبة "القط والفأر". لأن Pangram هو متعلم قليل التكرار، فإن اللحاق بركب نماذج اللغة الكبيرة الجديدة ليس صعبًا كما قد يبدو على السطح - نحتاج فقط إلى بضعة أمثلة لنعرضها على Pangram قبل أن يتمكن من التعميم وتعلم النمط بكفاءة عالية. بعبارات بسيطة، Pangram فعال للغاية في "تعلم كيفية التعلم" كيف تبدو نماذج اللغة الكبيرة الجديدة، لأنه شاهد العديد من نماذج اللغة الكبيرة في الماضي.

هذا، إلى جانب حقيقة أن كل LLM له أسلوبه المميز والفريد، جعل من السهل على Pangram التكيف مع LLM الجديدة عند إصدارها، حتى مع تحسن LLM وزيادة قدراتها. من وجهة نظرنا، فإن قدرة LLM متعامدة مع قابلية اكتشاف LLM.

خاتمة: ما الفرق بين o3 و o3-pro؟

لقد سمعنا من العديد من الأشخاص في أوساط الذكاء الاصطناعي أن o3 و o3-pro لهما طابع مختلف عن نماذج LLM الأخرى التي رأيناها من قبل. وفقًا لتجربتنا، فهي أول نماذج منذ فترة طويلة (منذ Claude 2) لا يستطيع Pangram التقاطها بدقة تزيد عن 99٪ (دون رؤية أي بيانات من النموذج). على الرغم من صعوبة تحديد ما يميزها، إليك مجموعة من الفرضيات التي تفسر سبب تميزها.

  • o3 و o3-pro مُحسّنان بشكل مفرط لاستخدام الأدوات. نحن نعلم أن Pangram يكتشف إلى حد كبير المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي استنادًا إلى السلوكيات والخصائص الفريدة التي تم إدخالها بعد التدريب. تقول OpenAI في منشورها على مدونة الإصدارات أن o3 و o3-pro يختلفان عن سابقيهما في أنهما تم تدريبهما باستخدام التعلم المعزز لاستخدام الأدوات كجزء من عملية ما بعد التدريب. قد يكون هذا الاختلاف في خوارزمية ما بعد التدريب قد أثر أيضًا بشكل نوعي على أسلوب المخرجات.

  • o3 و o3-pro أكثر عرضة للهلوسة. وفقًا لناتان لامبرت، وضع o3 حرفًا غير صالح غير ASCII في الكود، وأظهر تصرفات هلوسية أثناء محاولته حل المهام، مثل الهلوسة بأنه قام بتشغيل كود توقيت على جهاز Macbook Pro تم اختلاقه بالكامل، وقد وجدت التقييمات المستقلة التي أجرتها METR أن o3 يميل إلى "اختراق درجاته" بدلاً من حل المهام الفعلية بشكل حقيقي.

لمزيد من المعلومات حول o3 و o3-pro، نوصي بقراءة منشور ناتان على المدونة، ومنشور دان شيببر "Vibe Check"، ومنشور OpenAI على المدونة.

الخلاصة

Pangram قوي في نماذج الاستدلال مثل أي LLM آخر، ولكن o3 و o3-pro يبدوان مختلفين عن سابقيهما من حيث أسلوب الكتابة والنبرة. خلال عملية تحسين أداء Pangram على o3 و o3-pro، أدركنا أننا في الواقع قد لا نحتاج إلى العديد من الأمثلة كما كنا نعتقد من كل LLM عند إصدارها، وذلك لأن Pangram هو متعلم قوي للغاية في التعلم من عدة أمثلة قليلة.

نحن ندرس إجراء تغييرات على هيكل التدريب والروتين لدينا، مما سيجعل تحديث Pangram أسرع وأسهل، ويسمح لنا بتقديم نماذج الكشف عن الذكاء الاصطناعي التي يمكنها اكتشاف أحدث نماذج LLMs بشكل أسرع من ذي قبل. ترقبوا المزيد من التحديثات!

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.