الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
الصورة من تصوير تارا وينستيد.
في الشهر الماضي، أصدرنا تقريرنا الفني الذي قارن نموذجنا بشكل شامل مع منافسينا وكذلك مع طريقة أكاديمية رائدة.
اليوم، نعلن عن إصدار نموذج آخر يعمل على تحسين أدائنا بشكل أكبر في هذا المعيار الصعب.
| الدقة | معدل النتائج السلبية الخاطئة | معدل الإيجابية الكاذبة | |
|---|---|---|---|
| نموذج فبراير | 99.0% | 1.30% | 0.67% |
| نموذج مارس | 99.84% | 0.11% | 0.19% |
من أجل إنتاج النموذج الجديد، استخدمنا نفس نهج التعلم النشط الذي استخدمناه في تقريرنا الفني، Hard Negative Mining with Synthetic Mirrors. ومع ذلك، بالنسبة لهذا التحديث، قمنا بتوسيع نطاق نموذجنا بشكل كبير، حيث زدنا عدد المعلمات الإجمالية في النموذج بمقدار عشرة أضعاف. من أجل القيام بذلك، كان علينا أيضًا توسيع نطاق موارد الحوسبة اللازمة لتدريب النموذج الجديد، وتنفيذ تقنية Low-Rank Adaptation (LoRA) – وهي تقنية شائعة الاستخدام لضبط نماذج اللغة الكبيرة (LLM) بكفاءة. هذا النموذج الجديد هو أيضًا أول إصدار لنا من نموذج تم تدريبه على وحدات معالجة الرسومات (GPU) H100 الجديدة من NVIDIA!
وقد وجد أن النماذج الأصغر حجماً تعمل بشكل أفضل مع DetectGPT في الكشف عن النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، وقد ناقشنا سابقاً تشبع قوانين القياس في تقريرنا الفني. وباختصار، وجدنا أن إضافة المزيد من البيانات لا يحسن النموذج بعد تجاوز عتبة حرجة من البيانات (في حالتنا، حوالي 40 ألف وثيقة).
بالإضافة إلى ذلك، إذا ألقيت نظرة على قائمة المتصدرين لمهام تصنيف النصوص الأخرى مثل MTEB و IMDB sentiment analysis و AGNews، سترى أن قائمة المتصدرين لا تزال تهيمن عليها نماذج مثل XLNet و DeBERTa و T5-XXL. في حين أن هذه النماذج هي هياكل مجربة وموثوقة عملت بشكل جيد في مهام التصنيف البسيطة لسنوات، إلا أنها لا تقترب بأي شكل من الأشكال من حجم نماذج اللغة الكبيرة الحديثة. تحتوي هذه النماذج من نوع BERT على حوالي مائتي مليون معلمة، في حين أن نماذج اللغة الكبيرة مفتوحة المصدر الرائدة تحتوي الآن على عشرات المليارات من المعلمات - وهو فرق كبير!
السبب في أن بنى LLM لا تعمل بشكل جيد في تصنيف النصوص هو أنها تتكيف بشكل مفرط بسهولة. كيف يمكننا الحصول على أفضل ما في كلا العالمين: نموذج يحتوي على معرفة "أساسية" أكثر بكثير مثل LLM، ولكنه لا يتكيف بشكل مفرط في مهام التصنيف؟
في أحدث إصدار لدينا، نستفيد من تقنية شائعة نسبيًا لضبط نماذج اللغة الكبيرة المعروفة باسم LoRA.
تصور عمليات موتر LoRA من الورقة الأصلية.
الفكرة الرئيسية لـ LoRA هي أنه بدلاً من ضبط النموذج بأكمله، الأمر الذي (1) يستغرق الكثير من الوقت والذاكرة، (2) يكون عرضة للتكيف المفرط، و(3) يمكن أن يتسبب في نسيان كارثي لبيانات التدريب المسبق، يتم الاحتفاظ بـ LLM الأساسي في مكانه، ويتم تدريب وحدات المحول كشبكات جانبية إلى جانب كتل الانتباه الأساسية لـ LLM. LoRA تعني "التكيف منخفض الرتبة" مما يعني أن وحدات المحول تتحلل بشكل جيد إلى مصفوفات وزن فعالة من حيث المعلمات - مما يجعلها سريعة التدريب وفعالة من حيث الذاكرة.
يوضح هذا الشكل المأخوذ من ورقة LoRA هذه الفكرة بشكل جيد. يتم تمثيل LLM الأصلي فقط بالمصفوفة W الزرقاء. يُسمح للوحدات البرتقالية بالتدريب، بينما يتم تجميد الوحدة الزرقاء من LLM الأصلي في مكانها بينما تتعلم وحدة المحول كيفية الالتفاف حولها.
وجدنا أن LoRA يساعدنا بشكل كبير في تحسين أدائنا، حيث يقلل من معدلات الإيجابية الكاذبة والسلبية الكاذبة.
نفترض أن التحسن يرجع إلى حد كبير إلى زيادة كمية المعرفة المسبقة للتدريب الموجودة في LLM، والتي يمكننا الاستفادة منها دون الإفراط في التكييف من خلال فكرة محول LoRA. رائع جدًا!
سنواصل إجراء تحسينات على البنية بمرور الوقت لمواكبة أحدث بنى التعلم العميق المتوفرة. كما أننا نخطط لإجراء تحسينات إضافية على البنية والبيانات، ولكن أولاً حان الوقت لإنشاء مجموعة تقييم أكثر صعوبة!
ترقبوا المزيد...
هل تريد التواصل معنا؟ أرسل لنا بريدًا إلكترونيًا على info@pangram.com!
