الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد
قبل شهرين، أطلقت Pangram أول نموذج متعدد اللغات للكشف عن الذكاء الاصطناعي. والآن، نحن على استعداد للإعلان عن تحديث! تدعم Pangram الآن رسميًا أفضل 20 لغة على الإنترنت، كما أنها تعمل بشكل جيد بشكل غير رسمي مع العديد من اللغات الأخرى. وقد لاحظنا أداءً قويًا ومحسّنًا بشكل كبير بشكل خاص في اللغات العربية واليابانية والكورية والهندية.
قمنا بتقييم حوالي 2000 وثيقة لكل لغة في مجموعة الدعم الرسمية لدينا. الجانب البشري هو مزيج من المراجعات الحقيقية والمقالات الإخبارية ومقالات ويكيبيديا. الجانب الخاص بالذكاء الاصطناعي هو مجموعة من المقالات والمقالات الإخبارية ومنشورات المدونات التي طلبنا من GPT-4o كتابتها بأطوال وأساليب ومواضيع مختلفة.
| اللغة | الدقة | معدل الإيجابية الكاذبة | معدل النتائج السلبية الخاطئة |
|---|---|---|---|
| العربية | 99.95% | 0.10% | 0.00% |
| التشيكية | 99.95% | 0.00% | 0.11% |
| الألمانية | 99.85% | 0.00% | 0.32% |
| اليونانية | 99.90% | 0.00% | 0.21% |
| الإسبانية | 100.00% | 0.00% | 0.00% |
| فارسي | 100.00% | 0.00% | 0.00% |
| الفرنسية | 100.00% | 0.00% | 0.00% |
| الهندية | 99.79% | 0.00% | 0.42% |
| المجرية | 99.49% | 0.10% | 0.95% |
| إيطالي | 100.00% | 0.00% | 0.00% |
| اليابانية | 100.00% | 0.00% | 0.00% |
| هولندي | 99.95% | 0.10% | 0.00% |
| بولندي | 100.00% | 0.00% | 0.00% |
| البرتغالية | 100.00% | 0.00% | 0.00% |
| روماني | 99.95% | 0.10% | 0.00% |
| روسي | 100.00% | 0.00% | 0.00% |
| السويدية | 99.95% | 0.00% | 0.11% |
| تركي | 99.90% | 0.00% | 0.21% |
| أوكراني | 99.95% | 0.00% | 0.11% |
| الأردية | 99.44% | 0.00% | 1.16% |
| فيتنامي | 99.95% | 0.00% | 0.11% |
| الصينية | 99.95% | 0.00% | 0.11% |
فيما يلي التغييرات الرئيسية التي أجريناها لتحسين دعمنا متعدد اللغات:
أجرينا حملة تعلم نشطة للبيانات على نطاق الويب ركزت على اللغات العشرين الأكثر استخدامًا على الإنترنت.
قمنا بتغيير أداة الترميز لتقديم دعم أفضل للغات غير الإنجليزية.
قمنا بزيادة عدد المعلمات للنموذج الأساسي ومحولات LoRA.
قمنا بتطبيق زيادة البيانات لترجمة جزء عشوائي من مجموعة البيانات الخاصة بنا آليًا قبل التدريب.
أصلحنا خطأً في عد الكلمات كان يتسبب في عدم تمثيل اللغات الشرق آسيوية بشكل كافٍ في مجموعة التدريب.
الأساس الجوهري لعملية بناء نماذج ذات معدلات إيجابية كاذبة منخفضة للغاية هو التعلم النشط: ببساطة، نحن نستخرج من الإنترنت قبل عام 2022 أمثلة على حالات كان أداء نموذجنا فيها ضعيفًا (مثل الإيجابيات الكاذبة)، ونضيف هذه الأمثلة إلى مجموعة التدريب الخاصة بنا، ونعيد التدريب، ونكرر العملية. نوضح هذه الخوارزمية بالتفصيل في تقريرنا الفني.
يمكننا تطبيق نهج التعلم النشط الخاص بنا على بعض مجموعات البيانات المتعددة اللغات الكبيرة على الويب للعثور على النصوص المتعددة اللغات التي يواجه نموذجنا الحالي صعوبة في التعامل معها، ثم استخدام هذه البيانات للتكرار، جنبًا إلى جنب مع مكتبتنا الكبيرة من المطالبات لإنشاء مرايا اصطناعية: نص ذكاء اصطناعي يشبه النتائج الإيجابية الخاطئة التي عثرنا عليها. بينما نركز على اللغات العشرين الأكثر استخدامًا على الإنترنت، فإننا نزيل خطوة تصفية اللغة من مسار البيانات لدينا: مما يعني أن النصوص من جميع اللغات هي لعبة عادلة للتعدين السلبي الصعب وإدراجها في مجموعة التدريب لدينا.
إحدى مزايا نهج التعلم النشط الذي نتبعه هو أنه يعيد توزيع اللغات تلقائيًا بناءً على دقة نموذجنا. اللغات ذات الموارد المحدودة غير ممثلة بشكل كافٍ على الإنترنت، ولكن بسبب هذا التفاوت في الفئات، فإن نموذجنا الأولي يعمل بشكل سيئ في البداية على اللغات ذات الموارد المحدودة، مما يتسبب في ظهور المزيد من النصوص من اللغات غير الشائعة في عملية التنقيب الصعبة عن النتائج السلبية. نلاحظ خلال عملية التعلم النشط أن البيانات من اللغات ذات الموارد العالية مثل الإنجليزية والإسبانية والصينية تنخفض تدريجياً في نسبتها في مجموعة التدريب لدينا، بينما تزداد نسبة اللغات غير الشائعة. نجد أن هذا حل أنيق نسبياً لتوزيع البيانات غير المتوازن بشكل طبيعي في تدريب النماذج متعددة اللغات. من خلال خوارزمية التعلم النشط لدينا، يمكن للنموذج أن يختار بنفسه البيانات باللغات التي يحتاج إلى رؤية المزيد منها.
لدعم النصوص متعددة اللغات في مجال الإدخال بشكل أفضل، أردنا أيضًا التأكد من أن LLM الأساسي الذي نستخدمه لبناء مصنفنا يتقن أيضًا العديد من اللغات غير الإنجليزية. قمنا بمسح العديد من أساسيات LLM ومُعالجات الرموز في مجموعة البيانات الخاصة بنا للعثور على الأفضل أداءً بشكل عام بين مجموعة واسعة من اللغات غير الإنجليزية. وجدنا أن الأداء في المعايير المتعددة اللغات لا يبدو أنه يرتبط ارتباطًا وثيقًا بمدى جودة أداء الأساسي في مهمة الكشف عن الذكاء الاصطناعي لدينا: بمعنى آخر، حتى إذا كان النموذج الأساسي قادرًا على حل مهام الاستدلال والإجابة على الأسئلة بلغات أخرى، فإن فعالية نقل المهارة إلى الكشف عن الذكاء الاصطناعي متعدد اللغات تختلف بشكل كبير للغاية.
وجدنا أيضًا أن النماذج الأولية التي قمنا بتدريبها تميل إلى عدم ملاءمة التوزيع متعدد اللغات الجديد - فقد لاحظنا في البداية خسارة تدريب أعلى. ولهذا الغرض، قمنا أيضًا بزيادة حجم النموذج الأساسي وكذلك عدد المعلمات في محولات LoRA الخاصة بنا، وقمنا أيضًا بتدريب النموذج لخطوات أكثر. (نظرًا لأننا في نظام تعلم نشط / بيانات عالية، فإننا لا ندرب أبدًا لأكثر من حقبة واحدة. في هذه الحالة، كان علينا فقط توسيع حجم الحقبة!)
حتى مع التعلم النشط، فإن تنوع البيانات باللغات غير الإنجليزية أقل بشكل ملحوظ من تنوع وحجم البيانات الإنجليزية على الإنترنت، ولا يمكننا تصحيح ذلك تمامًا بمجرد إعادة توازن توزيع اللغات في مجموعة التدريب. وبعبارة بسيطة، هناك بعض البيانات الإنجليزية القيّمة التي لا توجد أو لا يوجد لها نظير أصلي في لغات أخرى. لذلك، قررنا تطبيق زيادة الترجمة الآلية بشكل عشوائي على جزء صغير من مجموعة البيانات لدينا (في حالتنا، استخدمنا Amazon Translate).
على الرغم من أن تطبيق تعزيزات الترجمة الآلية على مجموعة التدريب في تدريب LLM ليس ممارسة معتادة، نظرًا لأن البيانات المترجمة آليًا غالبًا ما تكون غير طبيعية وتعاني من "لغة الترجمة"، إلا أنه في حالتنا، نظرًا لأننا لا نقوم بتدريب نموذج توليدي، لا يبدو أن ذلك يؤثر على جودة المخرجات، وقد لاحظنا تحسنًا في مقاييسنا عند تطبيق هذا التعزيز.
نأخذ اللغة الإسبانية كمثال مميز للغة غنية بالموارد كانت مدعومة سابقًا بواسطة Pangram Text، ولكنها الآن محسّنة بشكل كبير. نقيس معدل الإيجابيات الخاطئة في مجموعة متنوعة من المجالات.
| مجموعة البيانات | معدل الإيجابية الكاذبة (قبل) | معدل الإيجابية الكاذبة (بعد) | عدد الأمثلة |
|---|---|---|---|
| تقييمات أمازون الإسبانية | 0.09% | 0% | 20,000 |
| ويكي لينغوا (نص مقالة ويكي هاو) | 3.17% | 0.14% | 113,000 |
| XL-SUM (مقالات إخبارية باللغة الإسبانية الأصلية) | 0.08% | 0% | 3,800 |
| ويكيبيديا الإسبانية | 0.29% | 0.04% | 67,000 |
| اللغة الإسبانية CulturaX | 0.22% | 0.01% | 1,800,000 |
| منشورات المدونة الإسبانية التي قمنا بتنسيقها يدويًا | 0% | 0% | 60 |
قمنا أيضًا بقياس معدل النتائج السلبية الخاطئة (معدل تصنيف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل خاطئ على أنها نصوص بشرية) لمختلف نماذج اللغات الكبيرة. في هذه التجربة، قمنا بوضع قائمة من المطالبات لنماذج اللغات الكبيرة لإنشاء مقالات ومشاركات مدونات ومقالات إخبارية بأطوال وأساليب متنوعة، ثم قمنا بترجمة المطالبات إلى اللغة الإسبانية. نماذج اللغات الكبيرة نفسها متعددة اللغات، لذا فهي تستجيب للتعليمات باللغة الإسبانية.
| نموذج | معدل النتائج السلبية الخاطئة (قبل) | معدل النتائج السلبية الخاطئة (بعد) | عدد الأمثلة |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| كلود 3.5 سوناتة | 0.7% | 0% | 1,400 |
| كلود 3 أوبوس | 1.05% | 0% | 1,400 |
| جيميني 1.5 برو | 2.85% | 0% | 1,400 |
كما نرى، يحقق نموذجنا المحدث كشفًا مثاليًا عبر جميع نماذج اللغة الكبيرة (LLM) التي تم اختبارها، مما يمثل تحسنًا كبيرًا عن الإصدار السابق.
اثنتان من اللغات التي ركزنا على تحسينها على نطاق واسع في العالم، ولكنهما في الواقع أقل شيوعًا على الإنترنت، وهما العربية واليابانية.
| مجموعة البيانات | معدل الإيجابية الكاذبة باللغة العربية | معدل الإيجابية الكاذبة اليابانية | أمثلة باللغة العربية | أمثلة يابانية |
|---|---|---|---|---|
| تقييمات أمازون | 0% | 0% | غير متوفر | 20,000 |
| AR-AES (كتابة الطلاب العرب) | 0% | غير متوفر | 2,000 | غير متوفر |
| ويكي لينغوا (نص مقالة ويكي هاو) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM (مقالات إخبارية باللغة الأصلية) | 0% | 0% | 4,000 | 733 |
| ويكيبيديا | 0.09% | 0.009% | 31,000 | 96,000 |
| CulturaX | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| منشورات المدونة التي قمنا بتنسيقها يدويًا | 0% | 0% | 60 | 60 |
لم نكن ندعم هاتين اللغتين من قبل، لذا كانت معدلات النتائج السلبية الخاطئة مرتفعة للغاية. أما الآن، فنحن نستطيع التنبؤ بشكل موثوق باللغتين العربية واليابانية اللتين تم إنشاؤهما بواسطة الذكاء الاصطناعي.
| نموذج | العربية FNR | اليابانية FNR |
|---|---|---|
| GPT-4o | 0% | 0% |
| كلود 3.5 سوناتة | 0% | 0% |
| كلود 3 أوبوس | 0% | 0% |
| جيميني 1.5 برو | 0% | 0.21% |
كما نرى، يحقق نموذجنا المحدث كشفًا شبه مثالي عبر جميع نماذج اللغة الكبيرة (LLM) التي تم اختبارها لكل من اللغتين العربية واليابانية، مع معدل خطأ سلبي طفيف بنسبة 0.21٪ فقط لـ Gemini 1.5 Pro في اللغة اليابانية.
نتائج اختبار اللغة الكاملة متاحة عند الطلب.
على الرغم من أن أداءنا قوي في النصوص الأصلية على الويب، إلا أن نموذجنا يواجه أحيانًا صعوبة في اكتشاف "لغة الترجمة" - وهي النصوص المترجمة بشكل سيئ أو التي لا تبدو طبيعية. ومما يزيد الأمر سوءًا، أن الكثير من الناس يستخدمون الآن نماذج LLM مثل ChatGPT مباشرة في مهام الترجمة. هل يجب تصنيف النصوص المترجمة بواسطة LLM على أنها بشرية أم اصطناعية؟ هذا يعتمد على مدى ثقل الترجمة، وكذلك على حالة استخدام التطبيق النهائي. قد يعتبر مدرس اللغة الإسبانية استخدام الترجمة الآلية في واجب ما بمثابة غش أكاديمي، ولكن قد يرغب ناشر ما في السماح بالأعمال المترجمة من خلال عملية ضمان الجودة الخاصة به. تعمل Pangram بنشاط على فهم النص المترجم باعتباره "طريقة ثالثة" تقع في مكان ما بين البشر والذكاء الاصطناعي، وتوفير المزيد من المعلومات لمستخدمينا حتى يتمكن مستهلكو نموذجنا من اتخاذ القرار المناسب لهم.
هل لديك المزيد من الأسئلة؟ اتصل بنا على info@pangram.com!
