الإعلان عن شراكة جديدة مع Proofig! تعرف على المزيد

يُظهر كاشف الذكاء الاصطناعي من Pangram أداءً قويًا في أكثر من 20 لغة

برادلي إيمي
4 سبتمبر 2024

قبل شهرين، أطلقت Pangram أول نموذج متعدد اللغات للكشف عن الذكاء الاصطناعي. والآن، نحن على استعداد للإعلان عن تحديث! تدعم Pangram الآن رسميًا أفضل 20 لغة على الإنترنت، كما أنها تعمل بشكل جيد بشكل غير رسمي مع العديد من اللغات الأخرى. وقد لاحظنا أداءً قويًا ومحسّنًا بشكل كبير بشكل خاص في اللغات العربية واليابانية والكورية والهندية.

النتائج

قمنا بتقييم حوالي 2000 وثيقة لكل لغة في مجموعة الدعم الرسمية لدينا. الجانب البشري هو مزيج من المراجعات الحقيقية والمقالات الإخبارية ومقالات ويكيبيديا. الجانب الخاص بالذكاء الاصطناعي هو مجموعة من المقالات والمقالات الإخبارية ومنشورات المدونات التي طلبنا من GPT-4o كتابتها بأطوال وأساليب ومواضيع مختلفة.

اللغةالدقةمعدل الإيجابية الكاذبةمعدل النتائج السلبية الخاطئة
العربية99.95%0.10%0.00%
التشيكية99.95%0.00%0.11%
الألمانية99.85%0.00%0.32%
اليونانية99.90%0.00%0.21%
الإسبانية100.00%0.00%0.00%
فارسي100.00%0.00%0.00%
الفرنسية100.00%0.00%0.00%
الهندية99.79%0.00%0.42%
المجرية99.49%0.10%0.95%
إيطالي100.00%0.00%0.00%
اليابانية100.00%0.00%0.00%
هولندي99.95%0.10%0.00%
بولندي100.00%0.00%0.00%
البرتغالية100.00%0.00%0.00%
روماني99.95%0.10%0.00%
روسي100.00%0.00%0.00%
السويدية99.95%0.00%0.11%
تركي99.90%0.00%0.21%
أوكراني99.95%0.00%0.11%
الأردية99.44%0.00%1.16%
فيتنامي99.95%0.00%0.11%
الصينية99.95%0.00%0.11%

ما الذي قمنا بتغييره؟

فيما يلي التغييرات الرئيسية التي أجريناها لتحسين دعمنا متعدد اللغات:

  • أجرينا حملة تعلم نشطة للبيانات على نطاق الويب ركزت على اللغات العشرين الأكثر استخدامًا على الإنترنت.

  • قمنا بتغيير أداة الترميز لتقديم دعم أفضل للغات غير الإنجليزية.

  • قمنا بزيادة عدد المعلمات للنموذج الأساسي ومحولات LoRA.

  • قمنا بتطبيق زيادة البيانات لترجمة جزء عشوائي من مجموعة البيانات الخاصة بنا آليًا قبل التدريب.

  • أصلحنا خطأً في عد الكلمات كان يتسبب في عدم تمثيل اللغات الشرق آسيوية بشكل كافٍ في مجموعة التدريب.

حملة التعلم النشط

الأساس الجوهري لعملية بناء نماذج ذات معدلات إيجابية كاذبة منخفضة للغاية هو التعلم النشط: ببساطة، نحن نستخرج من الإنترنت قبل عام 2022 أمثلة على حالات كان أداء نموذجنا فيها ضعيفًا (مثل الإيجابيات الكاذبة)، ونضيف هذه الأمثلة إلى مجموعة التدريب الخاصة بنا، ونعيد التدريب، ونكرر العملية. نوضح هذه الخوارزمية بالتفصيل في تقريرنا الفني.

يمكننا تطبيق نهج التعلم النشط الخاص بنا على بعض مجموعات البيانات المتعددة اللغات الكبيرة على الويب للعثور على النصوص المتعددة اللغات التي يواجه نموذجنا الحالي صعوبة في التعامل معها، ثم استخدام هذه البيانات للتكرار، جنبًا إلى جنب مع مكتبتنا الكبيرة من المطالبات لإنشاء مرايا اصطناعية: نص ذكاء اصطناعي يشبه النتائج الإيجابية الخاطئة التي عثرنا عليها. بينما نركز على اللغات العشرين الأكثر استخدامًا على الإنترنت، فإننا نزيل خطوة تصفية اللغة من مسار البيانات لدينا: مما يعني أن النصوص من جميع اللغات هي لعبة عادلة للتعدين السلبي الصعب وإدراجها في مجموعة التدريب لدينا.

إحدى مزايا نهج التعلم النشط الذي نتبعه هو أنه يعيد توزيع اللغات تلقائيًا بناءً على دقة نموذجنا. اللغات ذات الموارد المحدودة غير ممثلة بشكل كافٍ على الإنترنت، ولكن بسبب هذا التفاوت في الفئات، فإن نموذجنا الأولي يعمل بشكل سيئ في البداية على اللغات ذات الموارد المحدودة، مما يتسبب في ظهور المزيد من النصوص من اللغات غير الشائعة في عملية التنقيب الصعبة عن النتائج السلبية. نلاحظ خلال عملية التعلم النشط أن البيانات من اللغات ذات الموارد العالية مثل الإنجليزية والإسبانية والصينية تنخفض تدريجياً في نسبتها في مجموعة التدريب لدينا، بينما تزداد نسبة اللغات غير الشائعة. نجد أن هذا حل أنيق نسبياً لتوزيع البيانات غير المتوازن بشكل طبيعي في تدريب النماذج متعددة اللغات. من خلال خوارزمية التعلم النشط لدينا، يمكن للنموذج أن يختار بنفسه البيانات باللغات التي يحتاج إلى رؤية المزيد منها.

التغييرات المعمارية

لدعم النصوص متعددة اللغات في مجال الإدخال بشكل أفضل، أردنا أيضًا التأكد من أن LLM الأساسي الذي نستخدمه لبناء مصنفنا يتقن أيضًا العديد من اللغات غير الإنجليزية. قمنا بمسح العديد من أساسيات LLM ومُعالجات الرموز في مجموعة البيانات الخاصة بنا للعثور على الأفضل أداءً بشكل عام بين مجموعة واسعة من اللغات غير الإنجليزية. وجدنا أن الأداء في المعايير المتعددة اللغات لا يبدو أنه يرتبط ارتباطًا وثيقًا بمدى جودة أداء الأساسي في مهمة الكشف عن الذكاء الاصطناعي لدينا: بمعنى آخر، حتى إذا كان النموذج الأساسي قادرًا على حل مهام الاستدلال والإجابة على الأسئلة بلغات أخرى، فإن فعالية نقل المهارة إلى الكشف عن الذكاء الاصطناعي متعدد اللغات تختلف بشكل كبير للغاية.

وجدنا أيضًا أن النماذج الأولية التي قمنا بتدريبها تميل إلى عدم ملاءمة التوزيع متعدد اللغات الجديد - فقد لاحظنا في البداية خسارة تدريب أعلى. ولهذا الغرض، قمنا أيضًا بزيادة حجم النموذج الأساسي وكذلك عدد المعلمات في محولات LoRA الخاصة بنا، وقمنا أيضًا بتدريب النموذج لخطوات أكثر. (نظرًا لأننا في نظام تعلم نشط / بيانات عالية، فإننا لا ندرب أبدًا لأكثر من حقبة واحدة. في هذه الحالة، كان علينا فقط توسيع حجم الحقبة!)

زيادة البيانات

حتى مع التعلم النشط، فإن تنوع البيانات باللغات غير الإنجليزية أقل بشكل ملحوظ من تنوع وحجم البيانات الإنجليزية على الإنترنت، ولا يمكننا تصحيح ذلك تمامًا بمجرد إعادة توازن توزيع اللغات في مجموعة التدريب. وبعبارة بسيطة، هناك بعض البيانات الإنجليزية القيّمة التي لا توجد أو لا يوجد لها نظير أصلي في لغات أخرى. لذلك، قررنا تطبيق زيادة الترجمة الآلية بشكل عشوائي على جزء صغير من مجموعة البيانات لدينا (في حالتنا، استخدمنا Amazon Translate).

على الرغم من أن تطبيق تعزيزات الترجمة الآلية على مجموعة التدريب في تدريب LLM ليس ممارسة معتادة، نظرًا لأن البيانات المترجمة آليًا غالبًا ما تكون غير طبيعية وتعاني من "لغة الترجمة"، إلا أنه في حالتنا، نظرًا لأننا لا نقوم بتدريب نموذج توليدي، لا يبدو أن ذلك يؤثر على جودة المخرجات، وقد لاحظنا تحسنًا في مقاييسنا عند تطبيق هذا التعزيز.

المقارنة المعيارية: الإسبانية

نأخذ اللغة الإسبانية كمثال مميز للغة غنية بالموارد كانت مدعومة سابقًا بواسطة Pangram Text، ولكنها الآن محسّنة بشكل كبير. نقيس معدل الإيجابيات الخاطئة في مجموعة متنوعة من المجالات.

مجموعة البياناتمعدل الإيجابية الكاذبة (قبل)معدل الإيجابية الكاذبة (بعد)عدد الأمثلة
تقييمات أمازون الإسبانية0.09%0%20,000
ويكي لينغوا (نص مقالة ويكي هاو)3.17%0.14%113,000
XL-SUM (مقالات إخبارية باللغة الإسبانية الأصلية)0.08%0%3,800
ويكيبيديا الإسبانية0.29%0.04%67,000
اللغة الإسبانية CulturaX0.22%0.01%1,800,000
منشورات المدونة الإسبانية التي قمنا بتنسيقها يدويًا0%0%60

قمنا أيضًا بقياس معدل النتائج السلبية الخاطئة (معدل تصنيف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل خاطئ على أنها نصوص بشرية) لمختلف نماذج اللغات الكبيرة. في هذه التجربة، قمنا بوضع قائمة من المطالبات لنماذج اللغات الكبيرة لإنشاء مقالات ومشاركات مدونات ومقالات إخبارية بأطوال وأساليب متنوعة، ثم قمنا بترجمة المطالبات إلى اللغة الإسبانية. نماذج اللغات الكبيرة نفسها متعددة اللغات، لذا فهي تستجيب للتعليمات باللغة الإسبانية.

نموذجمعدل النتائج السلبية الخاطئة (قبل)معدل النتائج السلبية الخاطئة (بعد)عدد الأمثلة
GPT-4o2.1%0%1,400
كلود 3.5 سوناتة0.7%0%1,400
كلود 3 أوبوس1.05%0%1,400
جيميني 1.5 برو2.85%0%1,400

كما نرى، يحقق نموذجنا المحدث كشفًا مثاليًا عبر جميع نماذج اللغة الكبيرة (LLM) التي تم اختبارها، مما يمثل تحسنًا كبيرًا عن الإصدار السابق.

المقارنة المعيارية: العربية واليابانية

اثنتان من اللغات التي ركزنا على تحسينها على نطاق واسع في العالم، ولكنهما في الواقع أقل شيوعًا على الإنترنت، وهما العربية واليابانية.

مجموعة البياناتمعدل الإيجابية الكاذبة باللغة العربيةمعدل الإيجابية الكاذبة اليابانيةأمثلة باللغة العربيةأمثلة يابانية
تقييمات أمازون0%0%غير متوفر20,000
AR-AES (كتابة الطلاب العرب)0%غير متوفر2,000غير متوفر
ويكي لينغوا (نص مقالة ويكي هاو)0.58%0.55%29,00012,000
XL-SUM (مقالات إخبارية باللغة الأصلية)0%0%4,000733
ويكيبيديا0.09%0.009%31,00096,000
CulturaX0.08%0.21%1,785,0001,409,000
منشورات المدونة التي قمنا بتنسيقها يدويًا0%0%6060

لم نكن ندعم هاتين اللغتين من قبل، لذا كانت معدلات النتائج السلبية الخاطئة مرتفعة للغاية. أما الآن، فنحن نستطيع التنبؤ بشكل موثوق باللغتين العربية واليابانية اللتين تم إنشاؤهما بواسطة الذكاء الاصطناعي.

نموذجالعربية FNRاليابانية FNR
GPT-4o0%0%
كلود 3.5 سوناتة0%0%
كلود 3 أوبوس0%0%
جيميني 1.5 برو0%0.21%

كما نرى، يحقق نموذجنا المحدث كشفًا شبه مثالي عبر جميع نماذج اللغة الكبيرة (LLM) التي تم اختبارها لكل من اللغتين العربية واليابانية، مع معدل خطأ سلبي طفيف بنسبة 0.21٪ فقط لـ Gemini 1.5 Pro في اللغة اليابانية.

نتائج اختبار اللغة الكاملة متاحة عند الطلب.

ماذا بعد؟

على الرغم من أن أداءنا قوي في النصوص الأصلية على الويب، إلا أن نموذجنا يواجه أحيانًا صعوبة في اكتشاف "لغة الترجمة" - وهي النصوص المترجمة بشكل سيئ أو التي لا تبدو طبيعية. ومما يزيد الأمر سوءًا، أن الكثير من الناس يستخدمون الآن نماذج LLM مثل ChatGPT مباشرة في مهام الترجمة. هل يجب تصنيف النصوص المترجمة بواسطة LLM على أنها بشرية أم اصطناعية؟ هذا يعتمد على مدى ثقل الترجمة، وكذلك على حالة استخدام التطبيق النهائي. قد يعتبر مدرس اللغة الإسبانية استخدام الترجمة الآلية في واجب ما بمثابة غش أكاديمي، ولكن قد يرغب ناشر ما في السماح بالأعمال المترجمة من خلال عملية ضمان الجودة الخاصة به. تعمل Pangram بنشاط على فهم النص المترجم باعتباره "طريقة ثالثة" تقع في مكان ما بين البشر والذكاء الاصطناعي، وتوفير المزيد من المعلومات لمستخدمينا حتى يتمكن مستهلكو نموذجنا من اتخاذ القرار المناسب لهم.

هل لديك المزيد من الأسئلة؟ اتصل بنا على info@pangram.com!

اشترك في نشرتنا الإخبارية
نشارك تحديثات شهرية حول أبحاثنا في مجال الكشف عن الذكاء الاصطناعي.