الأخبار

تقديم "أوبن بانغرام"

كاثرين تاي

24 مارس 2026

جدول المحتويات

🤗 النماذج ومجموعات البيانات
كود المصدر
لماذا نطلق نسخة مفتوحة من Pangram؟
تحرير العدسة وكشف المساعدة بالذكاء الاصطناعي
مجموعات البيانات
النماذج
التقييمات
مجموعة الاختبار داخل المجال
نتائج التصنيف الثنائي
نتائج التصنيف الثلاثي
المجال المستبعد (رسائل البريد الإلكتروني الخاصة بشركة إنرون)
نتائج التصنيف الثنائي
نتائج التصنيف الثلاثي
نموذج تم استخدامه (Llama 3.3 70B Instruct)
نتائج التصنيف الثنائي
نتائج التصنيف الثلاثي
اختبارات الأداء من جهات خارجية
اللغة الإنجليزية كلغة ثانية (ليانغ وآخرون، 2023)
أجهزة الكشف عن البشر (راسل وآخرون، 2024)
RAID، عينة عشوائية مكونة من 10 آلاف (Dugan et al., 2024)
مجموعة بيانات Grammarly
في أي مجال ينبغي استخدام Open Pangram؟
في أي الحالات لا ينبغي استخدام "Open Pangram"؟

🤗 النماذج ومجموعات البيانات

كود المصدر

نحن فخورون ومتحمسون لمشاركة نسختين من Pangram تستندان إلى تقنية EditLens التي اقترحناها في ورقتنا البحثية المقدمة في مؤتمر ICLR لعام 2026. وهذان النموذجان الخفيفان متاحان للاستخدام غير التجاري بموجب ترخيص CC BY-NC-SA 4.0 ، ويمكن تشغيلهما على جهاز MacBook.

لماذا نطلق نسخة مفتوحة من Pangram؟

لقد كنا دائمًا مهتمين بمستجدات مجال الكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، ونرغب في تمكين الباحثين الآخرين من إحراز تقدم في هذا المجال. لقد ساهمنا سابقًا في المجتمع من خلال نشر ورقة بحثية بعنوان EditLens تعرض طرقًا مبتكرة لتحليل وتصنيف المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، وإجراء تحليلات واسعة النطاق على المراجعات النظيرة والصحف الأمريكية، وتقديم منح API للباحثين. من خلال إصدار نقاط التحقق لنموذج EditLens، ومجموعة بيانات التدريب، والكود المصدري، نأمل أن يتمكن الباحثون من مواصلة البناء على أساس عملنا.

تحرير العدسة وكشف المساعدة بالذكاء الاصطناعي

يجب أن يتطور الكشف عن الذكاء الاصطناعي بالتوازي مع تطور استخدام الذكاء الاصطناعي التوليدي. فقد كشفت دراسة حديثة أجرتها OpenAI أن ثلثي جميع الطلبات المتعلقة بالكتابة الموجهة إلى ChatGPT تتضمن تعديل نص مقدم من المستخدم بدلاً من إنشائه من الصفر. في ضوء هذا النموذج الناشئ الذي يجمع بين البشر والذكاء الاصطناعي في تأليف النصوص، قمنا بتطوير إطار عمل جديد للكشف يأخذ في الاعتبار مدى مساهمة الذكاء الاصطناعي في النص. ربما لاحظ مستخدمو Pangram أن نموذجنا يعرض نتائج مثل "بمساعدة طفيفة من الذكاء الاصطناعي" أو "بمساعدة معتدلة من الذكاء الاصطناعي". أصبحت هذه التصنيفات ممكنة بفضل التكنولوجيا المعروضة في ورقة بحثنا في ICLR 2026،"EditLens: Quantifying the Extent of AI Editing in Text"، التي تقدم نموذجًا للكشف عن الذكاء الاصطناعي يعطي درجة من 0 إلى 1، حيث تشير 0 إلى نص مكتوب بالكامل بواسطة البشر، بينما تشير 1 إلى نص تم إنشاؤه بالكامل بواسطة الذكاء الاصطناعي. مع إصدار مجموعة البيانات الخاصة بنا ورمز المصدر، يمكن لأي شخص الآن تدريب نموذج EditLens الخاص به.

مجموعات البيانات

نحن نطلق مجموعة بيانات EditLens التي تضم 60 ألف نموذج للتدريب، و2.4 ألف نموذج للتحقق، و6 آلاف نموذج للاختبار. وتتألف كل مجموعة من نصوص كُتبت بالكامل بواسطة البشر، ونصوص تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي، ونصوص تم تحريرها بواسطة الذكاء الاصطناعي، وذلك من 4 مجالات. تم إنشاء النصوص التي تم تحريرها بواسطة الذكاء الاصطناعي من خلال تطبيق موجه تحرير على نص مصدر مكتوب بواسطة البشر من أحد المجالات الخمسة التالية: الأخبار (Narayan et al., 2018 و See et al., 2017)، والكتابة الإبداعية (Fan et al., 2018)، ومراجعات Amazon (Zhang et al., 2015)، مراجعات Google (Li et al., 2022)، ومحتوى الويب المتعلق بالتعليم (Lozhkov et al., 2024).

كانت النماذج المستخدمة لإنشاء النصوص التي تم إنتاجها وتحريرها بواسطة الذكاء الاصطناعي هي نماذج OpenAI gpt-4.1-2025-04-14 ، شركة أنثروبيك كلود-سونيت-4-20250514 ، و Google’sجيميني-2.5-فلاش.

تتضمن مجموعة بيانات EditLens أيضًا قسمين للتقييم خارج المجال: 6 آلاف مثال من مجال نصي محجوب (رسائل البريد الإلكتروني) ونسخة من قسم الاختبار التي أنشأتها شركة Meta Llama-3.3-70B-Instruct-Turbo .

بالإضافة إلى ذلك، ننشر مجموعة بيانات جمعناها تضم ما يقرب من 1.8 ألف نص تم تحريرها باستخدام Grammarly. تتألف هذه المجموعة من 9 تعديلات مختلفة لـ 200 نص أصلي كُتبت بواسطة البشر. كل تعديل من هذه التعديلات (مثل «بسّط هذا») هو اقتراح تعديل مقدم من معالج النصوص المدمج في Grammarly. تم أخذ عينات من النصوص المصدرية الـ 200 المكتوبة بواسطة البشر من إحدى مجموعات البيانات التالية: Persuade 2.0 (Crossley et al., 2024)، ELLIPSE (Crossley et al., 2023)، BAWE (Nesi et al., 2004)، ICNALE (Ishikawa et al., 2007)، CLASSE (Crossley et al., 2024)، أو PIILO (Holmes et al., 2023).

يمكنك استكشاف مجموعتي البيانات هاتين على HuggingFace.

النماذج

بانجرام/تحرير العدسة_Llama-3.2-3B تم ضبطه باستخدام QLoRA مع طول تسلسل أقصى يبلغ 1024 رمزًا. ويحتوي النموذج الأساسي على 3 مليارات معلمة.

بانجرام/تحرير_العدسة_روبرتا-كبير، وهو نموذج يحتوي على 355 مليون معلمة، تم ضبطه بدقة باستخدام تسلسل يبلغ طوله الأقصى 512 رمزًا.

تم تدريب كلا النموذجين لمدة دورة واحدة وفقًا للطريقة الموضحة في ورقة EditLens البحثية. يمكن العثور على المعلمات الفائقة الإضافية ورمز التدريب لكلا النموذجين في مستودع GitHub الخاص بـ EditLens. يمكنك تنزيل نقاط تفتيش النموذج من HuggingFace.

التقييمات

بالنسبة لكل من التصنيف الثنائي والثلاثي، نحدد القيم الحدية من خلال المعايرة على مجموعة التحقق التي تم استبعادها.

فيما يتعلق بالتقييمات الثنائية، نحدد العتبة التي تزيد من درجة F1 إلى أقصى حد لتمييز النصوص المكتوبة بالكامل بواسطة البشر عن النصوص التي تم إنشاؤها بالكامل بواسطة الذكاء الاصطناعي. ولا توجد أي نصوص تم تحريرها بواسطة الذكاء الاصطناعي في التقييمات الثنائية.

بالنسبة للتقييمات الثلاثية، نحدد عتبتين. أولاً، نقسم بيانات التقييم إلى ثلاث فئات: «بشري»، و«الذكاء الاصطناعي»، و«معدّل بواسطة الذكاء الاصطناعي». ثم نحدد عتبة دنيا تفصل فئة «البشري» عن مجموع بيانات [الذكاء الاصطناعي، المعدّل بواسطة الذكاء الاصطناعي]، وعتبة عليا تفصل فئة «الذكاء الاصطناعي» عن مجموع بيانات [البشري، المعدّل بواسطة الذكاء الاصطناعي]. ويتم تحديد كلتا العتبتين من خلال تعظيم درجة F1.

مجموعة الاختبار داخل المجال

نتائج التصنيف الثنائي

2,038 نصًا من تأليف البشر و2,046 نصًا من إنتاج الذكاء الاصطناعي

جهاز الكشف	ماكرو F1	FPR	FNR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	1.000	0.000	0.000
Pangram OSS: editlens_Llama-3.2-3B	1.000	0.000	0.000
Pangram OSS: editlens_roberta-large	0.997	0.002	0.003
Fast-DetectGPT	0.895	0.121	0.088
منظار	0.886	0.128	0.101

نتائج التصنيف الثلاثي

2,038 نصًا من تأليف البشر، و2,046 نصًا من تأليف الذكاء الاصطناعي، و2,031 نصًا تم تحريره بواسطة الذكاء الاصطناعي

جهاز الكشف	الدقة	ماكرو F1	F1 البشري	AI F1	تم تحريره بواسطة الذكاء الاصطناعي - فورمولا 1
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.920	0.920	0.926	0.957	0.876
Pangram OSS: editlens_Llama-3.2-3B	0.895	0.895	0.895	0.948	0.842
Pangram OSS: editlens_roberta-large	0.881	0.881	0.900	0.923	0.819
Fast-DetectGPT	0.585	0.545	0.246	0.831	0.558
منظار	0.569	0.523	0.213	0.811	0.545

المجال المستبعد (رسائل البريد الإلكتروني الخاصة بشركة إنرون)

نتائج التصنيف الثنائي

1,992 نصًا بشريًا و1,847 نصًا من إنتاج الذكاء الاصطناعي

جهاز الكشف	ماكرو F1	FPR	FNR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.999	0.001	0.001
Pangram OSS: editlens_Llama-3.2-3B	0.998	0.001	0.004
Pangram OSS: editlens_roberta-large	0.966	0.001	0.068
Fast-DetectGPT	0.941	0.079	0.036
منظار	0.914	0.155	0.011

نتائج التصنيف الثلاثي

1,992 نصًا من تأليف البشر، و1,847 نصًا من تأليف الذكاء الاصطناعي، و2,308 نصًا تم تحريره بواسطة الذكاء الاصطناعي

جهاز الكشف	الدقة	ماكرو F1	F1 البشري	AI F1	تم تحريره بواسطة الذكاء الاصطناعي - فورمولا 1
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.905	0.909	0.898	0.956	0.872
Pangram OSS: editlens_Llama-3.2-3B	0.863	0.868	0.855	0.936	0.812
Pangram OSS: editlens_roberta-large	0.695	0.673	0.847	0.515	0.657
Fast-DetectGPT	0.625	0.589	0.261	0.886	0.619
منظار	0.618	0.575	0.266	0.857	0.601

نموذج تم استخدامه (Llama 3.3 70B Instruct)

نتائج التصنيف الثنائي

2,038 نصًا من تأليف البشر و2,038 نصًا من تأليف الذكاء الاصطناعي

جهاز الكشف	ماكرو F1	FPR	FNR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	1.000	0.000	0.000
Pangram OSS: editlens_Llama-3.2-3B	1.000	0.000	0.000
Pangram OSS: editlens_roberta-large	0.987	0.002	0.025
Fast-DetectGPT	0.939	0.121	0.000
منظار	0.936	0.128	0.000

نتائج التصنيف الثلاثي

2,038 نصًا من تأليف البشر، و2,038 نصًا من تأليف الذكاء الاصطناعي، و1,881 نصًا تم تحريره بواسطة الذكاء الاصطناعي

جهاز الكشف	الدقة	ماكرو F1	F1 البشري	AI F1	تم تحريره بواسطة الذكاء الاصطناعي - فورمولا 1
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.952	0.951	0.946	0.985	0.923
Pangram OSS: editlens_Llama-3.2-3B	0.921	0.920	0.918	0.965	0.877
Pangram OSS: editlens_roberta-large	0.860	0.859	0.908	0.879	0.791
Fast-DetectGPT	0.562	0.506	0.262	0.817	0.440
منظار	0.540	0.478	0.227	0.796	0.411

اختبارات الأداء من جهات خارجية

اللغة الإنجليزية كلغة ثانية (ليانغ وآخرون، 2023)

91 نصًا بشريًا

جهاز الكشف	FPR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.000
Pangram OSS: editlens_Llama-3.2-3B	0.055
Pangram OSS: editlens_roberta-large	0.099
منظار	0.560
Fast-DetectGPT	0.670

أجهزة الكشف عن البشر (راسل وآخرون، 2024)

150 نصًا من تأليف البشر و150 نصًا من تأليف الذكاء الاصطناعي

جهاز الكشف	ماكرو F1	FPR	FNR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	1.000	0.000	0.000
Pangram OSS: editlens_Llama-3.2-3B	0.987	0.027	0.000
Pangram OSS: editlens_roberta-large	0.960	0.020	0.060
منظار	0.846	0.087	0.220
Fast-DetectGPT	0.735	0.487	0.013

RAID، عينة عشوائية مكونة من 10 آلاف (Dugan et al., 2024)

2,058 نصًا من تأليف البشر و7,942 نصًا من إنتاج الذكاء الاصطناعي

كاشف	ماكرو F1	FPR	FNR
بانجرام 3.2 (الطراز الحالي قيد الإنتاج)	0.992	0.002	0.007
Fast-DetectGPT	0.941	0.078	0.028
منظار	0.939	0.100	0.024
Pangram OSS: editlens_Llama-3.2-3B	0.930	0.003	0.062
Pangram OSS: editlens_roberta-large	0.736	0.007	0.288

مجموعة بيانات Grammarly

في هذه الرسوم البيانية الصندوقية، نعرض توزيع الدرجات على مجموعة بيانات Grammarly التي جمعناها، مجمعة حسب نوع التعديل المطبق. ونلاحظ أن EditLens تمنح درجات منخفضة جدًا، تقارب الدرجات التي يمنحها البشر، لتعديلات مثل "تصحيح أي أخطاء"، والتي تتعلق بتصحيحات بسيطة في القواعد النحوية والإملائية، في حين تُمنح التعديلات "الإضافية" مثل "اجعلها أكثر تفصيلاً" درجات أعلى.

توزيع الدرجات حسب تعليمات التحرير في Pangram OSS: editlens_Llama-3.2-3B

توزيع الدرجات حسب تعليمات التحرير في Pangram OSS: editlens_roberta-large

في أي مجال ينبغي استخدام Open Pangram؟

نشجع الباحثين على استخدام نماذج "Open Pangram" كأساس مرجعي في أبحاثهم المتعلقة بالكشف عن الذكاء الاصطناعي. ونأمل أن تتيح مجموعات البيانات وشفرة المصدر للباحثين توسيع نطاق عملنا.

في أي الحالات لا ينبغي استخدام "Open Pangram"؟

لا يُسمح بالاستخدام التجاري لـ Open Pangram. ويجب عدم استخدام نماذج Open Pangram لفرض أي نوع من سياسات استخدام الذكاء الاصطناعي في الأوساط التعليمية أو المهنية. للحصول على نموذج أكثر دقة يتميز بمعدل إيجابي كاذب هو الأفضل في القطاع، يرجى الاتصال بنا للاطلاع على عروضنا المخصصة للمؤسسات أو للحصول على منح واجهة برمجة التطبيقات (API) للأغراض البحثية.

كاثرين تاي

كاثرين تايعالمة أبحاث مؤسسة في مجال الذكاء الاصطناعي

كاثرين تاي هي الباحثة العلمية المؤسسة في مجال الذكاء الاصطناعي في Pangram Labs، وهي شركة ناشئة متخصصة في أنظمة الكشف القائمة على الذكاء الاصطناعي. وقد حصلت على درجة الدكتوراه في علوم الحاسوب تحت إشراف موهيت إيير في جامعة ماساتشوستس أمهرست في ديسمبر 2025، حيث ركزت أبحاثها على تقييم النماذج اللغوية الكبيرة (LLMs) في المهام المتعلقة بالتحليل الأدبي.

المزيد من كاثرين تاي

مقالات ذات صلة

بيان بشأن الأمر التنفيذي الصادر عن بايدن بشأن سلامة الذكاء الاصطناعي

بيان بشأن الأمر التنفيذي الصادر عن بايدن بشأن سلامة الذكاء الاصطناعي

أصدرت إدارة بايدن اليوم معايير جديدة تتعلق بسلامة وأمن الذكاء الاصطناعي، بما في ذلك توجيه بشأن كشف المحتوى الذي يستخدم الذكاء الاصطناعي.

ماكس سبيرو31 أكتوبر 2023

تم قبول EditLens في مؤتمر ICLR 2026

تم قبول EditLens في مؤتمر ICLR 2026

تم قبول أحدث ورقة بحثية تقنية لنا، بعنوان «EditLens»، للنشر في مؤتمر ICLR، وهو أحد أبرز المجلات المتخصصة في مجال التعلم الآلي.

برادلي إيمي29 يناير 2026

فهم قانون الاتحاد الأوروبي الجديد المتعلق بالذكاء الاصطناعي

فهم قانون الاتحاد الأوروبي الجديد المتعلق بالذكاء الاصطناعي

في الأسبوع الماضي، أقر البرلمان الأوروبي «قانون الذكاء الاصطناعي» (AI Act)، وهو إطار شامل يتعين على الدول الأعضاء في الاتحاد الأوروبي اتباعه في تنظيم منتجات وخدمات الذكاء الاصطناعي.

آشان مارلا23 مارس 2024

لماذا يحدد "بانغرام" حدًا أدنى لعدد الكلمات؟

لماذا يحدد "بانغرام" حدًا أدنى لعدد الكلمات؟

ربما لاحظت مؤخرًا أن أداة الكشف عن الذكاء الاصطناعي في Pangram تحدد حدًا أدنى لعدد الكلمات قبل أن تتنبأ بما إذا كان النص من صنع الذكاء الاصطناعي أم من صنع الإنسان. لماذا؟

إلياس مسرور23 مايو 2025

أصبح الكشف عن الذكاء الاصطناعي أفضل بكثير: نعلن عن إطلاق Checkfor.ai

أصبح الكشف عن الذكاء الاصطناعي أفضل بكثير: نعلن عن إطلاق Checkfor.ai

نطلق اليوم Checkfor.ai، وهي أداة للكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بمجرد النسخ واللصق.

ماكس سبيرو وبرادلي إيمي12 أكتوبر 2023

كيف يحاول الطلاب التهرب من أنظمة الكشف عن الغش التي تعتمد على الذكاء الاصطناعي

كيف يحاول الطلاب التهرب من أنظمة الكشف عن الغش التي تعتمد على الذكاء الاصطناعي

قد يقوم الطلاب بتعديل مقال أنشأته الذكاء الاصطناعي في محاولة لخداع برامج الكشف عن المحتوى المصطنع، وذلك عن طريق إدخال أخطاء نحوية وعلامات ترقيم، وحذف كلمات وعبارات معينة، وإعادة صياغة جمل وفقرات كاملة.

ليفي غولدشتاين24 أكتوبر 2025

اشترك في
لتلقي آخر أخبارنا

ابق على اطلاع بأحدث أخبارنا وعروضنا.

المنتجات

كاشف الذكاء الاصطناعي ملحق المتصفح واجهة برمجة التطبيقات تكامل مع أنظمة إدارة التعلم (LMS)أداة فحص الانتحال الكشف عن الانتحال باستخدام الذكاء الاصطناعي متعدد اللغات

للمنظمات

للمعلمين للنشر والإعلام لإدارة المحتوى للمطورين للمكاتب القانونية للجامعات للموظفين لمهندسي التعلم الآلي للمتوافقين

البحوث

كيفية عمل الكشف عن الذكاء الاصطناعي أوراق بحثية من Pangram استفسارات بحثية أبرز الأخبار النماذج الأحداث

الموارد

التعليم في مجال الذكاء الاصطناعي تحديثات المنتجات الأخبار دراسات الحالة المدونة الأسعار شروط الخدمة سياسة الخصوصية الأسئلة الشائعة حول خصوصية البيانات الحالة

الشركة

عننا اتصل بنا الوظائف الصحافة

soc2

SOC2 النوع 2

تم التحقق من قبل AssuranceLab

© 2025 Pangram. جميع الحقوق محفوظة.

info@pangram.com

انضم إلى مجتمعنا

© 2025 Pangram. جميع الحقوق محفوظة.