الكشف عن الذكاء الاصطناعي لفرق التعلم الآلي والبيانات

أداة الكشف عن الذكاء الاصطناعي لمهندسي التعلم الآلي وعلماء البيانات

تحسين تدريب النماذج اللغوية الكبيرة (LLM) واختيار البيانات. تجنب انهيار النموذج من خلال تصفية النصوص الاصطناعية من مجموعات بيانات التدريب المسبق أو الضبط الدقيق بدقة تصل إلى 99.98٪ وأداء واجهة برمجة التطبيقات (API) عالي الإنتاجية.

صممه باحثون من جوجل وتيسلا وجامعة ستانفورد. تم التحقق من صحته من قبل مؤتمر ICLR وجامعة ماريلاند.

filter_pipeline.py
from pangram import Pangram

# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []

for doc in training_corpus:
  result = client.predict(doc.text)
  if result['fraction_ai'] < 0.3:
    clean_corpus.append(doc)

print(f"Corpus: {len(clean_corpus)} clean docs")
تحظى بثقةالعلامات التجارية العالمية لـ
قماشجوجل كلاسمQuoraتريموشركة الشفافيةنيوزغاردChatPDFمميزهاروالأفقمقتبسالمراقبمدرسون جامعيونتم التحقق من كتاباتيVibegradeWHEWikiEduإنسبيراقماشجوجل كلاسمQuoraتريموشركة الشفافيةنيوزغاردChatPDFمميزهاروالأفقمقتبسالمراقبمدرسون جامعيونتم التحقق من كتاباتيVibegradeWHEWikiEduإنسبيرا

حالات الاستخدام

لا تقم بتدريب نماذجك
باستخدام بيانات غير صحيحة.

النصوص الاصطناعية تلوث قواعد البيانات العامة. قم بتصفية المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من مسارات التدريب الخاصة بك باستخدام محرك الكشف الأكثر دقة للحفاظ على نقاء المجموعة النصية.

تحليل البيانات باستخدام الذكاء الاصطناعي

منع انهيار النموذج

يؤدي التدريب التكراري على المحتوى الذي تولده الذكاء الاصطناعي إلى تدهور أداء النموذج وتقليص التنوع. حدد المحتوى الذي كتبته الذكاء الاصطناعي وقم بتصفيته من مسارات استخراج البيانات لديك لضمان نقاء المجموعة النصية.

التحقق من RLHF

التحقق من مدخلات RLHF

تأكد من أن بيانات "التعليقات البشرية" (RLHF) الخاصة بك تأتي فعلاً من بشر. اكتشف ما إذا كان العاملون في منصات العمل الجماعي يستخدمون ChatGPT لإنشاء ردود لمهام الضبط الدقيق الخاصة بك.

التحليل التفصيلي

قابلية التفسير على المستوى الجزئي

لا تكتفِ بتصنيف ثنائي. توفر واجهة برمجة التطبيقات (API) المتميزة الخاصة بنا احتمالات على مستوى الرموز، مما يتيح لك الاحتفاظ بالشرائح التي تم تحريرها يدويًّا مع تجاهل "البيانات غير الدقيقة" المصطنعة بالكامل.

النهج الفني

نموذج يمكنك الوثوق به

صُمم هذا النموذج للمهندسين الذين يحتاجون إلى الثقة في عمليات تصفية البيانات التي يقومون بها. ويتناول نموذجنا مشكلات النتائج الإيجابية الخاطئة، ومقاومة الهجمات الخبيثة، ومخرجات الذكاء الاصطناعي المتطورة.

التعدين السلبي الصعب

نقوم بالتدريب على "النتائج السلبية المؤكدة" — أي النصوص البشرية التي تتسم بأسلوب رسمي أو متكرر — لتقليل النتائج الإيجابية الخاطئة إلى أدنى حد وضمان عدم استبعاد البيانات البشرية القيمة.

المقاومة في بيئة تنافسية

تتعامل Pangram مع المحتوى الذي تم إعادة صياغته أو تعديله بواسطة الذكاء الاصطناعي. وقد تم تدريب نماذجنا على التعامل مع "أدوات إضفاء الطابع البشري" والهجمات التنافسية من أجل الكشف عن النصوص الاصطناعية المُشوشة.

التأهب للمستقبل

يكتشف النصوص الصادرة عن أحدث النماذج، بما في ذلك GPT-5 وClaude 3.5 وLlama 3، مما يضمن بقاء مرشحاتك في صدارة أحدث ما توصلت إليه التكنولوجيا (SOTA).

التكامل

مصمم خصيصًا لمسار بيانات "
" الخاص بك

01

حزمة أدوات تطوير البرامج (SDK) لـ Python

قم بتثبيت pangram-sdk ودمج ميزة الكشف في مسارات Airflow أو Databricks الخاصة بك باستخدام بضع أسطر من التعليمات البرمجية فقط. تم تحسينه لتجميع الاتصالات ومعالجة الأخطاء.

عرض المستندات →

02

واجهة برمجة تطبيقات (API) لـ «
» عالية الإنتاجية

معالجة مجموعات البيانات الضخمة بزمن انتقال قصير. تدعم بنيتنا التحتية المعالجة المجمعة وتضمن معدل نقل البيانات، حيث تتعامل مع ملايين الطلبات لعمليات استخراج البيانات على نطاق المؤسسات.

الحصول على مفتاح API →

03

الأمن والامتثال لمعايير "
"

حاصلون على شهادة SOC 2 من النوع 2 بالكامل. نقدم نقاط نهاية خاصة وسياسات صارمة للاحتفاظ بالبيانات — ولا نستخدم أبدًا مدخلاتك الخاصة في التدريب.

مزيد من المعلومات →

الأسئلة الشائعة

الأسئلة الشائعة حول الكشف عن الذكاء الاصطناعي

أسئلة شائعة حول الكشف عن الذكاء الاصطناعي موجهة لمهندسي التعلم الآلي
وعلماء البيانات.

تم تدريب نموذجنا على مجموعة بيانات متنوعة ومسجلة الملكية تضم ملايين الوثائق المقترنة بين البشر والذكاء الاصطناعي. ونحن نستخدم التعلم النشط لاستهداف الحالات الاستثنائية، وبشكل خاص للحد من التحيز ضد الكُتّاب الذين يتحدثون الإنجليزية كلغة ثانية.
تُرجع واجهة برمجة التطبيقات (API) قيمة "تقدير التنبؤ" (تتراوح بين 0.0 و1.0) وتصنيفًا فئويًا. وتوفر نقاط النهاية المتقدمة تحليلًا على مستوى النوافذ لتصور "التقطع" وأنماط الصياغة في جميع أنحاء المستند.
لا. بالنسبة للعملاء من الشركات، نقدم ضمانات بعدم الاحتفاظ بالبيانات، حيث تتم معالجة البيانات في الذاكرة ويتم حذفها فورًا بعد إجراء التقييم لضمان الخصوصية.
نعم. نحن نُعيد تدريب مصنفنا باستمرار على النتائج الصادرة عن أحدث النماذج (مثل Gemini Ultra و GPT-4) في غضون أيام من إصدارها.
يتم تدريب نماذجنا خصيصًا لمواجهة الهجمات العدائية و«أدوات إضفاء الطابع البشري» التي تسعى إلى إخفاء النصوص الاصطناعية. ومن خلال استخدام «التعدين السلبي الصارم» أثناء التدريب، نحدّ من حالات الإيجابية الكاذبة في النصوص البشرية ذات الأسلوب الرسمي.

نعم. يمكنك تثبيت pangram-sdk لدمج ميزة الكشف في مسارات Airflow أو Databricks باستخدام بضع أسطر من التعليمات البرمجية فقط. تم تحسين واجهة برمجة التطبيقات (API) الخاصة بنا لتناسب عمليات استخراج البيانات المؤسسية عالية الإنتاجية، حيث تدعم ملايين الطلبات بزمن انتقال منخفض.

على عكس الكاشفات الثنائية، يوفر Pangram احتمالات على مستوى الرموز. تتيح لك هذه القابلية للتفسير التفصيلي تحديد المقاطع التي تم تحريرها يدويًا والاحتفاظ بها، مع تصفية "البيانات غير المرغوب فيها" الاصطناعية بالكامل من مجموعات بيانات التدريب الخاصة بك.
يساعد استخدام Pangram في منع انهيار النماذج. فمن خلال تصفية المحتوى المتكرر الذي تولده الذكاء الاصطناعي من مسارات استخراج البيانات لديك، يمكنك الحفاظ على نقاء المجموعة النصية وضمان عدم تدهور أداء نماذجك أو تنوعها نتيجة التدريب على بيانات غير صالحة.

نظِّف بيانات التدريب الخاصة بك اليوم

تجنب انهيار النموذج، وتحقق من مدخلات RLHF، وقم بتصفية المحتوى المصطنع من مجموعات البيانات الخاصة بك بدقة تصل إلى 99.98%.