الكشف عن الذكاء الاصطناعي لفرق التعلم الآلي والبيانات

أداة الكشف عن الذكاء الاصطناعي لمهندسي التعلم الآلي وعلماء البيانات

حسّن تدريب النماذج اللغوية الكبيرة (LLM) واختيار البيانات. تجنب انهيار النموذج من خلال تصفية النصوص الاصطناعية من مجموعات بيانات التدريب المسبق أو الضبط الدقيق بدقة تصل إلى 99.98٪ وأداء واجهة برمجة التطبيقات (API) عالي الإنتاجية.

صممه باحثون من Google وTesla وجامعة ستانفورد. تم التحقق من صحته من قبل ICLR وجامعة ماريلاند.

filter_pipeline.py
from pangram import Pangram

# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []

for doc in training_corpus:
  result = client.predict(doc.text)
  if result['fraction_ai'] < 0.3:
    clean_corpus.append(doc)

print(f"Corpus: {len(clean_corpus)} clean docs")
موثوق بها من قبل
العلامات التجارية العالمية
قماشفصل دراسي GoogleQuoraتريماوشركة الشفافيةنيوزغاردChatPDFمميزهاروالأفقمقتبسالمراقبمدرسون جامعيونتم التحقق من كتاباتيVibegradeWHEWikiEduقماشفصل دراسي GoogleQuoraتريماوشركة الشفافيةنيوزغاردChatPDFمميزهاروالأفقمقتبسالمراقبمدرسون جامعيونتم التحقق من كتاباتيVibegradeWHEWikiEdu

حالات الاستخدام

لا تقم بتدريب نماذجك
باستخدام بيانات غير صحيحة.

النصوص الاصطناعية تلوث قواعد البيانات العامة. قم بتصفية المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من مسارات التدريب الخاصة بك باستخدام محرك الكشف الأكثر دقة للحفاظ على نقاء المجموعة النصية.

تحليل البيانات باستخدام الذكاء الاصطناعي

منع انهيار النموذج

يؤدي التدريب التكراري على المحتوى الذي تولده الذكاء الاصطناعي إلى تدهور أداء النموذج وتقليص التنوع. حدد المحتوى الذي كتبته الذكاء الاصطناعي وقم بتصفيته من مسارات استخراج البيانات لديك لضمان نقاء المجموعة النصية.

التحقق من RLHF

التحقق من مدخلات RLHF

تأكد من أن بيانات "التعليقات البشرية" (RLHF) الخاصة بك هي بالفعل من صنع البشر. اكتشف ما إذا كان العاملون في منصات العمل الجماعي يستخدمون ChatGPT لإنشاء ردود لمهام الضبط الدقيق الخاصة بك.

التحليل التفصيلي

قابلية التفسير على المستوى الجزئي

لا تكتفِ بتصنيف ثنائي. توفر واجهة برمجة التطبيقات (API) المتميزة الخاصة بنا احتمالات على مستوى الرموز، مما يتيح لك الاحتفاظ بالشرائح التي تم تحريرها يدويًا مع تجاهل "النتائج غير الدقيقة" التي تم توليدها آليًا بالكامل.

النهج الفني

نموذج يمكنك الوثوق به

صُمم هذا النموذج للمهندسين الذين يحتاجون إلى الثقة في عمليات تصفية البيانات التي يقومون بها. ويتناول نموذجنا حالات الإيجابيات الكاذبة، والمتانة في مواجهة الهجمات الخبيثة، ومخرجات الذكاء الاصطناعي المتغيرة.

التعدين السلبي الصعب

نقوم بالتدريب على "البيانات السلبية المؤكدة" — أي النصوص البشرية التي تتسم بأسلوب رسمي أو متكرر — لتقليل حالات الإيجابية الكاذبة إلى أدنى حد وضمان عدم استبعاد البيانات البشرية القيمة.

المقاومة في بيئة تنافسية

تتعامل Pangram مع المحتوى الذي تمت إعادة صياغته أو تعديله بواسطة الذكاء الاصطناعي. وقد تم تدريب نماذجنا على التعامل مع "أدوات إضفاء الطابع البشري" والهجمات التنافسية من أجل الكشف عن النصوص الاصطناعية المُشوشة.

التأهب للمستقبل

يكتشف النصوص الصادرة عن أحدث النماذج، بما في ذلك GPT-5 وClaude 3.5 وLlama 3، مما يضمن أن تظل مرشحاتك في صدارة أحدث التقنيات المتاحة حالياً.

التكامل

مصمم خصيصًا لمسار بيانات "
" الخاص بك

01

مجموعة أدوات تطوير البرامج Python

قم بتثبيت pangram-sdk ودمج ميزة الكشف في مسارات Airflow أو Databricks الخاصة بك باستخدام بضع أسطر من التعليمات البرمجية فقط. تم تحسينه لتجميع الاتصالات ومعالجة الأخطاء.

عرض المستندات →

02

واجهة برمجة تطبيقات (API) لـ «
» عالية الإنتاجية

معالجة مجموعات البيانات الضخمة بزمن انتقال منخفض. تدعم بنيتنا التحتية المعالجة المجمعة وتضمن معدل نقل البيانات، حيث تتعامل مع ملايين الطلبات لعمليات استخراج البيانات على مستوى المؤسسات.

الحصول على مفتاح API →

03

الأمن والامتثال لمعايير «
»

حاصلون على شهادة SOC 2 من النوع 2 بالكامل. نقدم نقاط نهاية خاصة وسياسات صارمة للاحتفاظ بالبيانات — ولا نستخدم أبدًا مدخلاتك الخاصة في التدريب.

تعرف على المزيد →

الأسئلة الشائعة

الأسئلة الشائعة حول الكشف عن الذكاء الاصطناعي

أسئلة شائعة حول الكشف عن الذكاء الاصطناعي موجهة لمهندسي التعلم الآلي
وعلماء البيانات.

تم تدريب نموذجنا على مجموعة بيانات متنوعة ومسجلة الملكية تضم ملايين الوثائق المقترنة بين البشر والذكاء الاصطناعي. ونحن نستخدم التعلم النشط لاستهداف الحالات الاستثنائية، وبشكل خاص للحد من التحيز ضد الكُتّاب الذين يتحدثون الإنجليزية كلغة ثانية.
تُرجع واجهة برمجة التطبيقات (API) قيمة "تقدير التنبؤ" (تتراوح بين 0.0 و1.0) وتصنيفًا فئويًا. وتوفر نقاط النهاية المتقدمة تحليلًا على مستوى النوافذ لتصور "التقطع" وأنماط الصياغة في جميع أنحاء المستند.
لا. بالنسبة للعملاء من الشركات، نقدم ضمانات بعدم الاحتفاظ بالبيانات، حيث تتم معالجة البيانات في الذاكرة ويتم حذفها فورًا بعد إجراء التقييم لضمان الخصوصية.
نعم. نحن نُعيد تدريب مصنفنا باستمرار على النتائج الصادرة عن أحدث النماذج (مثل Gemini Ultra و GPT-4) في غضون أيام من إصدارها.
يتم تدريب نماذجنا خصيصًا لمواجهة الهجمات العدائية و«أدوات إضفاء الطابع البشري» التي تسعى إلى إخفاء النصوص الاصطناعية. ومن خلال استخدام «التعدين السلبي الصارم» أثناء التدريب، نحدّ من حالات الإيجابية الكاذبة في النصوص البشرية ذات الأسلوب الرسمي.

نعم. يمكنك تثبيت pangram-sdk لدمج ميزة الكشف في مسارات Airflow أو Databricks باستخدام بضع أسطر من التعليمات البرمجية فقط. تم تحسين واجهة برمجة التطبيقات (API) الخاصة بنا لتناسب عمليات استخراج البيانات المؤسسية عالية الإنتاجية، حيث تدعم ملايين الطلبات بزمن انتقال منخفض.

على عكس الكاشفات الثنائية، يوفر Pangram احتمالات على مستوى الرموز. تتيح لك هذه القابلية للتفسير التفصيلي تحديد المقاطع التي تم تحريرها يدويًا والاحتفاظ بها، مع تصفية "البيانات غير المرغوب فيها" الاصطناعية بالكامل من مجموعات بيانات التدريب الخاصة بك.
يساعد استخدام Pangram في منع انهيار النماذج. فمن خلال تصفية المحتوى المتكرر الذي تولده الذكاء الاصطناعي من مسارات استخراج البيانات لديك، يمكنك الحفاظ على نقاء المجموعة النصية وضمان عدم تدهور أداء نماذجك أو تنوعها نتيجة التدريب على بيانات غير صالحة.

نظف بيانات التدريب الخاصة بك اليوم

تجنب انهيار النموذج، وتحقق من مدخلات RLHF، وقم بتصفية المحتوى الاصطناعي من مجموعات البيانات الخاصة بك بدقة تصل إلى 99.98%.