KI-Erkennung für ML- und Datenteams

KI-Detektor für ML-Ingenieure und Datenwissenschaftler

Optimieren Sie das Training von LLM-Modellen und die Datenauswahl. Verhindern Sie den Modellkollaps, indem Sie synthetischen Text aus Ihren Datensätzen für das Vortraining oder die Feinabstimmung mit einer Genauigkeit von 99,98 % und einer API-Leistung mit hohem Durchsatz herausfiltern.

Entwickelt von Forschern von Google, Tesla und der Stanford University. Validiert durch die ICLR und die University of Maryland.

filter_pipeline.py
from pangram import Pangram

# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []

for doc in training_corpus:
  result = client.predict(doc.text)
  if result['fraction_ai'] < 0.3:
    clean_corpus.append(doc)

print(f"Corpus: {len(clean_corpus)} clean docs")

e globale Marken vertrauen uns
LeinwandGoogle-KlassenzimmerQuoraTremauDas TransparenzunternehmenNewsguardChatPDFEmpfohlenHaroHorizontZitiertDer AufseherVarsity-TutorenMeine Texte wurden überprüftVibegradeWHEWikiEduLeinwandGoogle-KlassenzimmerQuoraTremauDas TransparenzunternehmenNewsguardChatPDFEmpfohlenHaroHorizontZitiertDer AufseherVarsity-TutorenMeine Texte wurden überprüftVibegradeWHEWikiEdu

Anwendungsfälle

Trainieren Sie Ihre Modelle
nicht mit fehlerhaften Daten.

Synthetischer Text verunreinigt öffentliche Datensätze. Filtern Sie KI-generierte Inhalte mit der präzisesten KI-Erkennungs -Engine aus Ihren Trainingspipelines heraus, um die Reinheit Ihres Korpus zu gewährleisten.

KI-Datenanalyse

Modellkollaps verhindern

Das wiederholte Trainieren mit KI-generierten Inhalten beeinträchtigt die Modellleistung und die Vielfalt. Identifizieren und filtern Sie KI-generierte Inhalte aus Ihren Scraping-Pipelines, um die Reinheit des Korpus sicherzustellen.

RLHF-Überprüfung

RLHF-Eingaben überprüfen

Stellen Sie sicher, dass Ihre RLHF-Daten (Real-Life Human Feedback) tatsächlich von Menschen stammen. Erkennen Sie, ob Crowd-Worker ChatGPT nutzen, um Antworten für Ihre Feinabstimmungsaufgaben zu generieren.

Detaillierte Analyse

Detaillierte Interpretierbarkeit

Geben Sie sich nicht mit einer binären Einstufung zufrieden. Unsere Premium-API liefert Wahrscheinlichkeitswerte auf Token-Ebene, sodass Sie von Menschen bearbeitete Segmente beibehalten und vollständig synthetische „Slop“-Segmente verwerfen können.

Technischer Ansatz

Ein Modell, auf das Sie
vertrauen können

Entwickelt für Ingenieure, die sich auf ihre Datenfilterung verlassen müssen. Unser Modell befasst sich mit Fehlalarmen, Widerstandsfähigkeit gegen manipulative Angriffe und sich weiterentwickelnden KI-Ergebnissen.

Hartes Negativ-Mining

Wir trainieren mit „Hard Negatives“ – also Texten, die stilistisch formell oder repetitiv sind –, um Fehlalarme zu minimieren und sicherzustellen, dass Sie keine wertvollen menschlichen Daten verwerfen.

Robustheit gegenüber Angriffen

Pangram verarbeitet umformulierte oder modifizierte KI-Inhalte. Unsere Modelle wurden auf „Humanizer“ und adversarische Angriffe trainiert, um verschleierten synthetischen Text zu erkennen.

Zukunftssicherung

Erkennt Texte der neuesten Modelle, darunter GPT-5, Claude 3.5 und Llama 3, und stellt so sicher, dass Ihre Filter dem aktuellen Stand der Technik immer einen Schritt voraus sind.

Integration

Entwickelt für Ihre Datenpipeline bei „

01

Python-SDK

Installieren Sie pangram-sdk und integrieren Sie die Erkennung mit nur wenigen Zeilen Code in Ihre Airflow- oder Databricks-Pipelines. Optimiert für Verbindungspooling und Fehlerbehandlung.

Dokumente anzeigen →

02

API für Hochdurchsatz-

Verarbeiten Sie riesige Datensätze mit geringer Latenz. Unsere Infrastruktur unterstützt die Stapelverarbeitung und garantiert einen hohen Durchsatz, sodass Millionen von Anfragen für Scraping-Vorgänge in Unternehmen bewältigt werden können.

API-Schlüssel abrufen →

03

Sicherheit und Einhaltung der Vorschriften des „

Vollständig nach SOC 2 Typ 2 zertifiziert. Wir bieten private Endpunkte und strenge Richtlinien zur Datenaufbewahrung – wir trainieren niemals mit Ihren firmeneigenen Eingaben.

Weitere Informationen →

Häufig gestellte Fragen

Häufig gestellte Fragen zur KI-Erkennung

Häufige Fragen zur KI-Erkennung für ML-Ingenieure
und Datenwissenschaftler.

Unser Modell wurde anhand eines vielfältigen, firmeneigenen Datensatzes mit Millionen von Dokumentenpaaren – bestehend aus von Menschen verfassten und von KI erstellten Texten – trainiert. Wir nutzen aktives Lernen, um Grenzfälle gezielt zu behandeln und Vorurteile gegenüber Autoren mit Englisch als Zweitsprache gezielt abzubauen.
Die API gibt einen Vorhersagewert (0,0 bis 1,0) und eine kategoriale Kennzeichnung zurück. Erweiterte Endpunkte bieten Analysen auf Fensterebene, um „Burstiness“ und Syntaxmuster im gesamten Dokument zu visualisieren.
Nein. Für Unternehmenskunden bieten wir Garantien ohne Datenspeicherung an, bei denen die Daten im Arbeitsspeicher verarbeitet und unmittelbar nach der Auswertung gelöscht werden, um den Datenschutz zu gewährleisten.
Ja. Wir trainieren unseren Klassifikator kontinuierlich mit den Ergebnissen neuer Spitzenmodelle (wie Gemini Ultra und GPT-4) – und zwar bereits wenige Tage nach deren Veröffentlichung.
Unsere Modelle werden speziell auf adversarische Angriffe und „Humanizer“ trainiert, die versuchen, synthetischen Text zu verschleiern. Durch den Einsatz von „Hard Negative Mining“ während des Trainings minimieren wir Fehlalarme bei stilistisch formellen menschlichen Texten.

Ja. Sie können das pangram-sdk installieren, um die Erkennung mit nur wenigen Zeilen Code in Airflow- oder Databricks-Pipelines zu integrieren. Unsere API ist für Scraping-Vorgänge in Unternehmen mit hohem Durchsatz optimiert und unterstützt Millionen von Anfragen bei geringer Latenz.

Im Gegensatz zu binären Detektoren liefert Pangram Wahrscheinlichkeitswerte auf Token-Ebene. Dank dieser detaillierten Auswertbarkeit können Sie von Menschen bearbeitete Segmente identifizieren und beibehalten, während Sie vollständig synthetischen „Slop“ aus Ihren Trainingsdatensätzen herausfiltern.
Der Einsatz von Pangram hilft, einen Modellkollaps zu verhindern. Indem Sie rekursiv von KI generierte Inhalte aus Ihren Scraping-Pipelines herausfiltern, bewahren Sie die Reinheit Ihres Korpus und stellen sicher, dass Ihre Modelle nicht an Leistung oder Vielfalt einbüßen, weil sie auf fehlerhaften Daten trainiert werden.

Bereinigen Sie noch heute Ihre Trainingsdaten

Verhindern Sie den Modellkollaps, überprüfen Sie RLHF-Eingaben und filtern Sie synthetische Inhalte mit einer Genauigkeit von 99,98 % aus Ihren Datensätzen heraus.