Détection par IA pour les équipes d'apprentissage automatique et de données

Détecteur d'IA destiné aux ingénieurs en apprentissage automatique et aux data scientists

Optimisez l'entraînement des modèles de langage à grande échelle (LLM) et la sélection des données. Évitez l'effondrement du modèle en filtrant les textes synthétiques de vos ensembles de données de pré-entraînement ou de réglage fin, avec une précision de 99,98 % et une API à haut débit.

Développé par des chercheurs de Google, Tesla et Stanford. Validé par l'ICLR et l'université du Maryland.

filter_pipeline.py
from pangram import Pangram

# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []

for doc in training_corpus:
  result = client.predict(doc.text)
  if result['fraction_ai'] < 0.3:
    clean_corpus.append(doc)

print(f"Corpus: {len(clean_corpus)} clean docs")
Reconnu pardes marques mondiales telles qu'
ToileGoogle ClassroomQuoraTremauLa société TransparencyNewsguardChatPDFEn vedetteHaroHorizonCitéLe surveillantTuteurs universitairesMa rédaction vérifiéeVibegradeWHEWikiEduToileGoogle ClassroomQuoraTremauLa société TransparencyNewsguardChatPDFEn vedetteHaroHorizonCitéLe surveillantTuteurs universitairesMa rédaction vérifiéeVibegradeWHEWikiEdu

Cas d'utilisation

Ne formez pas vos modèles
à partir de données de mauvaise qualité.

Les textes synthétiques contaminent les ensembles de données publics. Filtrez le contenu généré par l'IA de vos pipelines d'entraînement à l'aide du moteur de détection d'IA le plus précis qui soit afin de préserver la pureté de votre corpus.

Analyse de données par l'IA

Empêcher l'effondrement du modèle

L'entraînement récursif sur du contenu généré par l'IA nuit aux performances et à la diversité du modèle. Identifiez et filtrez le contenu rédigé par l'IA dans vos pipelines de scraping afin de garantir la pureté du corpus.

Vérification RLHF

Vérifier les données d'entrée du RLHF

Assurez-vous que vos données de rétroaction humaine (RLHF) proviennent bien de personnes réelles. Vérifiez si les contributeurs utilisent ChatGPT pour générer des réponses dans le cadre de vos tâches de réglage fin.

Analyse détaillée

Interprétabilité granulaire

Ne vous contentez pas d'une classification binaire. Notre API Premium fournit des probabilités au niveau des tokens, ce qui vous permet de conserver les segments révisés par des humains tout en écartant les « éléments de mauvaise qualité » entièrement synthétiques.

Approche technique

Un modèle en qui vous pouvez avoir confiance

Conçu pour les ingénieurs qui ont besoin d'avoir confiance dans le filtrage de leurs données. Notre modèle traite les faux positifs, la robustesse face aux attaques adversaires et l'évolution des résultats générés par l'IA.

Exploitation minière négative difficile

Nous utilisons des « exemples négatifs » — des textes rédigés par des humains, au style formel ou répétitif — pour réduire au minimum les faux positifs et vous éviter de rejeter des données humaines précieuses.

Robustesse face aux attaques adverses

Pangram traite les contenus générés par l'IA qui ont été paraphrasés ou modifiés. Nos modèles sont entraînés à résister aux « humaniseurs » et aux attaques adversaires afin de détecter les textes synthétiques dissimulés.

Anticiper l'avenir

Détecte le texte généré par les derniers modèles, notamment GPT-5, Claude 3.5 et Llama 3, garantissant ainsi que vos filtres restent à la pointe de la technologie.

Intégration

Conçu pour votre pipeline de données d'

01

SDK Python

Installez pangram-sdk et intégrez la détection dans vos pipelines Airflow ou Databricks en quelques lignes de code seulement. Optimisé pour la mise en pool des connexions et la gestion des erreurs.

Afficher les documents →

02

API d'
s à haut débit

Traitez des ensembles de données volumineux avec une faible latence. Notre infrastructure prend en charge le traitement par lots et garantit un débit élevé, permettant de traiter des millions de requêtes pour les opérations de scraping d'entreprise.

Obtenir une clé API →

03

Sécurité et conformité aux normes de l'

Entièrement certifié SOC 2 Type 2. Nous proposons des terminaux privés et appliquons des politiques strictes en matière de conservation des données — nous n'utilisons jamais vos données propriétaires pour l'entraînement de nos modèles.

En savoir plus →

Foire aux questions

FAQ sur la détection de l'IA

Questions fréquentes sur la détection de l'IA à l'intention des ingénieurs en apprentissage automatique
et des data scientists.

Notre modèle a été entraîné à partir d'un ensemble de données diversifié et exclusif, composé de millions de paires de documents rédigés par des humains et par l'IA. Nous recourons à l'apprentissage actif pour traiter les cas limites et réduire spécifiquement les biais à l'encontre des auteurs dont l'anglais n'est pas la langue maternelle.
L'API renvoie un score de prédiction (compris entre 0,0 et 1,0) et une étiquette catégorielle. Les points de terminaison avancés permettent une analyse au niveau des segments afin de visualiser les « pics d'activité » et les schémas syntaxiques dans l'ensemble du document.
Non. Pour nos clients professionnels, nous proposons des garanties de non-conservation : les données sont traitées en mémoire et supprimées immédiatement après le calcul du score, afin de préserver la confidentialité.
Oui. Nous réentraînons en permanence notre classificateur sur les résultats des nouveaux modèles de pointe (tels que Gemini Ultra et GPT-4) dans les jours qui suivent leur sortie.
Nos modèles sont spécialement entraînés pour contrer les attaques adversaires et les « humaniseurs » qui visent à brouiller le texte synthétique. En recourant à l'extraction de données négatives difficiles pendant l'entraînement, nous réduisons au minimum les faux positifs sur les textes humains au style formel.

Oui. Vous pouvez installer le pangram-sdk pour intégrer la détection dans les pipelines Airflow ou Databricks en quelques lignes de code seulement. Notre API est optimisée pour les opérations de scraping d'entreprise à haut débit et prend en charge des millions de requêtes avec une faible latence.

Contrairement aux détecteurs binaires, Pangram fournit des probabilités au niveau des tokens. Cette interprétabilité fine vous permet d'identifier et de conserver les segments révisés par des humains tout en filtrant les « éléments de mauvaise qualité » entièrement synthétiques de vos ensembles de données d'apprentissage.
L'utilisation de Pangram permet d'éviter l'effondrement des modèles. En filtrant le contenu généré de manière récursive par l'IA de vos pipelines de scraping, vous préservez la pureté de votre corpus et vous vous assurez que vos modèles ne subissent aucune baisse de performances ni de diversité due à un apprentissage sur des données de mauvaise qualité.

Nettoyez vos données d'entraînement dès aujourd'hui

Évitez l'effondrement des modèles, vérifiez les données d'entrée RLHF et filtrez le contenu synthétique de vos ensembles de données avec une précision de 99,98 %.