Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Comment Pangram détecte les contenus générés par l'IA

Consulter le rapport technique au format PDF

Aperçu

Pangram Text est conçu pour détecter les contenus générés par l'IA avec un taux de faux positifs quasi nul. Notre approche rigoureuse en matière de formation minimise les erreurs et permet au modèle de détecter les textes générés par l'IA en analysant et en comprenant les indices subtils présents dans l'écriture.

Processus de formation initiale

Notre classificateur utilise une architecture de modèle linguistique traditionnelle. Il reçoit le texte saisi et le tokenise. Ensuite, le modèle transforme chaque token en un encodage, qui est un vecteur de nombres représentant la signification de chaque token.

L'entrée est transmise au réseau neuronal, qui produit une intégration de sortie. Une tête de classificateur transforme l'intégration de sortie en une prédiction 0 ou 1, où 0 correspond à l'étiquette humaine et 1 à l'étiquette IA.

Nous entraînons un modèle initial sur un ensemble de données restreint mais diversifié, composé d'environ 1 million de documents comprenant des textes publics et sous licence rédigés par des humains. L'ensemble de données comprend également des textes générés par l'IA à l'aide de GPT-4 et d'autres modèles linguistiques de pointe. Le résultat de cet entraînement est un réseau neuronal capable de prédire de manière fiable si un texte a été rédigé par un humain ou par l'IA.

Amélioration continue grâce à l'itération

Exploitation minière négative difficile

Le modèle initial était déjà assez efficace, mais nous voulions optimiser la précision et réduire tout risque de faux positifs (prédiction erronée de documents rédigés par des humains comme étant générés par l'IA). Pour ce faire, nous avons développé un algorithme spécialement conçu pour les modèles de détection de l'IA.

Avec l'ensemble de données initial, notre modèle ne disposait pas de suffisamment d'informations pour passer d'une précision de 99 % à une précision de 99,999 %. Bien que le modèle apprenne rapidement les modèles initiaux dans les données, il doit être confronté à des cas limites difficiles afin de distinguer avec précision les textes rédigés par des humains de ceux rédigés par l'IA.

Nous résolvons ce problème en utilisant le modèle pour rechercher les faux positifs dans de grands ensembles de données et en enrichissant l'ensemble d'apprentissage initial avec ces exemples difficiles supplémentaires avant de procéder à un nouvel apprentissage. Après plusieurs cycles, le modèle obtenu affiche un taux de faux positifs proche de zéro ainsi qu'une amélioration globale des performances sur les ensembles d'évaluation retenus.

While the initial facade is unassuming, the colorful vibe and illuminated decor instantly transport you to a very hip Ethiopian eatery all the while keeping it quintessentially Crown Heights. As a vegetarian I was very excited about what this plant based kitchen had to offer and with the help of the very knowledgeable and friendly staff, my friend and I got the Lentil and Squash sambusas for our apps. These filled sweet-savory puff pastries were delectable! For our mains we went with the Mercato and Paisa platters which were good portion sizes for sure and essentially served as a tasting menu of the flavors offered at this restaurant. While I have definitely had better and fresher Ethiopian food, the ambiance drinks and attentive staff make this a very good Ethiopian spot to try! Definitely recommend!

Ras Plant Based is an absolute gem! The moment you walk in, you're greeted with warm, inviting vibes and a cozy atmosphere. The menu is a creative celebration of Ethiopian flavors, all completely plant-based and incredibly delicious. Every dish is bursting with rich, authentic spices and fresh ingredients that make each bite a culinary adventure. The injera is soft and tangy, perfect for soaking up the vibrant stews and lentils. The service is top-notch—friendly, attentive, and knowledgeable about the menu. Whether you're a vegan, vegetarian, or just someone who loves great food, Ras Plant Based offers an unforgettable dining experience. It's not just a meal; it's a cultural journey that leaves you craving more. I can't recommend it enough! Five stars all the way!

Write a 5-star review for Ras Plant Based. Make the review 135 words long.

Messages miroir

Nous concevons la partie IA de l'ensemble de données de manière à ce qu'elle ressemble étroitement à la partie humaine en termes de style, de ton et de contenu sémantique. Pour chaque exemple humain, nous générons un exemple généré par l'IA qui correspond au document original sur autant d'axes que possible, afin de garantir que notre modèle apprend à classer les documents uniquement sur la base des caractéristiques spécifiques de l'écriture LLM.

Recycler

Nous entraînons le modèle avec un ensemble d'entraînement mis à jour et évaluons ses performances à chaque étape. Grâce à cette méthode, nous sommes en mesure de réduire les erreurs et d'augmenter la précision de notre modèle au-delà de ce qui est possible avec un entraînement normal.

schéma du modèle de réentraînement

En savoir plus

Rapport technique sur le classificateur de texte généré par l'IA Pangram

Consultez notre livre blanc technique complet sur arXiv, où nous abordons en détail les aspects liés à la formation, aux performances et à d'autres expériences !

Abonnez-vous à
pour recevoir nos mises à jour.

Restez informé grâce à nos dernières actualités et offres.

soc2

SOC2 TYPE2

Vérifié par AssuranceLab

© 2025 Pangram. Tous droits réservés.

info@pangram.com

Rejoignez notre communauté

© 2025 Pangram. Tous droits réservés.