Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Notre classificateur utilise une architecture de modèle linguistique traditionnelle. Il reçoit le texte saisi et le tokenise. Ensuite, le modèle transforme chaque token en un encodage, qui est un vecteur de nombres représentant la signification de chaque token.
L'entrée est transmise au réseau neuronal, qui produit une intégration de sortie. Une tête de classificateur transforme l'intégration de sortie en une prédiction 0 ou 1, où 0 correspond à l'étiquette humaine et 1 à l'étiquette IA.
Le modèle initial était déjà assez efficace, mais nous voulions optimiser la précision et réduire tout risque de faux positifs (prédiction erronée de documents rédigés par des humains comme étant générés par l'IA). Pour ce faire, nous avons développé un algorithme spécialement conçu pour les modèles de détection de l'IA.
Avec l'ensemble de données initial, notre modèle ne disposait pas de suffisamment d'informations pour passer d'une précision de 99 % à une précision de 99,999 %. Bien que le modèle apprenne rapidement les modèles initiaux dans les données, il doit être confronté à des cas limites difficiles afin de distinguer avec précision les textes rédigés par des humains de ceux rédigés par l'IA.
Nous résolvons ce problème en utilisant le modèle pour rechercher les faux positifs dans de grands ensembles de données et en enrichissant l'ensemble d'apprentissage initial avec ces exemples difficiles supplémentaires avant de procéder à un nouvel apprentissage. Après plusieurs cycles, le modèle obtenu affiche un taux de faux positifs proche de zéro ainsi qu'une amélioration globale des performances sur les ensembles d'évaluation retenus.
