Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Photo par Google DeepMind.
Aujourd'hui, nous sommes ravis de vous présenter notre capacité à nous adapter rapidement aux nouveaux modèles d'apprentissage automatique (LLM) disponibles sur le marché en publiant une mise à jour de notre modèle qui atteint une précision quasi parfaite dans la détection des textes rédigés par l'IA à partir de GPT-4o, Claude 3 et LLaMA 3.
Notre dernier modèle était plutôt performant pour détecter les résultats des nouveaux modèles, même sans avoir vu d'exemples dans l'ensemble d'apprentissage. Cependant, nous ne nous contentons pas d'un résultat « plutôt performant » : nous voulons repousser sans cesse les limites de ce qui est possible avec la détection par IA et offrir à nos clients la meilleure précision possible.
Afin de tester nos performances sur les modèles linguistiques de nouvelle génération, nous avons remanié notre ensemble d'évaluation composé de 25 000 exemples de textes humains difficiles à classer et de textes générés par l'IA à partir d'un panel de modèles linguistiques. Environ 40 % de ce nouvel ensemble d'évaluation est constitué d'une grande variété de textes générés par l'IA à partir de GPT-4o, Claude 3 et LLaMA 3, couvrant plusieurs domaines, notamment l'actualité, les critiques, l'éducation, etc.
Nous utilisons toutes les versions des nouveaux modèles lorsqu'elles sont disponibles : par exemple, nous échantillonnons de manière uniforme à partir des versions Opus, Sonnet et Haiku de Claude 3.
Après avoir mis à jour notre ensemble de données d'entraînement afin d'y intégrer les derniers modèles d'apprentissage automatique (LLM), nous constatons que nous atteignons à nouveau une précision quasi parfaite sur les textes générés par la dernière génération de modèles linguistiques.
| LLM | Texte pangramique Précision en mars | Texte pangramme Précision des dates de mai | % d'amélioration |
|---|---|---|---|
| Tous | 99.54% | 99.84% | +0.30% |
| GPT-4o | 99.78% | 100% | +0.22% |
| Claude 3 | 99.12% | 99.76% | +0.64% |
| LLaMA 3 | 99.58% | 99.97% | +0.39% |
En plus d'améliorer les performances des nouveaux modèles, nous constatons que l'intégration des données d'entraînement issues de la dernière génération de modèles améliore légèrement les performances de plusieurs anciens modèles.
Nous constatons que, sans introduire de régressions sur notre ancien ensemble d'évaluation de modèles, nous améliorons en fait plusieurs cas par rapport à la détection GPT-3.5 et GPT-4 (standard). Plus précisément, nous constatons que 8 cas GPT-3.5 précédemment rejetés par le modèle sont désormais acceptés, et que 13 cas GPT-4 précédemment rejetés par le modèle sont désormais acceptés. Nous en concluons que la capacité accrue de notre modèle à détecter GPT-4o, Claude 3 et LLaMA 3 n'entraîne aucune perte de capacité à détecter les modèles plus anciens.
Nous étions conscients dès le départ que les limites des LLM évolueraient rapidement, c'est pourquoi nous avons conçu l'architecture de notre système en tenant compte de cela. Nos systèmes sont conçus pour pouvoir régénérer des données et commencer à entraîner un nouveau modèle dans les heures qui suivent la mise à disposition publique d'une nouvelle API.
Lorsqu'un nouveau modèle est lancé, générer un nouvel ensemble de données et réentraîner le modèle est aussi simple que de modifier la configuration. Nous disposons d'une bibliothèque standard de modèles de invites conçus pour être intégrés dans les LLM afin de produire des textes semblables à ceux rédigés par des humains, proches, mais pas identiques, à ceux de notre ensemble de données. Nous détaillons ce processus, appelé « Hard Negative Mining with Synthetic Mirrors » (extraction de données négatives difficiles à partir de miroirs synthétiques), dans notre rapport technique.
Le calendrier de sortie de ce nouveau modèle était le suivant :
13 mai : GPT-4o a été lancé et rendu disponible dans l'API OpenAI. 14 mai : le pipeline de données a été mis à jour et de nouveaux ensembles d'entraînement et d'évaluation ont été créés. 15-16 mai : le modèle de détection IA a été entraîné à l'aide des nouveaux ensembles de données. 17 mai : des contrôles de qualité et de cohérence ont été effectués et le modèle a été lancé.
L'infrastructure que nous avons mise en place nous permet de nous adapter rapidement, notamment en intégrant le texte des nouveaux modèles dans le système de détection de production en seulement une semaine.
À mesure que les nouveaux modèles s'améliorent, ils doivent devenir plus difficiles à détecter, n'est-ce pas ? Nous n'avons toujours pas trouvé de preuves pour étayer cet argument séduisant, mais finalement erroné.
D'un point de vue observationnel, nous constatons que les modèles les plus performants, en raison de leurs styles plus idiosyncrasiques, sont en réalité plus faciles à détecter que les modèles moins performants. Par exemple, nous avons constaté que notre ancien modèle était plus efficace pour détecter Claude Opus que Sonnet et Haiku.
Comme nous pouvons le voir dans le classement LMSYS, de nombreux modèles de base convergent asymptotiquement vers le niveau du GPT-4, mais aucun modèle ne l'a encore surpassé de manière convaincante avec une marge substantielle. Si l'on considère la situation dans son ensemble, il n'est pas surprenant que, si plusieurs entreprises de modèles de base adoptent la même architecture basée sur l'attention et la forment sur l'ensemble de l'Internet, le langage produit par tous ces modèles finisse par être incroyablement similaire. Ceux qui interagissent régulièrement avec des modèles linguistiques comprendront immédiatement ce que nous voulons dire.
Au niveau observationnel, nous constatons encore que les LLM, lorsqu'on leur demande d'écrire de manière créative et authentique, par exemple un essai d'opinion, une critique ou une nouvelle créative, produisent toujours des textes sans imagination et insipides. Nous pensons que cela est fondamentalement lié à l'objectif d'optimisation qui consiste à prédire des complétions à forte probabilité tout en s'éloignant des pensées et des idées originales hors distribution.
Nous apprécions les écrits originaux de nos semblables parce qu'ils peuvent nous offrir une nouvelle perspective ou une façon différente de penser, et non parce qu'ils correspondent à ce qu'une personne lambda pourrait dire. Tant que cette valeur restera vraie, il y aura toujours un besoin de détection de l'IA, et il y aura toujours un moyen d'y parvenir.
