Nous pensons que la détection de l'IA restera une solution viable, même face à des modèles de pointe aussi puissants que Claude Mythos Preview.

Lorsqu'un auteur, qu'il s'agisse d'un être humain ou d'un modèle de langage de grande envergure (LLM), rédige un texte, il prend des décisions. Même sur un texte de 150 mots, un auteur peut prendre des centaines de milliers de décisions, conscientes ou inconscientes, concernant le choix des mots, l'ordre des mots, le placement de la ponctuation et la structure des phrases.

Fondamentalement, la détection de l'IA est un problème d'identification de l'auteur. Quelle que soit la sophistication d'un modèle donné, c'est toujours un seul auteur qui prend les décisions. Ces décisions sont par ailleurs soumises à des contraintes : les modèles d'assistance doivent produire un texte utile, clair et lisible. Ces caractéristiques sont intégrées au modèle par le biais d'un affinement supervisé et de l'apprentissage par renforcement.

Même le modèle de pointe le plus sophistiqué reste un système structuré unique, et il présentera des habitudes et des particularités identifiables. Ces modèles génèrent également beaucoup de texte, ce qui nous offre de nombreuses occasions de comprendre le type de décisions qu’ils sont susceptibles de prendre.

On présente parfois le problème comme si « l'écart statistique entre l'écriture humaine et celle générée par l'IA était en train de se réduire ». C'est une interprétation erronée du fonctionnement de la détection. L'IA écrit déjà suffisamment bien pour passer pour un humain aux yeux d'un profane, comme nous l'avons vu dans un quiz viral du New York Times. Mais les textes produits par un modèle, à l'instar de ceux de n'importe quel auteur, seront toujours regroupés dans l'espace d'intégration. C'est pourquoi nous pensons que la détection de l'IA restera viable, même si les modèles deviennent de plus en plus puissants.

Les résultats semblent prometteurs. Le modèle Pangram actuel a réussi à identifier correctement la nouvelle « Mythos Preview » publiée dans la fiche du système.

Tant que les modèles seront des systèmes entraînés, nous pensons que la détection restera un problème soluble.