Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Passage en revue des expressions les plus utilisées dans le domaine de l'IA

Élias Masrour
21 février 2025

Comme nous l'avons vu la semaine dernière, l'IA a tendance à abuser de certains mots et expressions. Vous en connaissez peut-être quelques-uns : de « a testament to » à « delve ». La présence répétée de ces expressions peut être un indicateur fiable que le texte que vous avez sous les yeux a été généré par une IA, mais elles sont bien trop nombreuses pour qu'une seule personne puisse toutes les repérer.

Pour résoudre ce problème, nous avons récemment lancé un outil appelé « AI phrases », qui met spécifiquement en évidence ces expressions. Dans le cadre du développement de cet outil, nous avons constitué un vaste ensemble de données regroupant les expressions IA les plus couramment utilisées. Dans cet article, nous vous présenterons certaines des expressions IA les plus courantes qui apparaissent dans notre ensemble de données et nous vous expliquerons comment vous pouvez les utiliser pour affiner votre intuition concernant les textes générés par l'IA.

Partie 1 : Artefacts IA

Commençons par le plus évident : parfois, une IA vous dit clairement qu'elle est une IA ! Cela se produit souvent à la suite d'un refus. Lorsqu'un utilisateur demande à une IA de faire quelque chose qu'elle n'a pas été programmée pour faire, elle doit lui dire qu'elle ne peut pas répondre à sa demande, et dans ce cadre, le modèle reconnaîtra souvent qu'il s'agit d'une IA. De nombreux refus de l'IA commencent par la phrase « En tant que modèle linguistique d'IA... ». Il s'ensuit que ce type de phrase serait assez courant dans les textes générés par l'IA et extrêmement rare dans les textes humains. Les chiffres le confirment ! Bon nombre de nos phrases d'IA les plus courantes sont autoréférentielles.

PhrasePlus fréquent
En tant que modèle linguistique basé sur l'IA,294,000x
Je n'ai pas de67,000x
Malheureusement, je n'ai pas assez54,000x
modèle linguistique, je ne peux pas53,000x

Partie 2 : Expressions galvaudées

Les artefacts IA font partie des expressions IA les plus utilisées, mais elles sont finalement assez évidentes et donc peu intéressantes. Passons maintenant à la partie intéressante : les expressions qui sont effectivement surreprésentées dans les textes IA, mais qui n'ont rien à voir avec le fait d'être une IA. En voici quelques-unes :

PhrasePlus fréquent
comme un poignant49,000x
Comme un puissant rappel43,000x
rappel de la pérennité31,000x
a dû relever de nombreux défis30,000x
Nos résultats apportent un éclairage nouveau sur22,000x
dans l'interaction complexe21,000x
sert de puissant10,000x
fournissant des informations précieuses sur5,000x
sert de témoignage4,000x
nouveau sens à donner à sa vie4,000x
même face à l'inimaginable3,000x
rappel du potentiel3,000x

Partie 3 : Pourquoi l'IA abuse-t-elle des expressions toutes faites ?

Il est facile de comprendre pourquoi une IA disant « En tant qu'IA... » peut être beaucoup plus courante dans les textes générés par l'IA. Mais qu'est-ce qui explique que les phrases apparemment sans rapport dans la partie 2 soient plus courantes ? Tout d'abord, il existe un phénomène appelé « effondrement de mode », dans lequel les résultats de l'IA deviennent trop génériques ou répétitifs en s'appuyant sur des séquences de mots à forte probabilité. Effondrement de mode...

De plus, après la formation, il est courant de procéder à un RLHF (apprentissage par renforcement à partir du retour d'information humain). Au cours de ce processus, des annotateurs humains évaluent les textes générés par l'IA en fonction d'un certain nombre d'attributs afin d'encourager certains modèles et d'en décourager d'autres. Tout au long de ce processus, si certaines réponses ou expressions sont susceptibles d'être récompensées par ces annotateurs humains, elles deviendront de plus en plus fréquentes.

Par conséquent, certaines de ces expressions surutilisées peuvent être considérées comme une caractéristique de modèles, d'architectures et de processus d'apprentissage spécifiques, plutôt que comme des caractéristiques propres à l'écriture IA elle-même. Un article de Jenna Russell, Marzena Karpinska et Mohit Iyyer de l'université du Maryland montre que différents modèles ont en réalité des expressions préférées différentes :

abusé

Cela suggère que différents modèles, entraînés avec différents ensembles de données et différentes stratégies d'optimisation, peuvent développer leurs propres tendances distinctes en matière de répétition de phrases.

Bonus : les N-grammes préférés de notre équipe

Dans le cadre de notre travail, notre équipe a passé un nombre incalculable d'heures à lire et à analyser des textes générés par l'IA. Naturellement, nous avons développé une affinité pour certaines de ces expressions :

Voici les phrases préférées de notre équipe en matière d'IA :

  • Max (PDG) : « Dans un monde en constante évolution » (11 000x)

  • Bradley (directeur technique) : « important à noter » (3 000x)

  • Lu (ingénieur fondateur) : « nature complexe » (6 000x)

  • Elyas (ingénieur fondateur) : « tapisserie vibrante » (17 000x)

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.