Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Comme nous l'avons vu la semaine dernière, l'IA a tendance à abuser de certains mots et expressions. Vous en connaissez peut-être quelques-uns : de « a testament to » à « delve ». La présence répétée de ces expressions peut être un indicateur fiable que le texte que vous avez sous les yeux a été généré par une IA, mais elles sont bien trop nombreuses pour qu'une seule personne puisse toutes les repérer.
Pour résoudre ce problème, nous avons récemment lancé un outil appelé « AI phrases », qui met spécifiquement en évidence ces expressions. Dans le cadre du développement de cet outil, nous avons constitué un vaste ensemble de données regroupant les expressions IA les plus couramment utilisées. Dans cet article, nous vous présenterons certaines des expressions IA les plus courantes qui apparaissent dans notre ensemble de données et nous vous expliquerons comment vous pouvez les utiliser pour affiner votre intuition concernant les textes générés par l'IA.
Commençons par le plus évident : parfois, une IA vous dit clairement qu'elle est une IA ! Cela se produit souvent à la suite d'un refus. Lorsqu'un utilisateur demande à une IA de faire quelque chose qu'elle n'a pas été programmée pour faire, elle doit lui dire qu'elle ne peut pas répondre à sa demande, et dans ce cadre, le modèle reconnaîtra souvent qu'il s'agit d'une IA. De nombreux refus de l'IA commencent par la phrase « En tant que modèle linguistique d'IA... ». Il s'ensuit que ce type de phrase serait assez courant dans les textes générés par l'IA et extrêmement rare dans les textes humains. Les chiffres le confirment ! Bon nombre de nos phrases d'IA les plus courantes sont autoréférentielles.
| Phrase | Plus fréquent |
|---|---|
| En tant que modèle linguistique basé sur l'IA, | 294,000x |
| Je n'ai pas de | 67,000x |
| Malheureusement, je n'ai pas assez | 54,000x |
| modèle linguistique, je ne peux pas | 53,000x |
Les artefacts IA font partie des expressions IA les plus utilisées, mais elles sont finalement assez évidentes et donc peu intéressantes. Passons maintenant à la partie intéressante : les expressions qui sont effectivement surreprésentées dans les textes IA, mais qui n'ont rien à voir avec le fait d'être une IA. En voici quelques-unes :
| Phrase | Plus fréquent |
|---|---|
| comme un poignant | 49,000x |
| Comme un puissant rappel | 43,000x |
| rappel de la pérennité | 31,000x |
| a dû relever de nombreux défis | 30,000x |
| Nos résultats apportent un éclairage nouveau sur | 22,000x |
| dans l'interaction complexe | 21,000x |
| sert de puissant | 10,000x |
| fournissant des informations précieuses sur | 5,000x |
| sert de témoignage | 4,000x |
| nouveau sens à donner à sa vie | 4,000x |
| même face à l'inimaginable | 3,000x |
| rappel du potentiel | 3,000x |
Il est facile de comprendre pourquoi une IA disant « En tant qu'IA... » peut être beaucoup plus courante dans les textes générés par l'IA. Mais qu'est-ce qui explique que les phrases apparemment sans rapport dans la partie 2 soient plus courantes ? Tout d'abord, il existe un phénomène appelé « effondrement de mode », dans lequel les résultats de l'IA deviennent trop génériques ou répétitifs en s'appuyant sur des séquences de mots à forte probabilité. Effondrement de mode...
De plus, après la formation, il est courant de procéder à un RLHF (apprentissage par renforcement à partir du retour d'information humain). Au cours de ce processus, des annotateurs humains évaluent les textes générés par l'IA en fonction d'un certain nombre d'attributs afin d'encourager certains modèles et d'en décourager d'autres. Tout au long de ce processus, si certaines réponses ou expressions sont susceptibles d'être récompensées par ces annotateurs humains, elles deviendront de plus en plus fréquentes.
Par conséquent, certaines de ces expressions surutilisées peuvent être considérées comme une caractéristique de modèles, d'architectures et de processus d'apprentissage spécifiques, plutôt que comme des caractéristiques propres à l'écriture IA elle-même. Un article de Jenna Russell, Marzena Karpinska et Mohit Iyyer de l'université du Maryland montre que différents modèles ont en réalité des expressions préférées différentes :
abusé
Cela suggère que différents modèles, entraînés avec différents ensembles de données et différentes stratégies d'optimisation, peuvent développer leurs propres tendances distinctes en matière de répétition de phrases.
Dans le cadre de notre travail, notre équipe a passé un nombre incalculable d'heures à lire et à analyser des textes générés par l'IA. Naturellement, nous avons développé une affinité pour certaines de ces expressions :
Voici les phrases préférées de notre équipe en matière d'IA :
Max (PDG) : « Dans un monde en constante évolution » (11 000x)
Bradley (directeur technique) : « important à noter » (3 000x)
Lu (ingénieur fondateur) : « nature complexe » (6 000x)
Elyas (ingénieur fondateur) : « tapisserie vibrante » (17 000x)
