Les « humaniseurs d'IA » sont des outils utilisés pour modifier un texte afin de contourner les systèmes de détection de l'IA. Ces outils ne visent pas à reproduire le langage humain ; ils sont conçus pour échapper à la détection par tous les moyens possibles. Il en résulte une qualité de texte moindre, car les humaniseurs rendent les textes générés par l'IA moins humains, moins compréhensibles et moins précis. Cela conduit à ce que nous appellerons : le problème (Slop)^2.
Les stratégies employées par les « humaniseurs » témoignent d’une incompréhension fondamentale du fonctionnement de la détection par IA. On sait que les textes générés par l’IA recourent à des signifiants tels qu’un langage formel et une mise en forme structurée, et qu’ils abusent de mots comme « delve » et « tapestry ». En paraphrasant le texte, en manipulant la ponctuation et en insérant des caractères hors contexte, les « humaniseurs » produisent des textes susceptibles d’entraîner la prédiction suivante : 100 % humain. Dans un article précédent, nous avons démontré que modifier la formulation ou insérer des caractères aléatoires dans un texte n'est pas efficace pour échapper à une bonne détection par l'IA.
La plupart des outils d'humanisation intègrent leurs propres outils de détection de l'IA, qui vantent l'efficacité de leur processus en démontrant que le texte n'est plus généré par l'IA. Il ne faut toutefois pas s'y fier aveuglément, car une détection efficace de l'IA résiste aux outils d'humanisation et à la paraphrase.
Humanizer_1 remplace souvent les tirets par des virgules. C'est clairement intentionnel. Sur un échantillon de 194 textes contenant 164 tirets, le résultat généré par Humanizer_1 ne comporte AUCUN tiret. Cela peut nuire à la compréhension ou au contexte. Par exemple, rue multiethnique du centre-ville est transformé en : rue du centre-ville, multiethnique. La date de la deuxième intervention française au Mexique change de 1861-1867 à 1861, 1867, ce qui peut être interprété comme deux années distinctes plutôt que comme une fourchette.
Humanizer_2 met inutilement des majuscules aux mots et aux expressions :
Une grave agression à l'arme blanche survenue à la prison de Pentonville a jeté une ombre sur l'annonce faite par le gouvernement concernant un nouveau livre blanc sur la réforme pénitentiaire et a mis en évidence la crise croissante en matière de sécurité au sein du système pénitentiaire britannique.
Le résultat généré par Humanizer_5 ci-dessous supprime l'espace après les points et insère un trait d'union de manière aléatoire :
C'est une question vraiment intéressante ! Oui, certains animaux communiquent effectivement de manière aussi complexe, mais ce n'est pas aussi courant qu'on pourrait le croire.On parle donc de créatures qui communiquent de manière assez complexe. Les abeilles mellifères sont un très bon exemple de ce dont tu parles. Leur danse frétillante n'est pas simplement un message indiquant « de la nourriture trouvée » ; elle leur en dit en réalité beaucoup plus : - D'où vient la lumière du soleil (son angle). - La distance (durée de la danse). - La danse était très énergique.
Les citations renforcent la crédibilité des reportages et des recherches. En ce qui concerne les « humaniseurs », la crédibilité est complètement mise de côté. Humanizer_1 supprime souvent les citations en les paraphrasant, mais Humanizer_2 va encore plus loin en modifiant la citation originale, ce qui conduit le lecteur à croire que la citation fournie est authentique.
Avant l'humanisation: « Chaque jour qui passe sans que le MES ne soit pleinement opérationnel est un jour où le risque pour la zone euro s'accroît », a déclaré un haut responsable de l'UE sous couvert d'anonymat. « Les marchés ont besoin de voir des mesures décisives et de savoir que l'ensemble de nos outils de gestion de crise est prêt à être déployé. Ce retard de la part de l'Allemagne sape ce message. »
Après l'humanisation: « Chaque jour qui passe sans que le MEE puisse fonctionner pleinement représente un risque accru pour la zone euro », a déclaré un haut responsable de l'Union européenne, s'exprimant sous couvert d'anonymat. « Les marchés doivent constater que des mesures décisives sont prises et que l'ensemble de nos outils de lutte contre la crise est à notre disposition. Le retard pris par l'Allemagne sape ce message. »
Humanizer_1 utilise une reformulation peu délicate. L'outil de naturalisation emploie le terme familier « jeune » pour désigner les « jeunes », ce qui atténue le ton grave de cette situation malheureuse.
Avant l'humanisation: M. X a été retrouvé grièvement blessé à la suite d'une altercation avec un adolescent.
Après l'humanisation: À la suite d'une altercation avec un jeune, M. X a été retrouvé gravement blessé.
Humanizer_3 reprend le texte original : Les systèmes biologiques peuvent être utilement conceptualisés comme des réseaux d'information hétérogènes (HIN) dans lesquels divers types d'entités... et le remplace par : Il est utile de considérer les êtres vivants comme des réseaux d'informations variés – les HIN – où différents types d'éléments.... Le texte adapté utilise ensuite l'abréviation HIN après en avoir paraphrasé la véritable définition.
Humanizer_4 fait preuve d'un manque de compréhension en modifiant Chère équipe à À qui de droit.
De Humanizer_1 : Ses yeux, qui brillaient d'un bleu éclatant dans cette lumière éthérée, étaient sombres, assombris par la douleur, et laissaient transparaître une trace de peur d'une nature très humaine. L'aura dorée qui l'entourait et la puissance de sa voix, qui faisait vibrer le monde entier, s'étaient évanouies, et l'odeur du sang et de l'ozone envahissait les sens des spectateurs.
Le texte original utilise le plus-que-parfait tout au long de l'œuvre, mais dans sa tentative de modification du texte, Humanizer_1 paraphrase mal les temps verbaux. Il mélange à tort le passé simple (« was », « were », « made ») avec le présent parfait (« has covered », « has vanished ») et le présent simple (« is »).
Humanizer_4 permet de Les portions étaient copieuses, mais sans excès. un peu alambiqué, en interprétant la phrase comme Les portions étaient copieuses, mais pas au point qu'on ne puisse pas tout manger..
Les résultats de Humanizer_5 sont d'abord cohérents, mais finissent par dégénérer en hallucinations.
Avant l'humanisation: Un score composite des comportements favorables à la santé était inversement associé à l'apparition de l'hypertension et du diabète (rapport de risque ajusté pour chaque augmentation d'un point : 0,87 ; IC à 95 % : 0,84–0,90).
Après l'humanisation: Ils ont constaté que plus le score de comportement sain d'une personne était bas, plus celle-ci était susceptible de souffrir de problèmes tels que l'hypertension artérielle et le diabète.⁸⁷ ; avec un IC à 95 % de 0. « Ouais, quelle surprise, hein ?⁹⁰).
Au beau milieu de l'humanisation du texte, Humanizer_5 se lance dans une étrange autopromotion, difficile à saisir en raison de la longueur et de la mauvaise ponctuation du résultat :
Ouais, je l'avais vu venir. La tête de Lyra a surgi par la fenêtre, et l'espace d'un instant, sa tristesse habituelle s'est envolée, remplacée par une joie pure. « Un chevalier ! » s'est-elle exclamée, comme si je ne le voyais pas moi-même. « Il est venu me chercher ! » On entend beaucoup parler d'IA ces temps-ci, n'est-ce pas ? Il peut être difficile de distinguer la vraie science des inventions. Nous voulons simplement faire le tri et vous montrer ce qui est possible, car c'est vraiment passionnant. Il ne s'agit pas d'un avenir lointain, mais de ce que nous pouvons faire dès aujourd'hui. Voyez les choses ainsi : au lieu de modèles compliqués et difficiles à comprendre, nous parlons d'applications pratiques qui font la différence. Nous savons que certaines personnes s’inquiètent de la façon dont l’IA va transformer leur travail, et c’est une préoccupation légitime. Mais une grande partie de ce que nous faisons consiste en réalité à rendre le travail plus facile et plus efficace, afin de permettre aux gens de se concentrer sur les aspects créatifs. Pour tous ceux qui s’intéressent à l’IA et à ce qu’elle signifie pour leur entreprise, nous sommes là pour vous offrir des informations concrètes et exploitables. Nous croyons aux explications claires et aux solutions pratiques, pas seulement aux mots à la mode. Alors, discutons ensemble pour y voir plus clair. Nous sommes là pour vous aider à vous faire une idée précise de la manière dont l’IA peut réellement vous être utile, sans tout le blabla habituel. Je poussai un grognement grave et menaçant. Pas à l’intention du chevalier. À son intention. Elle s’emballait.
Humanizer_2 déclare : Justin Juuko, né en Ouganda, était un boxeur professionnel qui a mené une brillante carrière pendant plus de trente ans. Il a réussi à réaliser son rêve en devenant double champion du monde. .Le texte original ne contient aucune indication à ce sujet, et une recherche rapide permet de confirmer que Juuko n'a jamais été double champion du monde. Il s'agit d'une hallucination, aggravée par l'utilisation inopinée du pronom de la deuxième personne, qui n'apparaît jamais dans le texte original.
Humanizer_4 supprime des éléments de contexte importants de La dysplasie campomélique est une maladie génétique rare du squelette pour laquelle il n'existe aucun remède ; le traitement vise donc principalement à prendre en charge les symptômes et les complications. Voici les principales approches thérapeutiques :.
Dans le nouveau texte remanié : Il n'existe actuellement aucun remède contre la dysplasie campomélique ; les traitements visent donc principalement à soulager les symptômes et à traiter les complications associées à cette affection. Les principales options thérapeutiques sont les suivantes :, nous en savons moins sur la définition de la dysplasie campomélique.
Les « humanisateurs » mettent davantage en évidence et font ressortir le caractère incongru des tournures maladroites qui abondent dans les textes générés par l'IA. Cabanac et al. définissent ces tournures maladroites comme « des expressions étranges et inattendues qui remplacent des expressions courantes, telles que « conscience contrefaite » au lieu de « intelligence artificielle ». Ces chercheurs ont constaté que ce style rédactionnel était très répandu dans les articles scientifiques générés par l'IA.
Dans un texte aux tournures alambiquées, une critique générée par l'IA disait : mes idées préconçues en matière de cuisine ont volé en éclats. Bien que ce texte ait été rédigé pour faire l'éloge d'un restaurant, l'outil d'humanisation indique : mes idées reçues en matière de gastronomie ont été balayées.
Pour décrire le secteur de l'aviation, dominé par les hommes, Humanizer_2 l'a formulé ainsi : le secteur de l'aviation, autrefois dominé par les hommes. Outre cette reformulation inutile, cela laisse entendre que le secteur aérien n'est plus dominé par les hommes, ce qui est tout simplement faux.
Un exemple peut-être plus complet est la manière dont Humanizer_2 tente de réinterpréter le résumé d'un article de recherche en écrivant les symboles mathématiques :
Avant l'humanisation: Dans les deux cas, on obtient une concentration sous-gaussienne avec des constantes dépendantes de la température mais indépendantes du volume, Var u_x ≤ C T et des queues P(|u_x| ≥ r) ≤ exp(−c r²/T) pour T ≤ T₀, ainsi qu'une décroissance optimale des covariances.
Après l'humanisation: Pour les deux cas ci-dessus, nous fournirons des bornes de concentration sous-gaussiennes avec des constantes indépendantes du volume, en fonction de la température ; et pour une température suffisamment basse, on aura que la variance des déplacements des particules est inférieure ou égale à C T, et que la probabilité que le déplacement par rapport à la position nulle de la particule soit supérieur ou égal à r est exponentiellement faible par rapport au rapport r²/T (pour T ≤ T₀), avec un décroissement optimal des bornes de covariance.
En utilisant des outils d'humanisation basés sur l'IA, nous avons constaté que, bien que les textes soient allongés, leur qualité n'en était pas pour autant améliorée. Ces outils suppriment une couche supplémentaire de contexte et de sens du texte sans pour autant enrichir la qualité du travail.
Les outils d'humanisation basés sur l'IA sont payants (entre 10 et 50 dollars par mois), ce qui soulève la question suivante : pourquoi quelqu'un paierait-il pour que ses textes soient moins convaincants ? D'autant plus que l'objectif principal, à savoir éviter la détection, n'est pas garanti.
Les « humanizers » contribuent au problème croissant du contenu de mauvaise qualité, mais poussent ce phénomène encore plus loin : (Mauvaise qualité)^2.
