Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Un graphique illustrant le pourcentage de résumés générés par l'IA soumis à l'ICLR par année, révélant une tendance à la hausse depuis 2023.
En février 2024, un article publié dans Frontiers in Cell and Developmental Biology présentait des illustrations manifestement générées par l'IA. Cet article a fait les gros titres, car l'une des images représentait un rat doté de testicules absurdement gros et accompagné d'un texte incompréhensible qui n'avait absolument aucun sens.
Il s'agit d'un véritable article publié dans Frontiers in Cell and Developmental Biology. Les illustrations sont manifestement générées par l'IA. L'une d'elles représente un rat doté de testicules absurdement gros. Le texte qui accompagne les illustrations est incompréhensible. pic.twitter.com/4Acn2YZYwM
— Cliff Swan (@cliff_swan) 15 février 2024
Si l'évaluation par les pairs (en théorie) devrait suffire à détecter les cas évidents comme celui-ci, qu'en est-il lorsque le contenu réel de l'article est généré par l'IA ? Même les experts ont du mal à distinguer les recherches générées par l'IA de celles rédigées par des humains.
Un récent article publié dans Nature souligne les inquiétudes croissantes concernant le contenu généré par l'IA dans les articles universitaires. L'article traite d'une étude dans laquelle des informaticiens ont utilisé Claude 3.5, l'un des derniers modèles de langage à grande échelle (LLM), pour générer des idées de recherche et rédiger des articles, qui ont ensuite été présentés à des évaluateurs scientifiques. Ces derniers ont ensuite noté les articles en fonction de leur « nouveauté, intérêt, faisabilité et efficacité attendue ». En moyenne, les évaluateurs ont attribué une note plus élevée aux articles rédigés par l'IA qu'à ceux rédigés par des humains ! Cela soulève la question suivante : l'IA est-elle réellement capable de proposer de meilleures idées de recherche que les humains ? Bien qu'il soit tentant de croire que cela pourrait être le cas, sur les 4 000 articles générés par l'IA étudiés par les chercheurs, seuls 200 (5 %) contenaient réellement des idées originales : la plupart des articles ne faisaient que régurgiter des idées déjà existantes issues de l'ensemble de données d'entraînement du LLM.
En fin de compte, les recherches générées par l'IA nuisent à la communauté en ajoutant du bruit et en réduisant le signal dans le processus d'évaluation par les pairs, sans parler du gaspillage de temps et d'efforts des évaluateurs qui veillent à respecter les normes de recherche. De plus, ce qui est encore pire, c'est que les recherches générées par l'IA semblent souvent convaincantes, mais en réalité, le texte produit par un modèle linguistique semble simplement fluide et peut être truffé d'erreurs, d'hallucinations et d'incohérences logiques. Le problème ici est que même les évaluateurs experts ne peuvent souvent pas dire si ce qu'ils lisent est une hallucination du LLM.
Les organisateurs des grandes conférences sur l'apprentissage automatique sont d'accord avec nous : les textes générés par les modèles LLM n'ont pas leur place dans les publications scientifiques. La politique officielle de l'ICML (International Conference on Machine Learning) est la suivante :
Clarification concernant la politique relative aux grands modèles linguistiques
Nous (les présidents du programme) avons inclus la déclaration suivante dans l'appel à communications pour l'ICML représenté par 2023 :
Les articles qui incluent du texte généré à partir d'un modèle linguistique à grande échelle (LLM) tel que ChatGPT sont interdits, sauf si le texte produit est présenté dans le cadre de l'analyse expérimentale de l'article.
Cette déclaration a soulevé un certain nombre de questions de la part d'auteurs potentiels et a incité certains d'entre eux à nous contacter de manière proactive. Nous apprécions vos commentaires et remarques et souhaitons clarifier davantage l'intention derrière cette déclaration et la manière dont nous prévoyons de mettre en œuvre cette politique pour l'ICML 2023.
TLDR ;
La politique relative aux grands modèles linguistiques (LLM) pour l'ICML 2023 interdit les textes entièrement produits par des LLM (c'est-à-dire « générés »). Cela n'empêche pas les auteurs d'utiliser des LLM pour éditer ou peaufiner des textes qu'ils ont eux-mêmes rédigés. La politique relative aux LLM repose en grande partie sur le principe de prudence afin de se prémunir contre les problèmes potentiels liés à l'utilisation des LLM, notamment le plagiat.
Malgré cet avertissement, nous constatons qu'un nombre important et croissant d'auteurs dans le domaine de l'apprentissage automatique enfreignent cette politique et utilisent malgré tout l'IA pour générer du texte dans leurs articles.
Chez Pangram, nous avons voulu mesurer l'ampleur de ce problème dans notre propre domaine : l'intelligence artificielle. Nous avons cherché à répondre à la question suivante : les chercheurs en IA utilisent-ils ChatGPT pour rédiger leurs propres travaux de recherche ?
Pour étudier ce problème, nous avons utilisé l'API OpenReview afin d'extraire les soumissions présentées entre 2018 et 2024 lors de deux des plus grandes conférences sur l'IA : ICLR et NeurIPS.
Nous avons ensuite utilisé le détecteur d'IA de Pangram sur tous les résumés soumis à ces conférences. Voici nos conclusions :
Un graphique illustrant le pourcentage de résumés générés par l'IA soumis à l'ICLR par année, révélant une tendance à la hausse depuis 2023.
Un graphique illustrant le pourcentage de résumés générés par l'IA soumis à Neurips par année, révélant une tendance à la hausse depuis 2023.
Nous pouvons considérer tout ce qui précède 2022 comme un ensemble de validation du taux de faux positifs de notre modèle, car les grands modèles linguistiques n'existaient pas à l'époque. Comme le montrent les figures, nous prévoyons que tous les résumés de conférences datant de 2022 ou avant seront prédits comme ayant été rédigés par des humains par notre modèle. Cela devrait inspirer confiance dans la précision de notre modèle : notre taux de faux positifs est très bon sur les résumés scientifiques, nous pouvons donc être sûrs que toutes les prédictions positives faites en 2023 et 2024 sont des vrais positifs.
Ce que nous observons depuis lors est très préoccupant. Trois cycles de conférences ont eu lieu depuis le lancement de ChatGPT en novembre 2022.
Le premier cycle s'est produit juste au moment du lancement de ChatGPT (ICLR 2023). La date limite de soumission était en réalité antérieure au lancement de ChatGPT, mais les auteurs ont la possibilité d'apporter des modifications avant la conférence elle-même, qui a eu lieu quelques mois après le lancement de ChatGPT. Nos conclusions sont sans surprise : seuls quelques résumés ont été rédigés par l'IA (nous n'en avons trouvé que deux sur plusieurs milliers dans ce cycle) et ont probablement été modifiés après la date limite.
Le deuxième cycle a eu lieu environ six mois plus tard, lors de la conférence NeuRIPS 2023, dont la date limite était fixée à l'été 2023 pour une conférence prévue en décembre. Lors de cette conférence, nous avons signalé qu'environ 1,3 % des résumés soumis avaient été générés par l'IA : une proportion faible, mais significative.
Enfin, lors du dernier cycle, ICLR 2024, qui s'est déroulé il y a quelques mois, nous avons constaté une augmentation jusqu'à 4,9 % : soit une multiplication par près de 4 du nombre d'évaluations générées par l'IA par rapport à NeuRIPS 2023 !
Ces résultats mettent en lumière une tendance préoccupante : non seulement le nombre d'articles de conférence générés par l'IA soumis à des événements majeurs consacrés à l'IA est en augmentation, mais ce nombre croît également à un rythme accéléré. En d'autres termes, le rythme auquel les articles générés par l'IA sont soumis s'accélère.
Jetez un œil à certains de ces résumés et voyez par vous-même s'ils ressemblent au type d'écrits que vous avez l'habitude de lire dans la littérature scientifique technique :
Dans le paysage complexe des données en réseau, comprendre les effets causaux des interventions est un défi crucial qui a des implications dans divers domaines. Les réseaux neuronaux graphiques (GNN) sont apparus comme un outil puissant pour saisir les dépendances complexes, mais le potentiel de l'apprentissage profond géométrique pour l'inférence causale des réseaux basés sur les GNN reste sous-exploré. Ce travail apporte trois contributions clés pour combler cette lacune. Tout d'abord, nous établissons un lien théorique entre la courbure des graphes et l'inférence causale, révélant que les courbures négatives posent des défis dans l'identification des effets causaux. Ensuite, sur la base de cette intuition théorique, nous présentons des résultats computationnels utilisant la courbure de Ricci pour prédire la fiabilité des estimations des effets causaux, démontrant empiriquement que les régions à courbure positive donnent des estimations plus précises. Enfin, nous proposons une méthode utilisant le flux de Ricci pour améliorer l'estimation des effets du traitement sur les données en réseau, qui montre des performances supérieures en réduisant les erreurs grâce à l'aplatissement des arêtes du réseau. Nos résultats ouvrent de nouvelles perspectives pour l'utilisation de la géométrie dans l'estimation des effets causaux, offrant des informations et des outils qui améliorent les performances des GNN dans les tâches d'inférence causale.
Dans le domaine des modèles linguistiques, le codage des données est essentiel, car il influence l'efficacité et l'efficience de l'entraînement des modèles. Le codage par paires d'octets (BPE) est une technique de tokenisation de sous-mots bien établie qui équilibre l'efficacité computationnelle et l'expressivité linguistique en fusionnant des paires d'octets ou de caractères fréquents. Comme l'entraînement des modèles linguistiques nécessite des ressources computationnelles importantes, nous proposons Fusion Token, une méthode qui améliore considérablement l'approche conventionnelle du codage par paires d'octets (BPE) dans le codage des données pour les modèles linguistiques. Fusion Token utilise une stratégie de calcul plus agressive que le BPE, en étendant les groupes de tokens des bigrammes aux décagrammes. Il est remarquable de constater qu'avec l'ajout de 1024 tokens au vocabulaire, le taux de compression dépasse largement celui d'un tokeniseur BPE classique avec un vocabulaire d'un million de mots. Dans l'ensemble, la méthode Fusion Token entraîne des améliorations notables des performances grâce à une augmentation de la portée des données par unité de calcul. De plus, une compression plus élevée se traduit par des temps d'inférence plus rapides en raison du nombre réduit de tokens par chaîne donnée. En consacrant davantage de ressources de calcul au processus de création du tokenizer, Fusion Token maximise le potentiel des modèles linguistiques en tant que moteurs de compression de données efficaces, permettant ainsi des systèmes de modélisation linguistique plus performants.
Dans le domaine en pleine évolution de la génération de mouvements, l'amélioration de la sémantique textuelle est reconnue comme une stratégie très prometteuse pour produire des mouvements plus précis et plus réalistes. Cependant, les techniques actuelles dépendent souvent de modèles linguistiques complexes pour affiner les descriptions textuelles, sans garantir un alignement précis entre les données textuelles et les données de mouvement. Ce désalignement conduit souvent à une génération de mouvements sous-optimale, limitant le potentiel de ces méthodes. Pour remédier à ce problème, nous introduisons un nouveau cadre appelé SemanticBoost, qui vise à combler le fossé entre les données textuelles et les données de mouvement. Notre solution innovante intègre des informations sémantiques supplémentaires dérivées des données de mouvement elles-mêmes, ainsi qu'un réseau de débruitage dédié, afin de garantir la cohérence sémantique et d'améliorer la qualité globale de la génération de mouvements. Grâce à des expériences et des évaluations approfondies, nous démontrons que SemanticBoost surpasse largement les méthodes existantes en termes de qualité, d'alignement et de réalisme des mouvements. De plus, nos résultats soulignent le potentiel de l'exploitation des indices sémantiques issus des données de mouvement, ouvrant de nouvelles perspectives pour une génération de mouvements plus intuitive et plus diversifiée.
Remarquez-vous une tendance ? Tout d'abord, nous constatons qu'ils commencent tous par des expressions très similaires : « Dans le paysage complexe de », « Dans le domaine de », « Dans le domaine en pleine évolution de ». Nous appelons cela un langage artificiellement fleuri. Nous avons déjà écrit à propos de la fréquence à laquelle les LLM utilisent beaucoup de mots pour produire très peu de contenu réel. Si cela peut être souhaitable pour un étudiant qui cherche à atteindre un nombre minimum de mots dans un devoir, pour un lecteur technique qui cherche à assimiler des recherches, ce type de langage trop verbeux rend le document plus difficile et plus long à lire, tout en rendant le message réel du document moins clair.
Nous nous sommes demandé si les articles générés par l'IA étaient réellement filtrés efficacement par le processus d'évaluation par les pairs, ou si certains d'entre eux passaient entre les mailles du filet.
Pour répondre à cette question, nous avons analysé la corrélation entre les résumés générés par l'IA et les décisions relatives aux articles lors de l'ICLR 2024. (Les articles oraux, spotlight et posters sont tous des articles « acceptés » ; les articles oraux et spotlight sont des catégories spéciales). Voici ce que nous avons découvert :
| Catégorie | Pourcentage généré par l'IA |
|---|---|
| ICLR 2024 oral | 2.33% |
| Affiche ICLR 2024 | 2.71% |
| Pleins feux sur l'ICLR 2024 | 1.36% |
| Rejeté | 5.42% |
Bien que le pourcentage d'articles générés par l'IA qui ont été acceptés soit inférieur au pourcentage d'articles soumis, un nombre important d'entre eux ont tout de même passé avec succès le processus d'évaluation par les pairs. Cela signifie que si les évaluateurs détectent certains contenus générés par l'IA, ils ne les détectent pas tous.
Nous remarquons que même certaines présentations orales et certains articles phares ont des résumés générés par l'IA ! En interprétant la situation avec bienveillance, nous pourrions constater à l'avenir que la recherche est en réalité de grande qualité et que les auteurs utilisent simplement ChatGPT pour les aider à mieux présenter ou réviser leur travail.
Il convient de noter que, comme une grande partie de la communauté scientifique n'est pas de langue maternelle anglaise, les LLM seront de plus en plus utilisés pour traduire en anglais des articles rédigés dans d'autres langues.
Malgré la demande explicite de la communauté IA aux auteurs de ne pas utiliser ChatGPT, beaucoup d'entre eux ignorent cette politique et utilisent quand même des LLM pour les aider à rédiger leurs articles. Plus inquiétant encore, même les experts en IA, qui servent de pairs évaluateurs pour protéger les conférences contre les articles générés par des LLM, ne sont pas en mesure de les détecter !
ChatGPT a des répercussions encore plus importantes sur l'ensemble du processus académique. Une récente étude de cas de l'ICML a révélé qu'entre 6 et 16 % des évaluations par les pairs étaient générées par l'IA, et qu'il existe une corrélation positive entre les évaluations par les pairs générées par l'IA et la proximité de la date limite de soumission de l'évaluation !
Nous appelons la communauté de l'IA à mieux appliquer ces politiques et les auteurs à assumer la responsabilité de s'assurer que leurs articles sont rédigés par des humains.
