Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Évoluer avec LoRA

Bradley Emi
22 mars 2024

Photo prise par Tara Winstead.

Le mois dernier, nous avons publié notre rapport technique qui compare de manière exhaustive notre modèle à ceux de nos concurrents ainsi qu'à une méthode académique de pointe.

Aujourd'hui, nous annonçons la sortie d'un nouveau modèle qui améliore encore davantage nos performances sur ce benchmark exigeant.

PrécisionTaux de faux négatifsTaux de faux positifs
Modèle de février99.0%1.30%0.67%
Modèle de mars99.84%0.11%0.19%

Qu'est-ce qui est responsable de cette amélioration ?

Pour produire le nouveau modèle, nous avons utilisé la même approche d'apprentissage actif que celle utilisée dans notre rapport technique, Hard Negative Mining with Synthetic Mirrors. Cependant, pour cette mise à jour, nous avons considérablement élargi notre modèle, augmentant le nombre total de paramètres d'un ordre de grandeur. Pour ce faire, nous avons également dû augmenter les ressources informatiques nécessaires à l'entraînement du nouveau modèle et mettre en œuvre la technique LoRA (Low-Rank Adaptation), couramment utilisée pour affiner efficacement les modèles LLM. Ce nouveau modèle est également notre première version d'un modèle entraîné sur les nouveaux GPU H100 de NVIDIA !

Augmenter la taille du modèle sans surajustement

Les modèles plus petits se sont avérés plus efficaces pour DetectGPT dans la détection de textes générés par l'IA, et nous avons déjà abordé la saturation des lois d'échelle dans notre rapport technique. En résumé, nous avons constaté que l'ajout de données supplémentaires n'améliore pas le modèle au-delà d'un seuil critique (dans notre cas, environ 40 000 documents).

De plus, si vous consultez le classement des autres tâches de classification de texte telles que MTEB, IMDB sentiment analysis et AGNews, vous constaterez que celui-ci est toujours dominé par des modèles tels que XLNet, DeBERTa et T5-XXL. Bien que ces modèles soient des architectures éprouvées qui fonctionnent bien depuis des années pour des tâches de classification simples, ils sont loin d'atteindre la taille des modèles linguistiques de pointe actuels. Ces modèles de type BERT comptent environ deux cents millions de paramètres, tandis que les principaux LLM open source en comptent désormais des dizaines de milliards, ce qui représente une différence considérable !

La raison pour laquelle les architectures de type LLM ne donnent pas de très bons résultats en matière de classification de texte tient principalement au fait qu'elles ont tendance à surajustement. Comment tirer le meilleur parti des deux mondes : un modèle qui dispose d'une base de connaissances beaucoup plus importante, comme un LLM, mais qui ne surajustement pas les tâches de classification ?

LoRA à la rescousse

Dans notre dernière version, nous tirons parti d'une technique relativement courante pour affiner les grands modèles linguistiques, connue sous le nom de LoRA.

Visualisation des opérations du tenseur LoRA tirées de l'article original.

L'idée principale de LoRA est qu'au lieu d'affiner l'ensemble du modèle, ce qui (1) prend beaucoup de temps et de mémoire, (2) est très sujet au surajustement et (3) peut entraîner un oubli catastrophique des données de pré-entraînement, le LLM de base est maintenu en place et les modules adaptateurs sont entraînés en tant que réseaux secondaires parallèlement aux blocs d'attention centraux du LLM. LoRA signifie « Low-Rank Adaptation » (adaptation de rang faible), ce qui signifie que les modules adaptateurs se décomposent facilement en matrices de poids efficaces en termes de paramètres, ce qui les rend très rapides à entraîner et efficaces en termes de mémoire.

Cette illustration tirée de l'article LoRA explique bien le concept. Le LLM d'origine est représenté uniquement par la matrice W bleue. Les modules orange peuvent être entraînés, tandis que le module bleu du LLM d'origine est simplement gelé, car le module adaptateur apprend à le contourner.

Nous constatons que LoRA améliore considérablement nos performances, en réduisant à la fois les taux de faux positifs et de faux négatifs.

Nous émettons l'hypothèse que cette amélioration est en grande partie due à la plus grande quantité de connaissances pré-entraînées contenues dans le LLM, dont nous pouvons tirer parti sans surajustement grâce à l'idée de l'adaptateur LoRA. Plutôt cool !

Prochaines étapes

Nous continuerons à améliorer l'architecture au fil du temps afin de rester à la pointe des meilleures architectures d'apprentissage profond existantes. Nous avons également d'autres améliorations architecturales et de données en cours de développement, mais il est d'abord temps de créer un ensemble d'évaluation encore plus difficile !

Restez à l'écoute...

Vous souhaitez nous contacter ? Envoyez-nous un e-mail à info@pangram.com!

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.