Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
L'une des avancées les plus importantes dans le domaine des grands modèles linguistiques en 2025 a été l'essor des modèles de raisonnement. Il s'agit de modèles qui, en termes simples, ont appris à réfléchir avant de parler.
Un modèle de raisonnement est identique à un LLM normal, sauf qu'en plus de produire des jetons de sortie, ces modèles sont également entraînés à produire des jetons de réflexion, ou jetons de raisonnement. Dans la phase de réflexion, le modèle tente de raisonner à travers des tâches complexes, en essayant différentes approches et en se remettant en question avant de donner une réponse. Dans la pratique, ces modèles excellent dans la résolution de problèmes, en particulier dans les domaines des mathématiques et du codage, et obtiennent des scores bien supérieurs à leur poids dans les benchmarks.
Les modèles de raisonnement effectuent ce qu'on appelle une « chaîne de pensée » avant de parler. Voici un exemple de ce à quoi cela ressemble, tiré de Deepseek-R1, le seul modèle de raisonnement qui expose actuellement publiquement les « pensées » du modèle.
Exemple de chaîne de pensée Deepseek R1
Dans cet exemple, Deepseek réfléchit à ce que souhaite l'utilisateur avant de commencer à générer des jetons, ce qui lui permet d'organiser et d'analyser de manière plus efficace et logique le meilleur résultat possible.
Plusieurs fournisseurs ont développé des modèles de raisonnement qui ont atteint des performances de pointe.
La série de modèles de raisonnement d'OpenAI s'appelle la série O. Les modèles actuellement disponibles sont o1, o1-mini, o3, o3-pro et o4-mini. o3-pro est le plus performant de ces modèles.
Anthropic a ajouté des capacités de raisonnement aux dernières versions de Claude. Claude 4 Opus et Claude 4 Sonnet disposent tous deux d'un mode « réflexion approfondie » qui leur permet de raisonner avant de répondre.
La série de modèles Gemini 2.5 de Google utilise désormais un processus de réflexion interne et comprend également des modèles de raisonnement. Gemini 2.5 Pro, Gemini 2.5 Flash et Gemini 2.5 Flash-Lite disposent tous de capacités de réflexion.
Deepseek R1 a été le premier modèle de raisonnement open source, lancé par la société chinoise Deepseek. Contrairement aux autres modèles commerciaux à code source fermé, Deepseek permet de voir les raisonnements du modèle en plus du résultat final.
De plus, une autre entreprise chinoise, Qwen, a lancé un modèle de réflexion appelé Qwen-QWQ-32B. Il s'agit d'un modèle de raisonnement plus petit qui peut être déployé dans une plus grande variété de contextes que Deepseek R1.
Nous avons récemment publié une mise à jour du modèle de détection Pangram AI qui améliore les performances des modèles de raisonnement dans tous les domaines.
| Modèle | Pangram (ancien) | Pangram (sortie en juillet) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Réflexion | 99.72% | 99.91% |
| Claude Opus 4 | 99.89% | 99.94% |
| Claude Sonnet 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
Les améliorations les plus significatives en termes de performances concernent les modèles o3 et o3-pro. Nous avons constaté que les modèles o3 et o3-pro sont très différents des modèles précédemment publiés par OpenAI, et que notre ancien modèle de détection d'IA n'était pas en mesure de les généraliser aussi bien, avec un taux de rappel de seulement 93 % lors de notre premier test.
Un autre problème auquel nous avons été confrontés est que les modèles o3 et o3-pro sont nettement plus coûteux que leurs prédécesseurs, ce qui signifie que nous ne pourrions pas générer de données à partir de ceux-ci à la même échelle que les autres modèles. Pour compliquer encore les choses, ces modèles prennent également plus de temps à fonctionner, car ils passent beaucoup de temps à réfléchir avant de générer des jetons de sortie.
Nous avons régénéré notre ensemble de données d'entraînement en y incluant une petite quantité de données o3 et o3-pro. Dans notre ensemble d'entraînement final pour la version de juillet, le texte o3 ne représente que 0,17 % du mélange de données d'entraînement, et le texte o3-pro seulement 0,35 %. Nous avons équilibré cela et espéré une généralisation en augmentant également la composition du texte o3-mini à 5 % de l'ensemble des données d'entraînement. Étonnamment, cela a très bien fonctionné ! Avec un léger ajustement de l'ensemble de données d'entraînement, nous avons pu faire correspondre le rappel de o3 et o3 pro avec celui des autres LLM que nous évaluons, sans avoir à faire de compromis sur les faux positifs.
Ce comportement de Pangram, qui permet de l'entraîner à partir d'un petit échantillon de données provenant de nouveaux LLM qualitativement différents de leurs prédécesseurs, fait de Pangram ce que nous appelons un « Few-Shot Learner » (apprenant à partir de quelques exemples). Ce comportement a des implications importantes : lorsque de nouveaux LLM sont lancés, ou même de nouveaux produits basés sur des LLM qui reposent en réalité sur des LLM affinés pouvant avoir des styles d'écriture sous-jacents différents, Pangram est capable de s'y adapter rapidement et à moindre coût, sans avoir besoin de régénérer massivement des ensembles de données.
Beaucoup de gens nous demandent pourquoi nous pensons pouvoir gagner ce qui est finalement un jeu du « chat et de la souris ». Pangram étant un système d'apprentissage à quelques essais, rattraper les nouveaux LLM n'est pas aussi difficile qu'il n'y paraît à première vue : il suffit de quelques exemples pour que Pangram soit capable de généraliser et d'apprendre le modèle de manière très efficace. En termes simples, Pangram est extrêmement efficace pour « apprendre à apprendre » à quoi ressemblent les nouveaux LLM, car il en a vu un grand nombre par le passé.
Ceci, ajouté au fait que chaque LLM a son propre style distinct et idiosyncrasique, a en fait permis à Pangram de s'adapter plus facilement aux nouveaux LLM à mesure qu'ils sont lancés, même si les LLM s'améliorent et deviennent plus performants. Selon nous, la capacité d'un LLM est orthogonale à sa détectabilité.
Plusieurs personnes issues du milieu de l'IA nous ont fait savoir que les modèles o3 et o3-pro ont une approche différente des autres modèles d'apprentissage profond (LLM) que nous avons pu observer jusqu'à présent. D'après notre expérience, ce sont les premiers modèles depuis longtemps (depuis Claude 2) que Pangram ne parvient pas à détecter en zero-shot avec une fiabilité supérieure à 99 % (sans voir aucune donnée du modèle). Bien qu'il soit difficile de déterminer précisément ce qui les rend différents, voici quelques hypothèses qui pourraient expliquer leur particularité.
o3 et o3-pro sont sur-optimisés pour l'utilisation d'outils. Nous savons que Pangram détecte en grande partie le contenu généré par l'IA en se basant sur les comportements et les particularités introduits après la formation. OpenAI indique dans son article de blog que o3 et o3-pro diffèrent de leurs prédécesseurs en ce qu'ils sont formés à l'aide de l'apprentissage par renforcement à utiliser des outils dans le cadre de leur processus post-formation. Cette différence dans l'algorithme post-formation a peut-être également eu une incidence qualitative sur le style des résultats.
o3 et o3-pro ont davantage tendance à halluciner. Selon Nathan Lambert, o3 a inséré un caractère non ASCII invalide dans le code, a halluciné les actions qu'il a entreprises pour tenter de résoudre des tâches, par exemple en hallucinant qu'il exécutait un code de chronométrage sur un Macbook Pro qui était complètement fictif, et des évaluations indépendantes réalisées par METR ont révélé que o3 avait tendance à « pirater ses scores » plutôt que de résoudre réellement des tâches d'agent.
Pour plus d'informations sur o3 et o3-pro, nous vous recommandons de lire l'article de blog de Nathan, « Vibe Check » de Dan Shipper et l'article de blog publié par OpenAI.
Pangram est aussi performant que n'importe quel autre LLM en matière de modèles de raisonnement, mais o3 et o3-pro semblent différents de leurs prédécesseurs en termes de style et de ton rédactionnels. En améliorant les performances de Pangram sur o3 et o3-pro, nous avons réalisé que nous n'avions peut-être pas besoin d'autant d'exemples que nous le pensions pour chaque LLM lors de leur sortie, car Pangram est extrêmement performant en matière d'apprentissage en quelques essais.
Nous envisageons d'apporter des modifications à notre architecture et à notre routine de formation afin d'accélérer et de faciliter la mise à jour de Pangram, et de nous permettre de fournir des modèles de détection IA capables de détecter les derniers LLM encore plus rapidement qu'auparavant. Restez à l'écoute pour plus d'informations !
