¡Anunciamos una nueva colaboración con Proofig! Más información
Uno de los avances más importantes en los modelos de lenguaje grandes en 2025 ha sido el auge de los modelos de razonamiento. Se trata de modelos que, coloquialmente, han aprendido a pensar antes de hablar.
Un modelo de razonamiento es igual que un LLM normal, salvo que, además de producir tokens de salida, estos modelos también están entrenados para producir tokens de pensamiento o tokens de razonamiento. En la fase de pensamiento, el modelo intenta razonar a través de tareas complejas, probando diferentes enfoques y cuestionándose a sí mismo antes de dar una respuesta. En la práctica, estos modelos destacan en la resolución de problemas, especialmente en los ámbitos de las matemáticas y la programación, y obtienen puntuaciones muy superiores a las esperadas en las pruebas de referencia.
Los modelos de razonamiento realizan lo que se denomina una «cadena de pensamiento» antes de hablar. A continuación se muestra un ejemplo de cómo es, tomado de Deepseek-R1, el único modelo de razonamiento que actualmente expone públicamente los «pensamientos» del modelo.
Ejemplo de cadena de pensamiento Deepseek R1
En este ejemplo, Deepseek piensa en lo que el usuario quiere antes de decidir empezar a generar tokens, lo que lo hace más eficaz a la hora de organizar y pensar de forma lógica cuál podría ser el mejor resultado posible.
Varios proveedores han desarrollado modelos de razonamiento que han alcanzado un rendimiento de vanguardia.
La serie de modelos de razonamiento de OpenAI se denomina serie O. Los modelos disponibles actualmente son o1, o1-mini, o3, o3-pro y o4-mini. El o3-pro es el más potente de estos modelos.
Anthropic ha añadido capacidades de razonamiento a las últimas versiones de Claude. Claude 4 Opus y Claude 4 Sonnet cuentan con un modo de «pensamiento ampliado» que les permite razonar antes de responder.
La serie de modelos Gemini 2.5 de Google ahora utiliza un proceso de pensamiento interno y también son modelos de razonamiento. Gemini 2.5 Pro, Gemini 2.5 Flash y Gemini 2.5 Flash-Lite tienen capacidades de pensamiento.
Deepseek R1 fue el primer modelo de razonamiento de código abierto y fue lanzado por la empresa china Deepseek. A diferencia de otros modelos comerciales de código cerrado, en Deepseek se pueden ver los pensamientos del modelo además del resultado final.
Además, otra empresa china, Qwen, ha lanzado un modelo de razonamiento llamado Qwen-QWQ-32B. Se trata de un modelo de razonamiento más pequeño que puede implementarse en una mayor variedad de contextos que Deepseek R1.
Recientemente hemos lanzado una actualización del modelo de detección de IA Pangram que mejora el rendimiento de los modelos de razonamiento en todos los ámbitos.
| Modelo | Pangram (antiguo) | Pangram (lanzamiento en julio) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Pensamiento | 99.72% | 99.91% |
| Claude Opus 4 | 99.89% | 99.94% |
| Claude Soneto 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
La mejora más notable en el rendimiento se observa en o3 y o3-pro. Nos dimos cuenta de que o3 y o3-pro son modelos bastante diferentes de los modelos lanzados anteriormente por OpenAI, y nuestro antiguo modelo de detección de IA no era capaz de generalizar tan bien con ellos, con un rendimiento de solo el 93 % de recuperación cuando lo probamos por primera vez.
Otro problema al que nos enfrentamos es que o3 y o3-pro son significativamente más caros que sus predecesores, lo que significa que no podríamos generar datos a partir de ellos a la misma escala que los otros modelos. Para complicar aún más las cosas, estos modelos también tardan más en ejecutarse porque dedican mucho tiempo a pensar antes de generar tokens de salida.
Regeneramos nuestros datos del conjunto de entrenamiento con una pequeña cantidad de datos o3 y o3-pro incluidos. En nuestro conjunto de entrenamiento final para el lanzamiento de julio, el texto o3 solo comprende el 0,17 % de la combinación de datos de entrenamiento, y el texto o3-pro solo comprende el 0,35 %. Equilibramos esto y esperamos una generalización aumentando también la composición del texto o3-mini al 5 % de la combinación de datos de entrenamiento. Sorprendentemente, ¡funcionó muy bien! Con solo un ligero ajuste del conjunto de entrenamiento, pudimos igualar la recuperación de o3 y o3 pro con la recuperación de los otros LLM que evaluamos, sin tener que sacrificar ningún falso positivo.
Este comportamiento de Pangram, que nos permite entrenarlo con una pequeña muestra de datos procedentes de nuevos LLM que son cualitativamente diferentes a sus predecesores, convierte a Pangram en lo que denominamos un «aprendizaje con pocos ejemplos». Este comportamiento tiene importantes implicaciones: cuando se lanzan nuevos LLM, o incluso nuevos productos basados en LLM que, en el fondo, se basan en LLM ajustados que pueden tener diferentes estilos de escritura subyacentes, Pangram es capaz de adaptarse a ellos de forma rápida y económica, sin necesidad de regenerar grandes conjuntos de datos.
Muchas personas nos preguntan por qué creemos que podemos ganar lo que, en última instancia, es un juego del «gato y el ratón». Dado que Pangram es un sistema de aprendizaje con pocos ejemplos, ponerse al día con los nuevos LLM no es tan difícil como podría parecer a simple vista: solo necesitamos mostrarle unos pocos ejemplos a Pangram para que sea capaz de generalizar y aprender el patrón de manera muy eficiente. En términos sencillos, Pangram es extremadamente eficaz a la hora de «aprender a aprender» cómo suenan los nuevos LLM, ya que ha visto muchos LLM en el pasado.
Esto, junto con el hecho de que cada LLM tiene su propio estilo distintivo e idiosincrásico, ha facilitado que Pangram se adapte a los nuevos LLM a medida que se lanzan, incluso aunque los LLM estén mejorando y sean cada vez más capaces. Tal y como lo vemos, la capacidad de los LLM es ortogonal a su detectabilidad.
Hemos oído decir a varias personas del ámbito de la IA que o3 y o3-pro tienen un aire diferente al de otros LLM que hemos visto antes. Según nuestra experiencia, son los primeros modelos en mucho tiempo (desde Claude 2) que Pangram no detecta con una fiabilidad superior al 99 % (sin ver ningún dato del modelo). Aunque es difícil precisar qué los hace diferentes, aquí hay una recopilación de algunas hipótesis sobre por qué podrían tener algo especial.
o3 y o3-pro están sobreoptimizados para el uso de herramientas. Sabemos que Pangram detecta en gran medida el contenido generado por IA basándose en comportamientos e idiosincrasias introducidos en el proceso posterior al entrenamiento. OpenAI afirma en su entrada del blog que o3 y o3-pro se diferencian de sus predecesores en que se entrenan utilizando el aprendizaje por refuerzo para utilizar herramientas como parte de su proceso posterior al entrenamiento. Esta diferencia en el algoritmo posterior al entrenamiento también puede haber afectado cualitativamente al estilo de los resultados.
o3 y o3-pro tienen más alucinaciones. Según Nathan Lambert, o3 introdujo un carácter no ASCII no válido en el código, alucinó acciones que realizó mientras intentaba resolver tareas, como alucinar que ejecutaba código de sincronización en un Macbook Pro que era completamente inventado, y evaluaciones independientes realizadas por METR han descubierto que o3 tiene una propensión a «hackear sus puntuaciones» en lugar de resolver realmente tareas de agencia.
Para obtener más información sobre o3 y o3-pro, recomendamos leer la entrada del blog de Nathan, «Vibe Check» de Dan Shipper y la entrada del blog de OpenAI sobre el lanzamiento.
Pangram es tan sólido en modelos de razonamiento como cualquier otro LLM, pero o3 y o3-pro parecen diferentes a sus predecesores en términos de estilo y tono de redacción. A medida que mejorábamos el rendimiento de Pangram en o3 y o3-pro, nos dimos cuenta de que, en realidad, quizá no necesitáramos tantos ejemplos como pensábamos de cada LLM cuando se lanzaran, debido a que Pangram es un sistema de aprendizaje extremadamente sólido con pocos ejemplos.
Estamos considerando cambios en nuestra arquitectura y rutina de entrenamiento que harán que la actualización de Pangram sea mucho más rápida y fácil, y nos permitirán enviar modelos de detección de IA que puedan detectar los últimos LLM aún más rápido que antes. ¡Estén atentos a más actualizaciones!
