¡Anunciamos una nueva colaboración con Proofig! Más información
Foto de Google DeepMind.
Hoy nos complace mostrar nuestra capacidad para adaptarnos rápidamente a los nuevos LLM del mercado con el lanzamiento de una actualización de nuestro modelo que alcanza una precisión casi perfecta en la detección de texto escrito por IA de GPT-4o, Claude 3 y LLaMA 3.
Nuestro modelo más reciente era bastante bueno detectando los resultados de los nuevos modelos, incluso sin haber visto ningún ejemplo de ellos en el conjunto de entrenamiento. Sin embargo, no nos conformamos con ser «bastante buenos», queremos asegurarnos de que seguimos ampliando las fronteras de lo que es posible con la detección mediante IA y de que conseguimos la mayor precisión posible para nuestros clientes.
Para comprobar nuestro rendimiento en los modelos lingüísticos de última generación, hemos renovado nuestro conjunto de evaluación, compuesto por 25 000 ejemplos de textos humanos difíciles de clasificar y textos generados por IA a partir de un panel de modelos lingüísticos. Aproximadamente el 40 % de este nuevo conjunto de evaluación consiste en una amplia variedad de textos generados por IA a partir de GPT-4o, Claude 3 y LLaMA 3, que abarcan varios ámbitos, como noticias, reseñas, educación y mucho más.
Utilizamos todas las versiones de los nuevos modelos cuando están disponibles: por ejemplo, tomamos muestras de manera uniforme de las versiones Opus, Sonnet y Haiku de Claude 3.
Tras actualizar nuestro conjunto de datos de entrenamiento para incorporar los últimos LLM, hemos comprobado que, una vez más, estamos logrando una precisión casi perfecta en el texto generado por la última generación de modelos lingüísticos.
| LLM | Texto pangramático Precisión de marzo | Texto pangramático Precisión de mayo | % de mejora |
|---|---|---|---|
| Todo | 99.54% | 99.84% | +0.30% |
| GPT-4o | 99.78% | 100% | +0.22% |
| Claude 3 | 99.12% | 99.76% | +0.64% |
| LLaMA 3 | 99.58% | 99.97% | +0.39% |
Además de mejorar el rendimiento en los nuevos modelos, hemos descubierto que incluir datos de entrenamiento de la última generación de modelos mejora ligeramente el rendimiento en varios modelos antiguos.
Hemos observado que, aunque no introducimos regresiones en nuestro antiguo conjunto de evaluación de modelos, en realidad mejoramos varios casos de detección de GPT-3.5 y GPT-4 (normal). En concreto, hemos observado que 8 casos de GPT-3.5 que antes fallaban en el modelo ahora pasan, y 13 casos de GPT-4 que antes fallaban en el modelo ahora pasan. Concluimos aquí que la mayor capacidad de nuestro modelo para detectar GPT-4o, Claude 3 y LLaMA 3 no supone ningún coste en cuanto a la capacidad de detectar modelos más antiguos.
Desde el principio fuimos conscientes de que la frontera de los LLM cambiaría rápidamente, por lo que diseñamos la arquitectura de nuestro sistema teniendo esto en cuenta. Nuestros sistemas están construidos para poder regenerar datos y comenzar a entrenar un nuevo modelo en cuestión de horas desde que una nueva API se pone a disposición del público.
Cuando se lanza un nuevo modelo, generar un nuevo conjunto de datos y volver a entrenar el modelo es tan sencillo como cambiar la configuración. Contamos con una biblioteca estándar de plantillas de prompts diseñadas para introducirse en los LLM con el fin de producir textos similares a los humanos, que se acercan, pero no son exactamente iguales, a la parte humana de nuestro conjunto de datos. Detallamos este proceso, denominado «Hard Negative Mining with Synthetic Mirrors» (minería de negativos duros con espejos sintéticos), en nuestro informe técnico.
El calendario para el lanzamiento de este nuevo modelo fue el siguiente:
13 de mayo: Se lanzó GPT-4o y se puso a disposición en la API de OpenAI. 14 de mayo: Se actualizó el canal de datos y se crearon nuevos conjuntos de entrenamiento y evaluación. 15-16 de mayo: Se entrenó el modelo de detección de IA utilizando los nuevos conjuntos de datos. 17 de mayo: Se realizaron controles de calidad y comprobaciones de integridad y se lanzó el modelo.
La infraestructura que hemos construido nos permite adaptarnos rápidamente, incluyendo el texto de los nuevos modelos en el sistema de detección de producción en solo una semana.
A medida que los nuevos modelos mejoran, deben ser más difíciles de detectar, ¿verdad? Todavía no hemos encontrado pruebas que respalden este argumento tentador, pero en última instancia erróneo.
Desde el punto de vista observacional, estamos descubriendo que los modelos más capaces, debido a sus estilos más idiosincrásicos, son en realidad más fáciles de detectar que los modelos menos capaces. Por ejemplo, descubrimos que nuestro antiguo modelo era mejor para detectar a Claude Opus que a Sonnet y Haiku.
Como vemos en la tabla de clasificación de LMSYS, muchos modelos básicos están convergiendo asintóticamente al nivel de GPT-4, pero ningún modelo lo ha superado aún de manera convincente por un margen sustancial. Si observamos la situación desde una perspectiva global, si varias empresas de modelos básicos adoptan la misma arquitectura basada en la atención y la entrenan en todo Internet, no es de extrañar que el lenguaje que salga de todos los modelos acabe sonando increíblemente similar entre sí. Quienes interactúan con modelos de lenguaje de forma habitual comprenderán inmediatamente lo que queremos decir con esto.
A nivel observacional, seguimos constatando que los LLM, cuando se les pide que escriban de forma creativa y auténtica, como un ensayo de opinión, una reseña o un relato corto creativo, siguen produciendo tonterías insulsas y poco imaginativas. Creemos que esto es fundamentalmente una propiedad del objetivo de optimización de predecir completaciones de alta probabilidad, al tiempo que se alejan de pensamientos e ideas originales fuera de la distribución.
Valoramos los escritos originales de nuestros semejantes porque pueden ofrecernos una perspectiva nueva o una forma diferente de pensar, no porque sean lo que una persona diría normalmente. Mientras este valor siga siendo válido, siempre habrá necesidad de detectar la IA y siempre habrá una forma de resolverlo.
