¡Anunciamos una nueva colaboración con Proofig! Más información
Proceso de entrenamiento del clasificador de textos generado por IA de Pangram Labs.
En Pangram Labs, estamos creando el mejor modelo de detección de texto con IA para proteger Internet de la inundación de contenidos falsos, engañosos y de baja calidad. Creemos que, en un mundo impulsado por los modelos de lenguaje grande (LLM), los seres humanos necesitarán contar con las mejores herramientas para identificar la verdad, y queremos proporcionar la tecnología adecuada para satisfacer esa necesidad.
Pangram Labs ha creado un clasificador avanzado para detectar textos generados por IA que podrían utilizarse en spam o contenidos fraudulentos. ¿En qué medida nuestro modelo es mejor que las alternativas existentes? En esta entrada del blog, presentamos un análisis exhaustivo del rendimiento de nuestro modelo, acompañado de nuestro primer informe técnico público.
Esta entrada del blog tratará varios temas:
Para obtener información más técnica y detallada, incluida la metodología, consulte nuestro informe técnico sobre el clasificador de textos generados por IA Pangram.
Realizamos una evaluación comparativa competitiva utilizando casi 2000 documentos para determinar métricas clave de precisión, incluyendo la precisión general, los casos de falsos positivos y los casos de falsos negativos.
Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.
Comparación de la precisión general
Los modelos de lenguaje grandes (LLM), como ChatGPT, se hicieron súper populares en 2023 cuando las capacidades de la IA llegaron a un punto de inflexión. Los LLM que impulsan los asistentes de IA podían responder preguntas, hacer lluvias de ideas y escribir contenido, todo mientras sonaban convincentemente humanos. Esto ha dado buenos resultados: la información es más accesible que nunca y los asistentes nos pueden ahorrar tiempo al hacer tareas simples. Sin embargo, cualquiera puede producir textos convincentemente humanos sin apenas esfuerzo, lo que tiene sus inconvenientes. Los spammers pueden escribir correos electrónicos que son más difíciles de filtrar. Los vendedores de los mercados online pueden producir miles de reseñas de aspecto auténtico en cuestión de minutos. Los malos actores pueden recurrir a las redes sociales e influir en la opinión pública con miles de bots impulsados por LLM.
Desafortunadamente, estos riesgos sociales no pueden mitigarse a nivel de LLM: los modelos de lenguaje no pueden distinguir si una solicitud es legítima o si es una de las miles creadas por un spammer. Por esta razón, necesitamos filtros de contenido en la capa de aplicación, para mantener los espacios humanos como tales.
Hemos escuchado mucho escepticismo en torno a este tipo de trabajo. Que el problema es imposible, que se ha demostrado que los detectores de IA «no funcionan» o que se puede eludir fácilmente. O incluso que, aunque ahora sea posible, el año que viene será más difícil y, cuando salga la IA general, será imposible.
Nuestra tesis es un poco diferente. Creemos con convicción que este problema no solo es posible, sino necesario resolverlo. No importa lo difícil que sea, cuántas horas tengamos que dedicar para crear algo que los usuarios puedan usar y en lo que puedan confiar. Sin nuestro trabajo, es solo cuestión de años antes de que Internet se vea invadido por spammers de IA. Las voces humanas se verán ahogadas por el ruido.
Para nosotros, asegurarnos de que el problema se resuelva implica seguir aumentando la dificultad de nuestros conjuntos de evaluación. Las primeras evaluaciones eran fáciles de maximizar hasta alcanzar una precisión del 100 %, pero pronto quedó claro que esto no reflejaba la precisión del mundo real. Al crear evaluaciones más difíciles, podemos medir nuestra mejora de forma objetiva. Ya creemos que nuestro punto de referencia actual es ligeramente más difícil que lo que producen los spammers del mundo real, y este punto de referencia está cerca de alcanzar su máximo. Cuando volvamos con nuevas cifras, puede parecer que otros métodos han empeorado, pero la realidad es que volveremos con un conjunto de evaluación más difícil, en el que las IA más capaces se verán empujadas al límite para crear textos que parezcan auténticos, y nuestro objetivo sigue siendo poder detectarlos con una precisión del 99 %.
El problema nunca se resolverá por completo, pero debemos avanzar de manera constante para evitar quedarnos atrás a medida que los LLM se vuelven cada vez más capaces. Esto es lo que nos propusimos y lo que seguiremos persiguiendo hasta el final.
En nuestro informe técnico, comparamos Pangram Labs con las dos herramientas líderes en detección de IA, así como con un método académico de vanguardia de 2023 para la detección de IA.
Comparamos:
Nuestra referencia incluye 1976 documentos, la mitad de ellos escritos por humanos y la otra mitad generados por ocho de los LLM más populares, incluidos ChatGPT y GPT-4.
Comparación de la precisión general
Una breve explicación sobre lo que significan estos números:
Para demostrar la tasa de falsos positivos de forma concreta: un 9 % significa que uno de cada 11 documentos humanos será marcado como IA. Una tasa de falsos positivos del 2 % significa que uno de cada 50 documentos humanos será marcado como IA. Y un 0,67 % significa que uno de cada 150 documentos humanos será marcado como IA.
Del mismo modo, una tasa de falsos negativos del 10 % significa que uno de cada diez documentos de IA pasa desapercibido, mientras que una tasa de falsos negativos del 1,4 % significa que uno de cada setenta documentos de IA pasa desapercibido.
Consideremos las implicaciones de estos resultados. No se puede confiar en un modelo de detección con una tasa de falsos positivos del 9 %, ya que, de lo contrario, abundarían las acusaciones falsas. Y un modelo de detección con una tasa de falsos negativos del 10 % dejaría pasar tanto spam de IA que, ante cualquier ataque, los usuarios seguirían viéndose inundados.
Nuestro punto de referencia se divide en dos ejes diferentes: dominio del texto y LLM de origen. El «dominio del texto» o simplemente «dominio» es una forma de referirse a una categoría específica de escritura. Por ejemplo, un ensayo de secundaria se lee de forma muy diferente a un artículo científico, que a su vez se lee de forma muy diferente a un correo electrónico. Al dividir los resultados en diferentes dominios, podemos obtener una visión más completa de las áreas en las que destacamos y en las que podemos centrar nuestros esfuerzos para mejorar.
Precisión por dominio de texto
Los resultados muestran que Pangram Labs supera a GPTZero y Originality en los diez ámbitos evaluados.
Uno de los dominios, el correo electrónico, es un resultado especialmente sólido porque Pangram Labs no incluye ningún correo electrónico en sus datos de entrenamiento. Nuestro rendimiento en el correo electrónico se basa íntegramente en el entrenamiento de un modelo robusto que se generaliza a la mayoría de las categorías de escritura que puede producir un LLM.
Documentos de IA clasificados correctamente, por origen LLM
La división por origen LLM cuenta otra historia, que los modelos de detección de IA competidores pueden funcionar mejor en modelos de código abierto menos capaces, pero funcionan peor en ChatGPT (gpt-3.5-turbo) y realmente tienen dificultades en GPT-4, el LLM más capaz de OpenAI. Evaluamos varias versiones de los modelos GPT 3.5 Turbo y GPT-4, ya que son los más utilizados en la práctica.
Hemos descubierto que somos el único modelo capaz de detectar texto GPT-4 de forma fiable y que superamos a la competencia en todos los demás modelos que hemos probado.
Una observación interesante es que nuestra competencia obtiene mejores resultados en los modelos de código abierto que en los modelos GPT y Gemini de código cerrado. Nuestra hipótesis es que esto se debe a una dependencia excesiva de las características de perplejidad y explosividad; aunque estas características son valiosas, solo se puede calcular con precisión la perplejidad y la explosividad en un modelo de código abierto: en los modelos de código cerrado, solo se puede hacer una estimación aproximada. Esto demuestra el valor de nuestro enfoque basado en el aprendizaje profundo: no se basa en características frágiles como la perplejidad y puede aprender patrones subyacentes más sutiles.
Una pregunta que nos hacen a menudo es: ¿qué ocurre cuando se lanza un nuevo modelo lingüístico? ¿Es necesario entrenar cada nuevo modelo para detectar sus resultados? En resumen, no. OpenAI lanzó dos nuevas versiones de sus LLM en las últimas semanas. Sin entrenar en absoluto estos nuevos LLM, evaluamos nuestro modelo y descubrimos que seguía funcionando bastante bien.
Estas nuevas versiones son similares a las versiones anteriores lanzadas por OpenAI. Por lo tanto, la siguiente pregunta que nos hacemos es: ¿qué resultados obtenemos con familias de modelos completamente diferentes? Para responder a esta pregunta, evaluamos nuestro modelo en una serie de modelos de código abierto que nuestro clasificador nunca había visto antes.
Rendimiento del LLM de código abierto, no visto por Pangram Labs durante el entrenamiento.
¡Genial! Gran parte de esto tiene que ver con el hecho de que muchos modelos de código abierto parten de la familia Llama o utilizan conjuntos de entrenamiento de código abierto similares, pero esto nos ayuda a confiar en nuestra capacidad de generalizar sin necesidad de entrenar cada uno de los modelos de código abierto.
Dicho esto, nuestra canalización de datos está diseñada para que podamos generar un nuevo conjunto de entrenamiento a las pocas horas de lanzarse una API de LLM, con el único obstáculo del límite de velocidad de la API. Somos muy conscientes de que los LLM siguen mejorando y, a medida que nos acercamos a la IGA, será cada vez más importante mantenernos al día y asegurarnos de que podemos captar incluso a los agentes de IA más avanzados.
Investigaciones anteriores revelaron que los detectores LLM comerciales muestran un sesgo constante contra los hablantes no nativos (ESL, o inglés como segunda lengua). Para comprobarlo, los investigadores utilizaron una muestra de referencia de 91 ensayos del TOEFL (Test of English as a Foreign Language) para poner a prueba varios detectores.
Seleccionamos los 91 ensayos TOEFL de nuestro conjunto de entrenamiento y evaluamos Pangram Labs en el benchmark. Gracias a nuestro trabajo para minimizar las tasas de falsos positivos para ESL, registramos una tasa de falsos positivos del 0 % en el benchmark TOEFL, lo que significa que ninguno de los ensayos humanos de este benchmark se clasificó erróneamente como IA.
Comparación con el punto de referencia del TOEFL
Detectar contenido generado por IA no es una tarea fácil. Entrenamos un modelo de aprendizaje profundo con una arquitectura basada en transformadores, utilizando dos métodos clave para llevar la precisión de nuestro modelo al siguiente nivel.
Todos los documentos de nuestro conjunto de entrenamiento están etiquetados como «Humano» o «IA». En el aprendizaje automático, llamamos a estos documentos «ejemplos».
Tenemos millones de ejemplos humanos disponibles para entrenar a partir de conjuntos de datos públicos, pero no disponemos de conjuntos de datos de IA equivalentes. Resolvemos este problema emparejando cada ejemplo humano con un «espejo sintético», un término que utilizamos para describir un documento generado por IA que se basa en un documento humano. Solicitamos a un LLM un documento sobre el mismo tema y de la misma longitud. Para una pequeña parte de los ejemplos, hacemos que el LLM comience con la primera frase del documento humano, con el fin de que los documentos de IA sean más variados.
Al principio, nos topamos con un techo al entrenar nuestro modelo. Intentamos añadir más ejemplos, pero finalmente descubrimos que el modelo estaba «saturado»: añadir más ejemplos de entrenamiento no mejoraba el modelo.
Experimento sobre leyes de escala
El rendimiento de este modelo inicial no fue satisfactorio, ya que seguía teniendo una tasa de falsos positivos superior al 1 % en muchos dominios. Lo que descubrimos fue que no solo necesitábamos más ejemplos, sino que necesitábamos ejemplos más difíciles.
Identificamos ejemplos más difíciles tomando nuestro modelo inicial y escaneando decenas de millones de ejemplos humanos en conjuntos de datos abiertos, buscando los documentos más difíciles que nuestro modelo clasificó erróneamente. A continuación, generamos espejos sintéticos para estos documentos y los añadimos a nuestro conjunto de entrenamiento. Por último, volvimos a entrenar el modelo y repetimos el proceso.
Proceso de entrenamiento del clasificador de textos generado por IA de Pangram Labs.
Con este método de entrenamiento, pudimos reducir nuestras tasas de falsos positivos en un factor de 100 y lanzar un modelo del que estamos orgullosos.
Tabla de tasas de falsos positivos por dominio
A este método lo denominamos «minería negativa dura con espejos sintéticos» y lo explicamos con más detalle en nuestro informe técnico.
Obviamente, este no es el final de nuestro viaje. Tenemos un montón de ideas nuevas sobre cómo podemos llevar el rendimiento al siguiente nivel. Vamos a seguir mejorando nuestros conjuntos de evaluación para poder realizar un mejor seguimiento de la tasa de falsos positivos hasta las centésimas de porcentaje. Tenemos previsto ampliar nuestro modelo para que funcione en idiomas distintos del inglés y estamos trabajando para comprender y detectar nuestros casos de fallo. ¡Estén atentos a lo que hagamos a continuación!
¿Alguna pregunta o comentario? ¡Póngase en contacto con nosotros en info@pangram.com!
