¡Anunciamos una nueva colaboración con Proofig! Más información

Análisis en profundidad de las reseñas de Yelp

Bradley Emi
10 de noviembre de 2023

NOTA: ¡Hemos cambiado nuestro nombre a Pangram Labs! Consulte nuestra publicación en el blog para obtener más detalles.

En Checkfor.ai, nos esforzamos por ser el mejor detector de texto con IA de su clase para promover nuestra misión de proteger Internet de la contaminación generada por IA de baja calidad. Una de las áreas más importantes que hay que defender son las plataformas de opiniones de usuarios.

Las reseñas falsas en Internet perjudican tanto a las empresas como a los consumidores, y ChatGPT solo ha facilitado aún más la comisión de fraudes a gran escala en este ámbito.

Reseña generada por ChatGPT en Yelp

Mantener la confianza de los usuarios en las reseñas online es una parte importante de nuestra misión en Checkfor.ai para proteger la autenticidad del contenido generado por personas en Internet.

Acerca de mí

Mi nombre es Bradley Emi y soy el director técnico de Checkfor.ai. He trabajado como investigador de IA en Stanford, he lanzado modelos de producción como científico de aprendizaje automático en el equipo de Tesla Autopilot y he dirigido un equipo de investigación que ha creado una plataforma para diseñar fármacos con grandes redes neuronales en Absci. En los coches autónomos y el descubrimiento de fármacos, una precisión del 99 % simplemente no es suficiente. Una precisión del 99 % podría significar que 1 de cada 100 peatones sea atropellado por un vehículo autónomo, o que 1 de cada 100 pacientes sufra efectos secundarios potencialmente mortales por un fármaco mal diseñado.

Aunque detectar texto generado por IA no es necesariamente una cuestión de vida o muerte, en Checkfor.ai queremos diseñar modelos y sistemas de software que cumplan con los mismos estándares de calidad. Nuestro detector debe resistir ataques adversarios como la paráfrasis, la ingeniería avanzada de prompts y herramientas de evasión de detección como undetectable.ai. Nos tomamos muy en serio la resolución de este problema (por ejemplo, no solo llegar al 99 %), por lo que una de las principales prioridades de nuestro equipo de ingeniería es desarrollar una plataforma de evaluación extremadamente robusta.

Filosofía de evaluación: los conjuntos de pruebas son pruebas unitarias.

Una empresa de ciberseguridad Software 1.0 nunca lanzaría un producto sin pruebas unitarias. Como empresa Software 2.0, necesitamos el equivalente a las pruebas unitarias, salvo que estas deben probar modelos grandes con millones o incluso miles de millones de parámetros, que pueden comportarse de forma estocástica, y deben funcionar correctamente al tiempo que cubren una amplia distribución de casos extremos. No podemos conformarnos con alcanzar una «precisión del 99 % en el conjunto de pruebas» y dar por terminado el trabajo: necesitamos evaluaciones que prueben específicamente los tipos de ejemplos con los que nos encontraremos en el mundo real.

Un buen conjunto de pruebas responde a preguntas específicas y minimiza el número de variables de confusión.

Algunos ejemplos de preguntas de examen específicas y los correspondientes conjuntos de preguntas son:

  • ¿Qué tan bien funciona nuestro modelo con las reseñas de Yelp? Conjunto de prueba de mil reseñas reales de Yelp y mil reseñas de Yelp generadas por IA.
  • ¿Qué tan bien funciona nuestro modelo con textos parafraseados? Conjunto de prueba compuesto por cientos de ensayos reales de estudiantes, cientos de ensayos generados por IA y esos mismos ensayos parafraseados con QuillBot o Undetectable.AI.

Hay varias razones por las que no se puede simplemente combinar todo lo que hay en el conjunto de pruebas y dar una cifra.

  • Hay demasiadas variables de confusión: no sabemos si la prueba ha superado o no debido a la distribución de datos o al modelo.
  • Cualquiera puede inflar artificialmente su índice de precisión simplemente inundando el conjunto de pruebas con ejemplos fáciles.
  • Sin una explicación abierta y reproducible de cómo se creó el conjunto de pruebas de forma imparcial, no podemos saber si alguien simplemente seleccionó ejemplos en los que su modelo tiene éxito y la línea de base fracasa.

Por eso, estudios comparativos como estos no dan en el blanco. No están bien enfocados y no prueban los comportamientos específicos que queremos que el modelo haga. Los conjuntos de pruebas sesgados muestran lo mejor del modelo, no cómo se desempeña cuando se enfrenta a ejemplos del mundo real.

Una referencia imparcial de Yelp

Un ejemplo de aplicación real de la detección de texto mediante IA es la detección de reseñas generadas por IA en Yelp. Yelp se compromete a moderar estrictamente su plataforma de reseñas, y si consultamos su Informe de confianza y seguridad para 2022, podemos ver que Yelp se preocupa profundamente por combatir las reseñas fraudulentas, remuneradas, incentivadas o deshonestas.

Afortunadamente, Yelp también ha publicado un excelente conjunto de datos de código abierto. Hemos seleccionado aleatoriamente 1000 reseñas de este conjunto de datos y hemos generado 1000 reseñas sintéticas con ChatGPT, el LLM más utilizado.

Es importante señalar que las reseñas de ChatGPT corresponden a negocios reales de Yelp procedentes de su conjunto de datos de Kaggle: de esta forma, el modelo no puede hacer trampa ajustándose excesivamente a detalles como la diferencia en la distribución de los negocios. Durante la evaluación, comprobamos si el modelo realmente ha aprendido a utilizar las características correctas del texto para diferenciar lo real de lo falso.

Utilizamos este conjunto de datos para averiguar cuál de los modelos de detección de IA realmente puede diferenciar las reseñas generadas por ChatGPT de las reales.

Precisión de los modelos

Nuestra métrica más simple es la precisión: ¿cuántos ejemplos clasificó correctamente cada modelo?

  • Checkfor.ai: 99,85 % (1997/2000)
  • Originalidad.AI: 96,2 % (1738/1806) (nota: Originalidad.AI se niega a clasificar documentos de menos de 50 palabras).
  • GPTZero: 90,8 % (1815/2000)

Aunque una diferencia del 99,85 % frente al 96 % puede no parecer inicialmente muy grande, si tenemos en cuenta la tasa de error, podemos situar estas cifras en un contexto más adecuado.

Se espera que Checkfor.ai falle solo una vez cada 666 consultas, mientras que Originality.AI falle una vez cada 26 consultas y GPTZero falle una vez cada 11 consultas. Esto significa que nuestra tasa de error es más de 25 veces mejor que la de Originality.AI y 60 veces mejor que la de GPTZero.

Falsos positivos y falsos negativos

Para analizar los falsos positivos y los falsos negativos (en la jerga del aprendizaje automático, consideraríamos las estadísticas muy similares de precisión y recuperación), podemos examinar la matriz de confusión: ¿cuáles son las tasas relativas de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.

Si bien en la detección de texto generado por IA es más importante una tasa baja de falsos positivos (no queremos acusar falsamente a seres humanos reales de plagiar a ChatGPT), también es necesaria una tasa baja de falsos negativos: no podemos permitir que se nos escape entre un 10 y un 20 % del contenido generado por IA.

Confianza en el modelo

En última instancia, nos gustaría que nuestro modelo expresara un alto grado de confianza cuando esté claro que el texto es humano o ha sido escrito por ChatGPT.

Siguiendo una estrategia de visualización similar a la del excelente artículo académico DetectGPT de Mitchell et. al., trazamos los histogramas de las predicciones del modelo tanto para las reseñas generadas por IA como para las reseñas reales de los tres modelos. Dado que los tres modelos tienen una precisión superior al 90 %, una escala logarítmica en el eje y es la más útil para visualizar las características de la confianza de cada modelo.

En este gráfico, el eje x representa la probabilidad de que el modelo prediga que la reseña introducida ha sido generada por IA. El eje y representa la frecuencia con la que el modelo predice esa probabilidad concreta para texto real (barras azules) o generado por IA (barras rojas). Vemos que, al observar estas predicciones «suaves», en lugar de un simple sí o no, Checkfor.ai es mucho mejor a la hora de trazar una línea divisoria clara y realizar predicciones más fiables que GPTZero u Originality.AI.

GPTZero tiende a predecir demasiados ejemplos en el rango de probabilidad de 0,4 a 0,6, con una moda en torno a 0,5. Por otro lado, el problema de los falsos positivos de Originality.AI se hace aún más evidente al examinar las predicciones suaves. Muchas reseñas reales están muy cerca de ser predichas como generadas por IA, incluso si no superan el umbral de 0,5. Esto hace que al usuario le resulte difícil confiar en que el modelo pueda predecir de forma fiable el texto generado por IA, ya que pequeñas perturbaciones en la reseña pueden permitir a un adversario eludir el detector editando iterativamente la reseña hasta que quede por debajo del umbral de detección.

Nuestro modelo, por otro lado, suele ser muy decisivo. Por lo general, somos capaces de tomar decisiones con confianza. Para los lectores con conocimientos profundos de aprendizaje automático o teoría de la información, tenemos la entropía cruzada/divergencia KL más baja entre la distribución real y la distribución prevista.

Es evidente que resulta muy útil predecir con gran fiabilidad qué textos son reales (véase esta divertida imagen de Twitter). Aunque es evidente que este educador malinterpretó la probabilidad de la IA como la cantidad de texto escrito por la IA, cuando los detectores no están seguros de que un texto real sea realmente real, se abre la puerta a malinterpretaciones.

https://twitter.com/rustykitty_/status/1709316764868153537

De los tres errores predichos por Checkfor.ai, lamentablemente dos de ellos son bastante seguros. Nuestro detector no es perfecto, y estamos trabajando activamente en calibrar el modelo para evitar este tipo de predicciones erróneas tan seguras.

Conclusión

Estamos publicando en código abierto los conjuntos de datos utilizados para esta evaluación de reseñas reales y falsas de Yelp, de modo que los modelos futuros puedan utilizar este importante punto de referencia para comprobar la precisión de sus detectores.

Nuestras principales conclusiones son:

Checkfor.ai presenta una tasa baja tanto de falsos positivos como de falsos negativos. Checkfor.ai es capaz de distinguir entre reseñas reales y reseñas generadas por IA no solo con gran precisión, sino también con gran fiabilidad. En el futuro publicaremos más entradas de blog de este tipo y compartiremos públicamente nuestras evaluaciones sinceras sobre nuestro modelo a medida que aprendamos más. ¡Estén atentos y háganos saber qué opinan!

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.