¡Anunciamos una nueva colaboración con Proofig! Más información
Nuestro clasificador utiliza una arquitectura de modelo de lenguaje tradicional. Recibe el texto de entrada y lo tokeniza. A continuación, el modelo convierte cada token en una incrustación, que es un vector de números que representa el significado de cada token.
La entrada se pasa a través de la red neuronal, produciendo una incrustación de salida. Un clasificador transforma la incrustación de salida en una predicción de 0 o 1, donde 0 es la etiqueta humana y 1 es la etiqueta de IA.
El modelo inicial ya era bastante eficaz, pero queríamos maximizar la precisión y reducir cualquier posibilidad de falsos positivos (predicciones erróneas de documentos escritos por humanos como generados por IA). Para ello, desarrollamos un algoritmo específico para modelos de detección de IA.
Con el conjunto de datos inicial, nuestro modelo no tenía suficiente señal para pasar de una precisión del 99 % a una precisión del 99,999 %. Aunque el modelo aprende rápidamente los patrones iniciales de los datos, necesita ver casos extremos para distinguir con precisión entre el texto humano y el texto generado por IA.
Resolvemos esto utilizando el modelo para buscar falsos positivos en grandes conjuntos de datos y ampliando el conjunto de entrenamiento inicial con estos ejemplos difíciles adicionales antes de volver a entrenar. Tras varios ciclos de este proceso, el modelo resultante muestra una tasa de falsos positivos cercana a cero, así como un rendimiento general mejorado en los conjuntos de evaluación retenidos.
