¡Anunciamos una nueva colaboración con Proofig! Más información
A medida que la inteligencia artificial se generaliza cada vez más, los profesores quieren poder saber si los alumnos están utilizando la IA para escribir sus trabajos. Un detector de IA para profesores parece la solución natural, pero muchos se muestran reticentes. ¿Qué pasa si el software comete un error?
Esa preocupación tiene sentido. Hasta ahora, los detectores de IA han sido bastante poco fiables. Numerosos estudios han descubierto que estas herramientas a menudo no reconocen cuándo una muestra de escritura ha sido producida por IA, y que un tramposo decidido puede despistarlas introduciendo algunas paráfrasis ligeras o errores ortográficos. Estos falsos negativos son bastante problemáticos, ya que permiten que algunos escritos generados por ordenador pasen desapercibidos.
Pero lo más preocupante es la alta tasa de falsos positivos de los detectores tempranos. Estos se producen cuando un texto que en realidad ha sido escrito por un humano es marcado como IA, lo que provoca estrés y medidas disciplinarias injustificadas para los estudiantes que no han hecho nada malo, una vigilancia innecesaria por parte de los profesores y una ruptura de la confianza en la escuela.
El problema es especialmente grave entre los estudiantes para los que el inglés no es su lengua materna. Varias herramientas de detección de IA muestran sesgos contra los hablantes no nativos. Un artículo de 2023 de Stanford descubrió que varios detectores identificaron de forma unánime (y errónea) 1 de cada 5 ensayos escritos por un hablante no nativo de inglés como generados por IA. Casi todos ellos fueron marcados erróneamente por al menos uno de los detectores.
Los detectores de IA más populares reconocen que cometen este tipo de errores con bastante frecuencia. TurnItIn, por ejemplo, anuncia una tasa de falsos positivos de aproximadamente 1 entre 200, lo que significa que, de cada 200 trabajos que un profesor revisa, el trabajo original de un estudiante será marcado erróneamente como generado por IA. Otras herramientas anuncian tasas de falsos positivos de entre 1 entre 500 y 1 entre 100, mientras que estudios independientes han descubierto que las cifras pueden ser incluso más altas.
Por otro lado, la tasa de falsos positivos de Pangram es de solo 1 entre 10 000, según las pruebas realizadas en decenas de millones de documentos. Nuestro modelo es especialmente fiable cuando se trata de textos de más de unos pocos cientos de palabras escritos en frases completas, precisamente el tipo de trabajos que suelen presentar los estudiantes en sus grandes tareas.
Cuando un detector de IA marca un texto como generado por IA, el profesor tiene varias opciones para confirmar el resultado. En primer lugar, debe preguntar al alumno sobre el uso de la IA, abordando la conversación con humildad. Si el resultado fuera realmente un error, el alumno podría mostrar pruebas de su proceso de redacción, como un historial de revisiones completo en Google Docs o copias de borradores anteriores. En este caso, los profesores pueden reconocer que probablemente hayan encontrado un falso positivo extremadamente raro. El alumno también debería poder explicar su proceso de redacción con detalle. Esta conversación podría arrojar luz sobre el profundo conocimiento de un trabajo entregado, lo que sugeriría que el alumno lo ha escrito realmente por sí mismo. Por otro lado, podría revelar que el alumno ha utilizado la IA de una forma que no sabía que era incorrecta, lo que confirmaría los resultados del detector.
Si el estudiante sigue insistiendo en que no utilizó IA, pero no puede aportar pruebas ni hablar de su trabajo de forma coherente, sigue estando bien darle el beneficio de la duda. Al fin y al cabo, sería muy perjudicial que se le castigara por algo que no ha hecho. En este caso, los profesores pueden indicar a los alumnos que, en el futuro, mantengan un registro de su proceso de redacción, lo que ayudará a aclarar cualquier malentendido. Si el alumno miente a sabiendas sobre el uso de la IA, es probable que se lo piense dos veces antes de volver a hacerlo. Pero si su trabajo sigue siendo señalado por un detector de IA preciso como Pangram, probablemente sea el momento de escalar la situación. Las probabilidades de cometer un error ya son pequeñas; las probabilidades de cometer varios errores son minúsculas.
