¡Anunciamos una nueva colaboración con Proofig! Más información

Evaluaciones de pangramas por terceros

Destino Akinode

4 de noviembre de 2025

Creemos que es importante que las instituciones puedan confiar en la alta precisión de Pangram, por lo que fomentamos la verificación por parte de terceros de nuestros indicadores de calidad (falsos positivos y falsos negativos). A continuación, destacaremos las evaluaciones de Pangram realizadas por investigadores de la Universidad de Chicago (UChicago) y la Universidad de Maryland (UMD), así como por revisores comerciales.

Conclusión clave: Las pruebas internas de Pangram resisten el escrutinio de terceros.

Fiabilidad y precisión de Pangram (Universidad de Chicago)

Experimento

En el Instituto Becker Friedman de Economía de la Universidad de Chicago, los investigadores compararon cuatro detectores de IA: Pangram, GPTZero, Originality AI y RoBERTa (un detector de IA de código abierto). El estudio utilizó cada detector para analizar 1992 textos escritos por humanos antes de 2020 y 1992 textos generados por IA de diferentes géneros y recuentos de palabras. Se analizaron dos tipos de errores en la detección de IA: las tasas de falsos positivos y las tasas de falsos negativos. Estas tasas se compararon para múltiples umbrales. Los detectores también clasificaron los textos generados por IA a partir de modelos de lenguaje grandes (LLM) populares como ChatGPT, Claude y Gemini. Los investigadores crearon múltiples límites de política de FPR entre los detectores para observar los cambios en FNR.

Resultados

Del estudio «Escritura artificial y detección automatizada », realizado por Brian Jabarian y Alex Imas en agosto de 2025:

Pangram domina a los demás detectores en todos los umbrales.

Pangram es el único detector que cumple con un estricto límite de política (FPR ≤ 0,005) sin comprometer la capacidad de detectar con precisión el texto generado por IA.

Pangram sigue siendo el líder en bajo coste en todos los géneros y, de media, cuesta 0,0228 dólares por cada fragmento de IA correctamente marcado, frente a los 0,0416 dólares de OriginalityAI y los 0,0575 dólares de GPTZero, lo que convierte a Pangram en el detector más rentable tanto para fragmentos completos como para fragmentos incompletos.

El estudio demostró que:

Pangram alcanza tasas de falsos positivos y falsos negativos prácticamente nulas en pasajes de longitud media a larga.

La alta precisión de Pangram fue aclamada en diferentes géneros de texto, tales como: blogs, reseñas, currículos, noticias y novelas. En textos más cortos, las tasas de falsos positivos y falsos negativos aumentan ligeramente, «pero se mantienen muy por debajo de los umbrales razonables».

Los investigadores de la Universidad de Chicago señalaron el rendimiento superior de Pangram en comparación con otros detectores de IA disponibles. Cuando se les asignó un límite de FPR de 0,0001, «ni GPTzero ni Originality.AI obtuvieron buenos resultados con el límite de política de FPR más estricto... Pangram sigue alcanzando una tasa de FNR de alrededor de 0,01 en la mayoría de los modelos LLM».

Pangram ya no hace predicciones para textos de menos de 50 palabras, pero como se señala en el estudio,

Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.

El rendimiento de Pangram frente a Humanizers (Universidad de Maryland)

Experimento

En el Experimento 1 de este estudio de la UMD, se utilizaron anotadores con diversos niveles de conocimiento sobre los LLM para predecir si un texto había sido generado por IA. Tras observar que un anotador era casi perfecto a la hora de identificar textos generados por IA, se utilizaron otros cuatro anotadores expertos con antecedentes similares en el uso de LLM para clasificar la misma muestra de 60. Los resultados de las votaciones de los expertos se compararon con detectores comerciales como Pangram, Pangram Humanizer y GPTZero, así como con herramientas de código abierto como Fast-DetectGPT. Durante este proceso, Pangram se comparó con otros detectores.

El rendimiento de Pangram frente al texto parafraseado y humanizado.

Resultados

Pangram puede detectar con precisión el texto humanizado generado por IA. Esto lo corroboran los informáticos de la UMD, que han señalado que Pangram obtuvo la puntuación más alta en la detección de humanizadores y texto parafraseado, superando a otros programas de detección de IA con una precisión del 99,3 %.

Más información sobre cómo Pangram se compara con los humanizadores.

Evaluaciones de Pangram fuera de las instituciones de investigación

Amanda Caswell, de Tom's Guide, afirmó en un artículo que, tras probar docenas de herramientas de detección de IA, Pangram «superó a todas las demás que probé». También se demostró que Pangram trabajaba diligentemente para reducir los ya escasos incidentes de falsos positivos.

David Gewirtz, de ZDNET, describe Pangram como «un recién llegado a nuestras pruebas que inmediatamente se ha situado entre los ganadores».

Debido al aumento del uso de la IA en los trabajos de investigación, existe la preocupación de que esto sea un indicador de conducta indebida. El artículo de Adam Day en Medium utilizó la detección de IA de Pangram para obtener resultados fiables sobre la prevalencia del contenido de IA, al tiempo que concluyó que existen casos de uso legítimos de la IA generativa en la investigación. Day recomienda utilizar Pangram para realizar investigaciones y afirma: «Si alguien quiere hacer un estudio sobre el uso de la IA generativa en la literatura publicada, creo que las herramientas de Pangram ofrecen una gran oportunidad para hacerlo».

Uso de los resultados de Pangram en investigaciones de prestigio (Universidad de Maryland)

Investigadores de la UMD (en colaboración con Microsoft y Pangram) han utilizado los resultados de la detección de IA de Pangram en un estudio reciente para analizar la presencia de texto generado por IA en las noticias utilizando una muestra de 186 000 artículos de prensa. Aunque se descubrió que un bajo porcentaje de las noticias había sido generado por IA, el uso de IA no se reveló. Se utilizó Pangram para identificar «219 artículos que contenían contenido de IA en las páginas de opinión de The New York Times, The Wall Street Journal y The Washington Post».

El estudio pudo señalar matices en el uso de la IA, tales como:

Los periodistas que escriben sus propios artículos pueden no ser conscientes de que las personas a las que citan en sus artículos han utilizado IA para crear sus respuestas.

La IA en las noticias mediante la detección de pangramas

Conclusión

En Pangram, creemos que la transparencia es esencial para generar confianza. Nos encantaría colaborar con usted para llevar la transparencia de la IA a su organización.

Suscríbase a nuestro boletín informativo

Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.

Suscríbase a
para recibir nuestras actualizaciones.

Manténgase informado con nuestras últimas noticias y ofertas.

soc2

SOC2 TIPO 2

Verificado por AssuranceLab

© 2025 Pangram. Todos los derechos reservados.

info@pangram.com

Únete a nuestra comunidad

© 2025 Pangram. Todos los derechos reservados.