¡Anunciamos una nueva colaboración con Proofig! Más información
El mercado de la detección de IA está compuesto actualmente por varios grandes actores. Es posible que hayas oído hablar de ellos: Pangram, GPTZero, Turnitin, ZeroGPT y otros.
Muchas de estas empresas actualizan periódicamente sus modelos y publican cifras sobre su rendimiento. Recientemente, GPTZero lanzó una actualización de modelos de verano y publicó nuevas cifras sobre su rendimiento en una variedad de modelos nuevos. En esta entrada del blog, compararemos el rendimiento del nuevo modelo de GPTZero con la detección de IA de Pangram, incluidos los últimos modelos GPT-5.
| Modelo | Tasa de detección de pangramas | Tasa de detección de GPTZero | Mejor detector |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | Pangram |
| GPT-5-chat-última versión | 99.97% | Sin probar | N/A |
| GPT-5-mini | 99.92% | 92.2% | Pangram |
| GPT-5-nano | 99.97% | 96.1% | Pangram |
| GPT-OSS-120b | 100.00% | Sin probar | N/A |
| GPT-OSS-20b | 99.74% | Sin probar | N/A |
| GPT4.1 | 99.48% | 96.8% | Pangram |
| GPT4.1-mini | 99.94% | 98.7% | Pangram |
| o3 | 99.86% | 89.9% | Pangram |
| o3-mini | 100.00% | 98.4% | Pangram |
| Géminis 2.5 Pro | 99.91% | 95.7% | Pangram |
| Gemini 2.5 Flash | 99.75% | 98.2% | Pangram |
| Claude Soneto 4 | 99.91% | 99.1% | Pangram |
Nota: GPTZero no publica sus conjuntos de datos de evaluación interna, por lo que estas cifras no proceden exactamente de los mismos documentos. Además, GPTZero no divulga el número de documentos con los que realiza sus pruebas, por lo que tampoco podemos comparar la cantidad. Sin embargo, en cuanto a las cifras de rendimiento de Pangram, hemos evaluado miles de documentos por modelo, así como una amplia variedad de dominios y esquemas de indicaciones para simular el uso en el mundo real.
Además, la precisión de Pangram no se limita a señalar los documentos más generados por IA. Pangram también es líder del mercado en mantener bajas tasas de falsos positivos. Para nosotros es una prioridad fundamental no señalar documentos escritos por humanos como generados por IA. A continuación se describe la diferencia entre las tasas de falsos positivos reportadas por Pangram y GPTZero:
| Pangram | GPTZero | |
|---|---|---|
| Tasa de falsos positivos (%) | 0.01% | 1% |
| Tasa de falsos positivos (n.º) | ~1 de cada 10 000 documentos | ~1 de cada 100 documentos |
Entrada del blog sobre la tasa de falsos positivos de GPTZero
Aquí vemos el rendimiento de GPTZero, con una tasa de falsos positivos (FPR) del 1 %.
Pangram y GPTZero también se han enfrentado en artículos de investigación sobre IA revisados por pares. Esto queda perfectamente reflejado en el reciente estudio de la Universidad de Maryland titulado«Las personas que utilizan con frecuencia ChatGPT para tareas de redacción son detectores precisos y fiables de textos generados por IA». Este estudio investigó la capacidad de los anotadores humanos expertos para clasificar la diferencia entre los textos generados por humanos y los generados por IA.
Como parte del estudio, se comparó el rendimiento de los anotadores humanos con el de detectores disponibles en el mercado y de código abierto. Pangram obtuvo mejores resultados que cada uno de los detectores humanos por separado, así como que todas las alternativas comerciales, incluido GPTZero.
| GPT-4o | Claude | |
|---|---|---|
| Pangram | 100% | 100% |
| GPTZero | 100% | 97.6% |
| Anotador 1 | 96.7% | 100% |
| Anotador 2 | 96.7% | 100% |
| Anotador 3 | 86.7% | 80% |
| Anotador 4 | 90.0% | 96.7% |
| Anotador 5 | 93.3% | 93.3% |
Las diferencias entre el modelo insignia de Pangram y GPTZero no terminan ahí. Ambos modelos son «multilingües», lo que significa que son capaces de detectar la IA en más idiomas además del inglés. Pangram es multilingüe en los 20 idiomas más utilizados en Internet. GPTZero admite inglés, francés y español. Estos son los idiomas en los que se ha probado cada modelo:
| Idioma | Tasa de falsos positivos (FPR) de Pangram | Tasa de falsos positivos (FPR) de GPTZero | Tasa de detección de Pangram AI | Tasa de detección de IA de GPTZero |
|---|---|---|---|---|
| Español | 0.00% | 5.6% | 100.0% | 96.4% |
| Francés | 0.00% | 3.1% | 100.0% | 93.1% |
| Árabe | 0.10% | Sin probar | 100.0% | Sin probar |
| Checo | 0.00% | Sin probar | 99.89% | Sin probar |
| Alemán | 0.00% | Sin probar | 99.68% | Sin probar |
| griego | 0.00% | Sin probar | 99.79% | Sin probar |
| persa | 0.00% | Sin probar | 100.0% | Sin probar |
| Hindi | 0.00% | Sin probar | 99.58% | Sin probar |
| húngaro | 0.10% | Sin probar | 99.05% | Sin probar |
| italiano | 0.00% | Sin probar | 100.0% | Sin probar |
| Japonés | 0.00% | Sin probar | 100.0% | Sin probar |
| holandés | 0.10% | Sin probar | 100.0% | Sin probar |
| Polaco | 0.00% | Sin probar | 100.0% | Sin probar |
| Portugués | 0.00% | Sin probar | 100.0% | Sin probar |
| rumano | 0.10% | Sin probar | 100.0% | Sin probar |
| Ruso | 0.00% | Sin probar | 100.0% | Sin probar |
| Sueco | 0.00% | Sin probar | 99.89% | Sin probar |
| Turco | 0.00% | Sin probar | 99.79% | Sin probar |
| ucraniano | 0.00% | Sin probar | 99.89% | Sin probar |
| urdu | 0.00% | Sin probar | 98.84% | Sin probar |
| Vietnamita | 0.00% | Sin probar | 99.89% | Sin probar |
| Chino | 0.00% | Sin probar | 99.89% | Sin probar |
Para obtener más información sobre el rendimiento de Pangram en textos multilingües, consulte esta entrada del blog.
Además, ambos modelos se entrenan prestando especial atención al rendimiento en inglés como segunda lengua (ESL), ya que existe un temor generalizado a que los detectores de IA puedan tener sesgos contra los hablantes no nativos de inglés. Tanto GPTZero como Pangram han publicado resultados sobre textos en ESL en particular. Vea a continuación cómo se comparan:
| Tasa de falsos positivos | Tamaño de la muestra | |
|---|---|---|
| Pangram | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
Para obtener más información sobre el enfoque de Pangram respecto al texto ESL, consulte esta entrada del blog https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
Otra preocupación para quienes se dedican al mercado de la detección de IA es el rendimiento en modelos aún no lanzados. A medida que la guerra de la IA sigue expandiéndose, los grandes laboratorios de IA y las pequeñas empresas emergentes lanzan modelos importantes de forma regular. Es importante que una solución de detección de IA siga proporcionando resultados precisos en modelos en los que quizá no haya podido entrenarse directamente.
¡El reciente lanzamiento de GPT-5 brindó una gran oportunidad para averiguarlo! A las pocas horas del lanzamiento del nuevo modelo, el equipo de Pangram probó el rendimiento de GPTZero y Pangram en una variedad de tipos de comandos. Estos fueron los resultados:
| Pangram | GPTZero | |
|---|---|---|
| Documento 1 | 100% | 2% |
| Documento 2 | 100% | 0% |
| Documento 3 | 100% | 0% |
| Documento 4 | 100% | 0% |
| Documento 5 | 100% | 9% |
| Documento 6 | 99% | 0% |
| Documento 7 | 100% | 0% |
| Documento 8 | 100% | 0% |
| Documento 9 | 100% | 29% |
| Documento 10 | 100% | 0% |
| Documento 11 | 100% | 10% |
Nota: ¡GPTZero ha lanzado una actualización del modelo que afirma ofrecer un mejor rendimiento en GPT-5! Para obtener más detalles sobre nuestra comparación original, consulte esta entrada del blog. Además, animamos a los usuarios a realizar sus propias pruebas para comparar el rendimiento en cualquier momento.
Al final, Pangram sigue siendo la opción más sólida y fiable para detectar contenido generado por IA. Ya sea que necesites soluciones para educación, publicación, moderación de contenido o algo aún más específico, estamos aquí para ofrecerte una detección de IA precisa y justa. Obtén más información en nuestro blog o contáctanos en info@pangram.com.
