¡Anunciamos una nueva colaboración con Proofig! Más información

¿Qué tal funciona Pangram en el código de IA?

Bradley Emi

7 de octubre de 2025

Cada día se escribe más y más código con IA. Según Sundar Pichai, director ejecutivo de Google, más del 25 % del código de Google fue escrito por IA a finales de 2024. El director ejecutivo de Robinhood afirma que la mayor parte del código que se envía en Robinhood ahora está escrito por IA. El término «vibe coding» (popularizado en un tuit de Andrej Karpathy) ha entrado en el léxico público: significa que te dejas llevar por las «vibraciones» de la programación y dejas que la IA tome el control y escriba el código por ti.

Startups como Cursor, Lovable y Replit están tratando de eliminar las barreras de entrada a la programación: esto significa que iniciarse en la programación es tan fácil que cualquier persona de la empresa puede crear código, o incluso desarrollar un sitio web o una aplicación completos sin tener conocimientos de Python o React.

La encuesta StackOverflow Developer Survey 2025 revela lo extendida que está esta tendencia. El 84 % de los desarrolladores utiliza o tiene previsto utilizar herramientas de IA en su flujo de trabajo de desarrollo, y el 51 % de los desarrolladores profesionales utiliza herramientas de IA a diario. Esto representa un cambio significativo en la forma en que se escribe el código en todo el sector.

Sin embargo, la encuesta también revela dificultades crecientes en esta era de desarrollo asistido por IA. Si bien el 52 % de los desarrolladores afirma que las herramientas de IA han tenido un impacto positivo en su productividad, la opinión positiva hacia estas herramientas ha descendido de más del 70 % al 60 % en 2025. Tras un periodo inicial de exploración con estas herramientas generadas por IA, parece que los desarrolladores ahora tienen una opinión más neutral hacia ellas.

El motivo de la frustración es revelador: el 66 % de los desarrolladores se sienten frustrados por «soluciones de IA que son casi correctas, pero no del todo», y el 45 % considera que depurar el código generado por la IA lleva más tiempo del esperado. Solo el 3 % de los desarrolladores «confía plenamente» en los resultados de las herramientas de IA, mientras que el 46 % desconfía activamente de la precisión de estas herramientas.

Esto crea una paradoja interesante: los desarrolladores confían cada vez más en la IA para escribir código, pero no confían plenamente en lo que esta produce. Como señala la encuesta, el 75 % de los desarrolladores seguiría pidiendo ayuda a un humano cuando «no confía en las respuestas de la IA», posicionándose como los «árbitros definitivos de la calidad y la corrección». Según Simon Willison, él «no utilizaría código generado por IA para proyectos que tuviera previsto lanzar a menos que hubiera revisado cada línea. No solo existe el riesgo de alucinación, sino que el deseo del chatbot de ser agradable significa que puede decir que una idea inutilizable funciona. Eso es un problema particular para aquellos de nosotros que no sabemos cómo editar el código. Corremos el riesgo de crear software con problemas incorporados».

La importancia de detectar el código generado por IA

Aunque el código generado por IA ha llegado para quedarse, hay algunos casos en los que sigue siendo conveniente verificar que el código ha sido escrito por humanos.

En el proceso de contratación, al contratar a un desarrollador de software, es importante evaluar que el programador sea plenamente capaz de escribir código de alta calidad sin la ayuda de la IA. Además, también es importante evaluar su comprensión del código para que pueda depurar y diagnosticar con éxito el código defectuoso generado por la IA o asistido por la IA en su trabajo.
En la educación, es importante enseñar a los estudiantes a programar sin la ayuda de la IA. Con demasiada ayuda de la IA, los estudiantes pueden pasar por alto conceptos fundamentales y dejar de aprender las habilidades que necesitan para convertirse en ingenieros de software de éxito. Aunque es probable que estos estudiantes tengan acceso a la ayuda de la IA durante su trabajo, como se insinúa en la encuesta a desarrolladores de StackOverflow, sin una base sólida, los estudiantes no serán capaces de corregir el código incorrecto generado por la IA ni siquiera de entender qué es lo que está mal en primer lugar.
Cumplimiento normativo y seguridad. Muchos marcos de cumplimiento normativo consideran que el código generado por IA presenta un mayor riesgo debido a posibles alucinaciones y errores. También hay importantes consideraciones en materia de licencias y derechos de autor: los modelos de IA pueden reproducir inadvertidamente código con licencias incompatibles, lo que da lugar a infracciones de cumplimiento normativo. Además, hay cuestiones pendientes sobre si el código generado por IA puede considerarse propietario o susceptible de derechos de autor.
Procedencia y seguimiento del código. Antes de la IA, herramientas como git blame facilitaban el seguimiento de quién había escrito cada línea de código y por qué se habían realizado los cambios. Con la IA generando grandes cantidades de código, a los desarrolladores les resulta más difícil recordar el contexto y el razonamiento detrás de cada línea. La capacidad de detectar y rastrear el código generado por la IA ayuda al mantenimiento del código, la depuración y la gestión de recursos. Los directores técnicos y los responsables de ingeniería pueden utilizar esta información para evaluar la eficacia de los diferentes modelos de IA y garantizar que sus equipos utilicen las mejores herramientas disponibles.

La capacidad de Pangram para detectar código generado por IA

En general, Pangram es capaz de detectar de forma conservadora la mayor parte del código generado por IA, especialmente cuando el código tiene más de 40 líneas. Pangram es conservador porque rara vez marca el código escrito por humanos como generado por IA, pero pasa por alto alrededor del 8 % del código generado por IA, prediciendo erróneamente que es humano.

Al analizar todos los fragmentos de código, Pangram pasa por alto aproximadamente el 20 % del código generado por IA, ya que la mayoría de los fragmentos cortos de código de IA son plantillas que no se pueden distinguir del código humano o simplemente no tienen suficiente señal para ser detectados.

Precisión en el código de más de 40 líneas de longitud.

Métrico	Puntuación
Precisión	96,2 % (22 128/22 997)
Tasa de falsos positivos	0,3 % (39/13 178)
Tasa de falsos negativos	8,5 % (830/9819)

Precisión en todos los fragmentos de código

Métrico	Puntuación
Precisión	89,4 % (41 395/46 319)
Tasa de falsos positivos	0,4 % (99/25 652)
Tasa de falsos negativos	23,3 % (4825/20 667)

Conjunto de datos

Utilizamos el conjunto de datos de GitHub para realizar este análisis. Para el código de IA, utilizamos una sencilla etapa de duplicación sintética en dos fases:

Pídale al LLM que le proporcione un breve resumen sobre el contenido del código.
Pídale al LLM que escriba un ejemplo de código según el resumen devuelto.

Utilizamos GPT-4o, Claude Sonnet, Llama 405b, Mistral 7B, Gemini 1.5 Flash y Gemini 1.5 Pro para crear el conjunto de datos.

Recomendaciones para detectar código generado por IA

El código generado por IA es más difícil de detectar que la escritura generada por IA, ya que hay muchos menos grados de libertad: un programador tiene menos opciones estilísticas arbitrarias que un escritor. Observamos que, en los falsos negativos que detectamos, muchos archivos simplemente no tienen mucho margen para la creatividad o la flexibilidad, como el código generado automáticamente o los archivos de configuración. Los lenguajes de bajo nivel, como C, Assembly y el código del compilador, también son mucho más estrictos en su sintaxis, por lo que hay menos señales que permitan saber cuándo el código ha sido generado por IA.

Si está buscando indicios de código generado por IA, le recomendamos lo siguiente:

Comentarios: a menudo, el código generado por IA tiene una forma muy específica de escribir comentarios. También observamos que el código generado por IA escribe muchos más comentarios en el código de lo que normalmente hace un humano.
Similitud interna: el código generado por IA suele ser similar a otro código generado por IA, especialmente en el caso de tareas individuales en clases de programación. MOSS, la medida de similitud de software desarrollada en Stanford, está disponible para uso no comercial y es eficaz a la hora de detectar similitudes en el código, por lo que a menudo puede detectar muchas tareas de programación generadas por IA que parecen similares.
Pangram es capaz de detectar una gran cantidad de código generado por IA sin falsos positivos, pero los falsos negativos son comunes. Se puede confiar en Pangram como herramienta de detección para detectar inicialmente algunos casos, pero no todos, de plagio de código generado por IA.

Suscríbase a nuestro boletín informativo

Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.

Suscríbase a
para recibir nuestras actualizaciones.

Manténgase informado con nuestras últimas noticias y ofertas.

soc2

SOC2 TIPO 2

Verificado por AssuranceLab

© 2025 Pangram. Todos los derechos reservados.

info@pangram.com

Únete a nuestra comunidad

© 2025 Pangram. Todos los derechos reservados.