¡Anunciamos una nueva colaboración con Proofig! Más información

¡El detector de texto Pangram AI ahora es multilingüe!

Bradley Emi
1 de julio de 2024

Foto de Valentin Antonucci.

Nos complace anunciar una importante actualización de Pangram Text, nuestro modelo insignia de detección de IA. Pangram Text ahora puede detectar texto generado por IA en español, francés, italiano, portugués, alemán, ruso y chino mandarín, con la misma precisión líder en el sector que el texto escrito en inglés. Estamos lanzando nuestro nuevo modelo multilingüe para proteger las plataformas en línea del spam generado por IA de forma inmediata.

Evaluación comparativa

Para comprobar la precisión de nuestro modelo en idiomas distintos del inglés, utilizamos tres corpus multilingües grandes y diversos de diferentes ámbitos: reseñas multilingües de Amazon, Wikipedia y XLSum (BBC News International).

Para la parte humana del benchmark, tomamos muestras aleatorias de documentos que superan nuestros filtros de verificación. Para la parte de IA del benchmark, utilizamos una combinación de GPT-3.5, GPT-4 y GPT-4o. En primer lugar, pedimos al LLM que resuma el documento real, por ejemplo, «¿De qué trata esta reseña?». A continuación, le pedimos que genere una reseña, un artículo o una noticia a partir del resumen. Generar el benchmark de esta manera elimina la posibilidad de ruido en las etiquetas, además de garantizar que las distribuciones de datos humanos y de IA sean lo más similares posible entre sí.

IdiomaPrecisión de las reseñas de AmazonPrecisión de WikipediaXLSum (BBC News) Precisión
Español99.59%99.75%99.75%
Francés98.84%99.33%98.50%
italianoN/A99.82%N/A
Alemán99.44%99.95%N/A
PortuguésN/A99.83%99.70%
RusoN/A98.34%99.35%
Chino99.70%99.54%98.10%

Preguntas frecuentes

  • ¿Cómo actualizaste el modelo para que sea compatible con estos idiomas?

Dado que nuestro modelo se basa en una arquitectura similar a la de los grandes modelos lingüísticos modernos, utilizamos un preentrenamiento a gran escala para garantizar que nuestra estructura básica se entrene en un gran corpus multilingüe antes de ajustar un cabezal de detección de IA. También utilizamos un tokenizador que admite muchos idiomas, incluidos el ruso y el chino.

  • ¿Por qué elegiste estos idiomas en concreto?

Hemos elegido los idiomas que representan la mayoría de los idiomas que se utilizan en Internet.

  • ¿Qué ocurre si envío un texto en un idioma que no es compatible?

Utilizamos Amazon Comprehend para detectar el idioma del texto introducido. Si el idioma no es compatible, devolveremos «Idioma no compatible» como predicción.

  • ¿Mejorará el modelo con el tiempo?

Sí, esperamos lanzar futuras actualizaciones con un rendimiento mejorado en idiomas distintos del inglés, a medida que continuamos ampliando nuestro conjunto de datos multilingües con aprendizaje activo.

  • ¿Qué pasa con otros idiomas?

Tenemos previsto añadir más idiomas en el futuro. Si hay algún idioma que te gustaría que añadimos, ¡háznoslo saber!

Póngase en contacto con nosotros en info@pangram.com para obtener más información sobre la detección multilingüe mediante IA.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.