¡Anunciamos una nueva colaboración con Proofig! Más información
Foto de Valentin Antonucci.
Nos complace anunciar una importante actualización de Pangram Text, nuestro modelo insignia de detección de IA. Pangram Text ahora puede detectar texto generado por IA en español, francés, italiano, portugués, alemán, ruso y chino mandarín, con la misma precisión líder en el sector que el texto escrito en inglés. Estamos lanzando nuestro nuevo modelo multilingüe para proteger las plataformas en línea del spam generado por IA de forma inmediata.
Para comprobar la precisión de nuestro modelo en idiomas distintos del inglés, utilizamos tres corpus multilingües grandes y diversos de diferentes ámbitos: reseñas multilingües de Amazon, Wikipedia y XLSum (BBC News International).
Para la parte humana del benchmark, tomamos muestras aleatorias de documentos que superan nuestros filtros de verificación. Para la parte de IA del benchmark, utilizamos una combinación de GPT-3.5, GPT-4 y GPT-4o. En primer lugar, pedimos al LLM que resuma el documento real, por ejemplo, «¿De qué trata esta reseña?». A continuación, le pedimos que genere una reseña, un artículo o una noticia a partir del resumen. Generar el benchmark de esta manera elimina la posibilidad de ruido en las etiquetas, además de garantizar que las distribuciones de datos humanos y de IA sean lo más similares posible entre sí.
| Idioma | Precisión de las reseñas de Amazon | Precisión de Wikipedia | XLSum (BBC News) Precisión |
|---|---|---|---|
| Español | 99.59% | 99.75% | 99.75% |
| Francés | 98.84% | 99.33% | 98.50% |
| italiano | N/A | 99.82% | N/A |
| Alemán | 99.44% | 99.95% | N/A |
| Portugués | N/A | 99.83% | 99.70% |
| Ruso | N/A | 98.34% | 99.35% |
| Chino | 99.70% | 99.54% | 98.10% |
Dado que nuestro modelo se basa en una arquitectura similar a la de los grandes modelos lingüísticos modernos, utilizamos un preentrenamiento a gran escala para garantizar que nuestra estructura básica se entrene en un gran corpus multilingüe antes de ajustar un cabezal de detección de IA. También utilizamos un tokenizador que admite muchos idiomas, incluidos el ruso y el chino.
Hemos elegido los idiomas que representan la mayoría de los idiomas que se utilizan en Internet.
Utilizamos Amazon Comprehend para detectar el idioma del texto introducido. Si el idioma no es compatible, devolveremos «Idioma no compatible» como predicción.
Sí, esperamos lanzar futuras actualizaciones con un rendimiento mejorado en idiomas distintos del inglés, a medida que continuamos ampliando nuestro conjunto de datos multilingües con aprendizaje activo.
Tenemos previsto añadir más idiomas en el futuro. Si hay algún idioma que te gustaría que añadimos, ¡háznoslo saber!
Póngase en contacto con nosotros en info@pangram.com para obtener más información sobre la detección multilingüe mediante IA.
