Anunciamos uma nova parceria com a Proofig! Saiba mais
Foto de Valentin Antonucci.
Temos o prazer de anunciar uma grande atualização do Pangram Text, o nosso principal modelo de deteção de IA. O Pangram Text agora consegue detetar textos gerados por IA em espanhol, francês, italiano, português, alemão, russo e mandarim, com a mesma precisão líder do setor que os textos escritos em inglês. Estamos a lançar o nosso novo modelo multilingue para proteger imediatamente as plataformas online contra spam de IA.
Para testar a precisão do nosso modelo em idiomas diferentes do inglês, utilizamos três corpora multilíngues grandes e diversificados de diferentes domínios: avaliações multilíngues da Amazon, Wikipedia e XLSum (BBC News International).
Para o lado humano do benchmark, selecionamos documentos aleatórios que passam pelos nossos filtros de verificação de sanidade. Para o lado da IA do benchmark, usamos uma combinação de GPT-3.5, GPT-4 e GPT-4o. Primeiro, pedimos ao LLM para resumir o documento real, por exemplo, «Sobre o que é esta crítica?» Em seguida, pedimos que ele gere uma crítica, artigo ou notícia com base no resumo. Gerar o benchmark dessa forma elimina a possibilidade de ruído de rótulo, além de garantir que as distribuições de dados humanos e de IA sejam o mais semelhantes possível entre si.
| Idioma | Precisão das avaliações da Amazon | Precisão da Wikipédia | XLSum (BBC News) Precisão |
|---|---|---|---|
| espanhol | 99.59% | 99.75% | 99.75% |
| Francês | 98.84% | 99.33% | 98.50% |
| italiano | N/A | 99.82% | N/A |
| Alemão | 99.44% | 99.95% | N/A |
| Português | N/A | 99.83% | 99.70% |
| russo | N/A | 98.34% | 99.35% |
| chinês | 99.70% | 99.54% | 98.10% |
Como o nosso modelo se baseia numa arquitetura semelhante aos modelos linguísticos modernos de grande dimensão, utilizamos pré-treinamento em grande escala para garantir que a nossa estrutura seja treinada num grande corpus multilíngue antes de ajustar um cabeçalho de detecção de IA. Também utilizamos um tokenizador que suporta vários idiomas, incluindo russo e chinês.
Escolhemos idiomas que representam a maioria dos idiomas usados na Internet.
Utilizamos o Amazon Comprehend para detetar o idioma do texto inserido. Se o idioma não for suportado, retornaremos "Idioma não suportado" como previsão.
Sim, esperamos lançar atualizações futuras com desempenho melhorado em idiomas que não sejam o inglês, à medida que continuamos a aumentar o nosso conjunto de dados multilingues com aprendizagem ativa.
Planeamos oferecer suporte a mais idiomas no futuro. Se tem algum idioma que gostaria que fosse suportado, informe-nos!
Entre em contacto connosco pelo e-mail info@pangram.com para obter mais informações sobre a deteção multilingue por IA.
