Anunciamos uma nova parceria com a Proofig! Saiba mais

O Pangram Text AI Detector agora é multilíngue!

Bradley Emi
1 de julho de 2024

Foto de Valentin Antonucci.

Temos o prazer de anunciar uma grande atualização do Pangram Text, o nosso principal modelo de deteção de IA. O Pangram Text agora consegue detetar textos gerados por IA em espanhol, francês, italiano, português, alemão, russo e mandarim, com a mesma precisão líder do setor que os textos escritos em inglês. Estamos a lançar o nosso novo modelo multilingue para proteger imediatamente as plataformas online contra spam de IA.

Avaliação comparativa

Para testar a precisão do nosso modelo em idiomas diferentes do inglês, utilizamos três corpora multilíngues grandes e diversificados de diferentes domínios: avaliações multilíngues da Amazon, Wikipedia e XLSum (BBC News International).

Para o lado humano do benchmark, selecionamos documentos aleatórios que passam pelos nossos filtros de verificação de sanidade. Para o lado da IA do benchmark, usamos uma combinação de GPT-3.5, GPT-4 e GPT-4o. Primeiro, pedimos ao LLM para resumir o documento real, por exemplo, «Sobre o que é esta crítica?» Em seguida, pedimos que ele gere uma crítica, artigo ou notícia com base no resumo. Gerar o benchmark dessa forma elimina a possibilidade de ruído de rótulo, além de garantir que as distribuições de dados humanos e de IA sejam o mais semelhantes possível entre si.

IdiomaPrecisão das avaliações da AmazonPrecisão da WikipédiaXLSum (BBC News) Precisão
espanhol99.59%99.75%99.75%
Francês98.84%99.33%98.50%
italianoN/A99.82%N/A
Alemão99.44%99.95%N/A
PortuguêsN/A99.83%99.70%
russoN/A98.34%99.35%
chinês99.70%99.54%98.10%

Perguntas frequentes

  • Como atualizou o modelo para suportar esses idiomas?

Como o nosso modelo se baseia numa arquitetura semelhante aos modelos linguísticos modernos de grande dimensão, utilizamos pré-treinamento em grande escala para garantir que a nossa estrutura seja treinada num grande corpus multilíngue antes de ajustar um cabeçalho de detecção de IA. Também utilizamos um tokenizador que suporta vários idiomas, incluindo russo e chinês.

  • Por que escolheu essas línguas específicas?

Escolhemos idiomas que representam a maioria dos idiomas usados na Internet.

  • O que acontece se eu enviar um texto num idioma que não é suportado?

Utilizamos o Amazon Comprehend para detetar o idioma do texto inserido. Se o idioma não for suportado, retornaremos "Idioma não suportado" como previsão.

  • O modelo irá melhorar com o tempo?

Sim, esperamos lançar atualizações futuras com desempenho melhorado em idiomas que não sejam o inglês, à medida que continuamos a aumentar o nosso conjunto de dados multilingues com aprendizagem ativa.

  • E quanto a outros idiomas?

Planeamos oferecer suporte a mais idiomas no futuro. Se tem algum idioma que gostaria que fosse suportado, informe-nos!

Entre em contacto connosco pelo e-mail info@pangram.com para obter mais informações sobre a deteção multilingue por IA.

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.