Saiba imediatamente o que é publicado por pessoas e o que é gerado por IA no Twitter, LinkedIn, Substack e outras plataformas. Obtenha a nossa nova extensão para o Chrome.
Foto de Valentin Antonucci.
Temos o prazer de anunciar uma grande atualização do Pangram Text, o nosso principal modelo de deteção de IA. O Pangram Text agora consegue detetar textos gerados por IA em espanhol, francês, italiano, português, alemão, russo e mandarim, com a mesma precisão líder do setor que os textos escritos em inglês. Estamos a lançar o nosso novo modelo multilingue para proteger imediatamente as plataformas online contra spam de IA.
Para testar a precisão do nosso modelo em idiomas diferentes do inglês, utilizamos três corpora multilíngues grandes e diversificados de diferentes domínios: avaliações multilíngues da Amazon, Wikipedia e XLSum (BBC News International).
Para o lado humano do benchmark, selecionamos documentos aleatórios que passam pelos nossos filtros de verificação de sanidade. Para o lado da IA do benchmark, usamos uma combinação de GPT-3.5, GPT-4 e GPT-4o. Primeiro, pedimos ao LLM para resumir o documento real, por exemplo, «Sobre o que é esta crítica?» Em seguida, pedimos que ele gere uma crítica, artigo ou notícia com base no resumo. Gerar o benchmark dessa forma elimina a possibilidade de ruído de rótulo, além de garantir que as distribuições de dados humanos e de IA sejam o mais semelhantes possível entre si.
| Idioma | Precisão das avaliações da Amazon | Precisão da Wikipédia | XLSum (BBC News) Precisão |
|---|---|---|---|
| espanhol | 99.59% | 99.75% | 99.75% |
| Francês | 98.84% | 99.33% | 98.50% |
| italiano | N/A | 99.82% | N/A |
| Alemão | 99.44% | 99.95% | N/A |
| Português | N/A | 99.83% | 99.70% |
| russo | N/A | 98.34% | 99.35% |
| chinês | 99.70% | 99.54% | 98.10% |
Como o nosso modelo se baseia numa arquitetura semelhante aos modelos linguísticos modernos de grande dimensão, utilizamos pré-treinamento em grande escala para garantir que a nossa estrutura seja treinada num grande corpus multilíngue antes de ajustar um cabeçalho de detecção de IA. Também utilizamos um tokenizador que suporta vários idiomas, incluindo russo e chinês.
Escolhemos idiomas que representam a maioria dos idiomas usados na Internet.
Utilizamos o Amazon Comprehend para detetar o idioma do texto inserido. Se o idioma não for suportado, retornaremos "Idioma não suportado" como previsão.
Sim, esperamos lançar atualizações futuras com desempenho melhorado em idiomas que não sejam o inglês, à medida que continuamos a aumentar o nosso conjunto de dados multilingues com aprendizagem ativa.
Planeamos oferecer suporte a mais idiomas no futuro. Se tem algum idioma que gostaria que fosse suportado, informe-nos!
Entre em contacto connosco pelo e-mail info@pangram.com para obter mais informações sobre a deteção multilingue por IA.

Bradley é pesquisador de IA e especialista na criação de produtos de aprendizagem profunda na indústria. Recentemente, ele liderou o grupo de pesquisa de aprendizagem profunda na Absci, uma empresa de descoberta de medicamentos com IA generativa, e anteriormente foi membro da equipa principal de visão computacional da Tesla Autopilot.
Enquanto estudante de pós-graduação, Bradley foi autor de várias publicações sobre pesquisa em deep learning com o Stanford Vision Lab. Ele é bacharel em Física e mestre em Inteligência Artificial pela Universidade de Stanford. Além de IA, ele também se interessa por educação, filosofia e é um ávido jogador de golfe.






