Anunciamos uma nova parceria com a Proofig! Saiba mais

O Detector de IA da Pangram demonstra um forte desempenho em mais de 20 idiomas

Bradley Emi
4 de setembro de 2024

Há dois meses, a Pangram lançou o primeiro modelo de detecção de IA multilingue. Agora, estamos prontos para anunciar uma atualização! A Pangram agora suporta oficialmente os 20 principais idiomas da Internet e, extraoficialmente, tem um bom desempenho em muitos outros. Observamos um desempenho especialmente forte e muito melhorado em árabe, japonês, coreano e hindi.

Resultados

Avaliámos cerca de 2000 documentos por idioma no nosso conjunto oficial de suporte. O lado humano é uma mistura de críticas reais, artigos de notícias e artigos da Wikipédia. O lado da IA é um conjunto de ensaios, artigos de notícias e publicações de blogues que solicitámos ao GPT-4o para escrever em vários comprimentos, estilos e tópicos.

IdiomaPrecisãoTaxa de falsos positivosTaxa de falsos negativos
Árabe99.95%0.10%0.00%
Checo99.95%0.00%0.11%
Alemão99.85%0.00%0.32%
grego99.90%0.00%0.21%
espanhol100.00%0.00%0.00%
persa100.00%0.00%0.00%
Francês100.00%0.00%0.00%
Hindi99.79%0.00%0.42%
húngaro99.49%0.10%0.95%
italiano100.00%0.00%0.00%
japonês100.00%0.00%0.00%
holandês99.95%0.10%0.00%
Polaco100.00%0.00%0.00%
Português100.00%0.00%0.00%
romeno99.95%0.10%0.00%
russo100.00%0.00%0.00%
Sueco99.95%0.00%0.11%
turco99.90%0.00%0.21%
ucraniano99.95%0.00%0.11%
Urdu99.44%0.00%1.16%
vietnamita99.95%0.00%0.11%
chinês99.95%0.00%0.11%

O que mudámos?

Aqui estão as principais alterações que fizemos para melhorar o nosso suporte multilingue:

  • Realizámos uma campanha de aprendizagem ativa de dados contra dados em escala web, focada nas 20 principais línguas da Internet.

  • Alterámos o tokenizador para oferecer um melhor suporte a idiomas que não o inglês.

  • Aumentámos a contagem de parâmetros do modelo base e dos adaptadores LoRA.

  • Aplicámos um aumento de dados para traduzir automaticamente uma fração aleatória do nosso conjunto de dados antes do treino.

  • Corrigimos um erro na contagem de palavras que fazia com que as línguas do Leste Asiático fossem acidentalmente sub-representadas no conjunto de treino.

Campanha de Aprendizagem Ativa

A base fundamental do nosso processo de construção de modelos com taxas de falsos positivos extremamente baixas é a aprendizagem ativa: em termos simples, exploramos a Internet anterior a 2022 em busca de exemplos em que o nosso modelo tem um desempenho insatisfatório (por exemplo, falsos positivos), adicionamos esses exemplos ao nosso conjunto de treino, retreinamos e repetimos. Detalhamos este algoritmo no nosso relatório técnico.

Podemos aplicar a nossa abordagem de aprendizagem ativa a alguns grandes conjuntos de dados multilingues na web para encontrar textos multilingues com os quais o nosso modelo atual tem dificuldade e, em seguida, usar esses dados para iterar, juntamente com a nossa grande biblioteca de prompts para criar espelhos sintéticos: textos de IA que se parecem com os falsos positivos extraídos que encontramos. Embora nos concentremos nas 20 principais línguas da Internet, removemos a etapa de filtragem de línguas do nosso pipeline de dados: isso significa que textos de todas as línguas são válidos para mineração negativa rigorosa e inclusão no nosso conjunto de treino.

Um dos benefícios da nossa abordagem de aprendizagem ativa é que ela reequilibra automaticamente a distribuição de idiomas com base na precisão do nosso modelo. Os idiomas com poucos recursos estão sub-representados online, mas devido a esse desequilíbrio de classes, o nosso primeiro modelo inicialmente tem um desempenho ruim em idiomas com poucos recursos, fazendo com que mais textos de idiomas incomuns sejam exibidos na mineração negativa difícil. Ao longo do processo de aprendizagem ativa, observamos que os dados de idiomas com muitos recursos, como inglês, espanhol e chinês, diminuem gradualmente em proporção no nosso conjunto de treino, e os idiomas menos comuns aumentam em proporção. Consideramos que esta é uma solução relativamente elegante para a distribuição naturalmente desequilibrada de dados no treino de modelos multilíngues. Através do nosso algoritmo de aprendizagem ativa, o modelo é capaz de selecionar por si mesmo os dados nos idiomas que precisa de ver mais.

Alterações arquitetónicas

Para oferecer um melhor suporte a textos multilingues no domínio de entrada, também queríamos garantir que o LLM básico que usamos para construir o nosso classificador também fosse amplamente fluente em muitos idiomas que não o inglês. Realizámos uma análise de várias estruturas LLM e tokenizadores no nosso conjunto de dados para encontrar aquele que apresenta o melhor desempenho geral entre uma ampla variedade de idiomas que não o inglês. Descobrimos que o desempenho em benchmarks multilingues não parece estar fortemente correlacionado com o desempenho da estrutura na nossa tarefa de deteção de IA: em outras palavras, mesmo que o modelo base possa resolver tarefas de raciocínio e responder a perguntas em outros idiomas, a eficácia da transferência de habilidades para a deteção de IA multilingue varia extremamente.

Também descobrimos que os nossos modelos iniciais treinados tendiam a se ajustar mal à nova distribuição multilíngue — inicialmente observamos uma perda de treinamento mais elevada. Para isso, também aumentamos o tamanho do modelo base, bem como a contagem de parâmetros nos nossos adaptadores LoRA, e também treinamos o modelo para mais etapas. (Como estamos num regime de aprendizagem ativa/alto volume de dados, quase nunca treinamos por mais de uma época. Neste caso, só tivemos que estender o tamanho da época!)

Aumento de dados

Mesmo com a aprendizagem ativa, a diversidade de dados em idiomas diferentes do inglês é visivelmente menor do que a diversidade e o volume de dados em inglês online, e não podemos corrigir isso totalmente apenas reequilibrando a distribuição de idiomas no conjunto de treino. Uma forma grosseira de dizer isso é que existem alguns dados em inglês que são valiosos, mas que simplesmente não existem ou não têm um paralelo nativo em outros idiomas. Assim, decidimos aplicar aleatoriamente um aumento de tradução automática a uma pequena fração do nosso conjunto de dados (no nosso caso, usamos o Amazon Translate).

Embora não seja prática comum aplicar aumentos de tradução automática ao conjunto de treino no treino de LLM, devido ao facto de os dados traduzidos automaticamente serem frequentemente pouco naturais e sofrerem de «tradução automática», no nosso caso, como não estamos a treinar um modelo generativo, isso não parece afetar a qualidade da saída e notámos melhorias nas nossas métricas ao aplicar este aumento.

Benchmarking: Espanhol

Tomamos o espanhol como um exemplo característico de uma língua com muitos recursos que anteriormente era suportada pelo Pangram Text, mas que agora foi bastante melhorada. Medimos a taxa de falsos positivos em vários domínios.

Conjunto de dadosTaxa de falsos positivos (antes)Taxa de falsos positivos (após)Número de exemplos
Avaliações da Amazon espanhola0.09%0%20,000
Wikilingua (texto do artigo WikiHow)3.17%0.14%113,000
XL-SUM (artigos de notícias em espanhol nativo)0.08%0%3,800
Wikipedia em espanhol0.29%0.04%67,000
CulturaX Espanhola0.22%0.01%1,800,000
Publicações em blogs espanhóis que selecionámos manualmente0%0%60

Também medimos a taxa de falsos negativos (a taxa na qual o texto gerado por IA é classificado incorretamente como humano) para vários modelos de linguagem de grande porte. Nesta experiência, criámos uma lista de prompts para os LLMs gerarem ensaios, publicações em blogs e artigos de notícias em vários comprimentos e estilos e, em seguida, traduzimos os prompts para espanhol. Os próprios LLMs são multilingues, portanto respondem às instruções em espanhol.

ModeloTaxa de falsos negativos (antes)Taxa de falsos negativos (após)Número de exemplos
GPT-4o2.1%0%1,400
Claude 3.5 Soneto0.7%0%1,400
Claude 3 Opus1.05%0%1,400
Gemini 1.5 Pro2.85%0%1,400

Como podemos ver, o nosso modelo atualizado alcança uma deteção perfeita em todos os LLMs testados, melhorando significativamente a nossa versão anterior.

Benchmarking: árabe e japonês

Duas das línguas em que nos concentramos mais para melhorar são amplamente faladas no mundo, mas na verdade são menos comuns na Internet: o árabe e o japonês.

Conjunto de dadosTaxa de falsos positivos em árabeTaxa de falsos positivos japonesaExemplos em árabeExemplos em japonês
Avaliações da Amazon0%0%N/A20,000
AR-AES (redação em árabe para estudantes)0%N/A2,000N/A
Wikilingua (texto do artigo WikiHow)0.58%0.55%29,00012,000
XL-SUM (artigos de notícias na língua nativa)0%0%4,000733
Wikipedia0.09%0.009%31,00096,000
CulturaX0.08%0.21%1,785,0001,409,000
Publicações de blogue que selecionámos manualmente0%0%6060

Anteriormente, não suportávamos essas duas línguas, por isso as taxas de falsos negativos eram extremamente altas. Agora, prevemos com muita precisão o árabe e o japonês gerados por IA.

ModeloÁrabe FNRFNR japonês
GPT-4o0%0%
Claude 3.5 Soneto0%0%
Claude 3 Opus0%0%
Gemini 1.5 Pro0%0.21%

Como podemos ver, o nosso modelo atualizado alcança uma detecção quase perfeita em todos os LLMs testados, tanto para o árabe quanto para o japonês, com apenas uma ligeira taxa de falsos negativos de 0,21% para o Gemini 1.5 Pro em japonês.

Os resultados completos do benchmark linguístico estão disponíveis mediante solicitação.

O que vem a seguir?

Embora o nosso desempenho seja forte em textos nativos da web, o nosso modelo às vezes tem dificuldade em detectar «traduções mal feitas» — textos que são mal traduzidos ou que não soam naturais. Para piorar a situação, muitas pessoas agora estão a usar LLMs como o ChatGPT diretamente para tarefas de tradução. Os textos traduzidos por LLM devem ser classificados como humanos ou de IA? Isso depende da rigidez da tradução e também do caso de uso da aplicação a jusante. Um professor de espanhol pode considerar o uso de tradução automática em uma tarefa como desonestidade acadêmica, mas uma editora pode querer permitir trabalhos traduzidos através do seu processo de controle de qualidade. A Pangram está trabalhando ativamente para entender o texto traduzido como uma "terceira modalidade" que fica em algum lugar entre humano e IA, e fornecer mais informações aos nossos usuários para que os consumidores a jusante do nosso modelo possam decidir o que é certo para eles.

Tem mais perguntas? Contacte-nos através do e-mail info@pangram.com!

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.