Anunciamos uma nova parceria com a Proofig! Saiba mais
Foto por Google DeepMind.
Hoje, temos o prazer de mostrar a nossa capacidade de nos adaptarmos rapidamente aos novos LLMs no mercado, lançando uma atualização do nosso modelo que alcança uma precisão quase perfeita na deteção de textos escritos por IA a partir do GPT-4o, Claude 3 e LLaMA 3.
O nosso modelo lançado mais recentemente foi bastante eficaz na detecção dos resultados dos novos modelos, mesmo sem ter visto nenhum exemplo deles no conjunto de treino. No entanto, não estamos satisfeitos com apenas «bastante eficaz», queremos garantir que estamos continuamente a expandir os limites do que é possível com a detecção por IA e a alcançar a melhor precisão possível para os nossos clientes.
Para testar o nosso desempenho nos modelos de linguagem de última geração, reformulámos o nosso conjunto de avaliação de 25 000 exemplos de texto humano difícil de classificar e texto gerado por IA a partir de um painel de modelos de linguagem. Cerca de 40% deste novo conjunto de avaliação consiste numa ampla variedade de texto gerado por IA a partir do GPT-4o, Claude 3 e LLaMA 3, abrangendo vários domínios de texto, incluindo notícias, críticas, educação e muito mais.
Utilizamos todas as versões dos novos modelos quando disponíveis: por exemplo, fazemos uma amostragem uniforme das versões Opus, Sonnet e Haiku do Claude 3.
Após atualizar o nosso conjunto de dados de treino para incorporar os LLMs mais recentes, constatamos que estamos novamente a alcançar uma precisão quase perfeita no texto gerado pela mais recente geração de modelos de linguagem.
| LLM | Texto Pangram Março Precisão | Texto Pangram Precisão de maio | % de melhoria |
|---|---|---|---|
| Todos | 99.54% | 99.84% | +0.30% |
| GPT-4o | 99.78% | 100% | +0.22% |
| Claude 3 | 99.12% | 99.76% | +0.64% |
| LLaMA 3 | 99.58% | 99.97% | +0.39% |
Além de melhorar o desempenho nos novos modelos, descobrimos que incluir dados de treino da última geração de modelos melhora marginalmente o desempenho em vários modelos antigos.
Constatamos que, embora não tenhamos introduzido regressões no nosso antigo conjunto de avaliação do modelo, na verdade melhoramos vários casos da detecção do GPT-3.5 e do GPT-4 (regular). Especificamente, constatamos que 8 casos do GPT-3.5 anteriormente reprovados pelo modelo agora estão a ser aprovados, e 13 casos do GPT-4 anteriormente reprovados pelo modelo agora estão a ser aprovados. Concluímos aqui que a maior capacidade do nosso modelo para detetar GPT-4o, Claude 3 e LLaMA 3 não acarreta qualquer custo na capacidade de detetar modelos mais antigos.
Estávamos cientes desde o início que a fronteira dos LLMs mudaria rapidamente, por isso projetámos a arquitetura do nosso sistema com isso em mente. Os nossos sistemas são construídos para poder regenerar dados e começar a treinar um novo modelo poucas horas após uma nova API se tornar disponível publicamente.
Quando um novo modelo é lançado, gerar um novo conjunto de dados e retreinar o modelo é tão simples quanto uma alteração de configuração. Temos uma biblioteca padrão de modelos de prompts projetados para serem alimentados em LLMs para produzir textos semelhantes aos humanos, que são próximos, mas não exatamente iguais, ao lado humano do nosso conjunto de dados. Detalhamos esse processo, chamado Hard Negative Mining with Synthetic Mirrors, no nosso relatório técnico.
O cronograma para o lançamento deste novo modelo foi o seguinte:
13 de maio: O GPT-4o foi lançado e disponibilizado na API da OpenAI. 14 de maio: O pipeline do conjunto de dados foi atualizado e novos conjuntos de treino e avaliação foram criados. 15-16 de maio: O modelo de detecção de IA foi treinado usando os novos conjuntos de dados. 17 de maio: Foram realizadas verificações de qualidade e sanidade e o modelo foi lançado.
A infraestrutura que construímos permite-nos adaptar-nos rapidamente, incluindo textos de novos modelos no sistema de deteção de produção em apenas uma semana.
À medida que os novos modelos ficam cada vez melhores, eles devem se tornar mais difíceis de detectar, certo? Ainda não encontramos evidências para esse argumento tentador, mas, em última análise, equivocado.
Observacionalmente, estamos a descobrir que os modelos mais capazes, devido aos seus estilos mais idiossincráticos, são na verdade mais fáceis de detectar do que os modelos menos capazes. Por exemplo, descobrimos que o nosso modelo antigo era melhor a detetar Claude Opus do que Sonnet e Haiku.
Como vemos no quadro de líderes do LMSYS, muitos modelos básicos estão a convergir assintoticamente para o nível do GPT-4, mas nenhum modelo conseguiu ainda superá-lo de forma convincente por uma margem substancial. Olhando para a situação de forma geral, se algumas empresas de modelos básicos diferentes adotarem a mesma arquitetura baseada em atenção e a treinarem em toda a Internet, não é surpreendente que a linguagem resultante de todos os modelos acabe por soar incrivelmente semelhante entre si. Aqueles que interagem regularmente com modelos de linguagem compreenderão imediatamente o que queremos dizer com isso.
A nível observacional, continuamos a constatar que os LLMs, quando solicitados a escrever de forma criativa e autêntica, como um ensaio de opinião, uma crítica ou um conto criativo, ainda produzem textos sem imaginação e insípidos. Acreditamos que isso é fundamentalmente uma propriedade do objetivo de otimização de prever conclusões de alta probabilidade, mantendo-se afastado de pensamentos e ideias originais fora da distribuição.
Valorizamos os textos originais dos nossos semelhantes porque eles podem oferecer-nos uma nova perspetiva ou uma forma diferente de pensar, e não porque são coisas comuns que qualquer pessoa poderia dizer. Enquanto esse valor permanecer válido, sempre haverá necessidade de deteção de IA e sempre haverá um caminho para resolvê-la.
