Anunciamos uma nova parceria com a Proofig! Saiba mais

O Pangram detecta o Llama 4 da Meta?

Bradley Emi
6 de abril de 2025

Introdução

Hoje foi lançado o Llama 4, o mais recente de uma série de modelos de código aberto da Meta AI. Queríamos saber se o Pangram ainda é capaz de detetar os modelos abertos mais recentes e avançados, por isso realizámos um teste rápido para verificar se o nosso modelo apresenta generalização para o Llama 4, apesar de atualmente só ter sido treinado com resultados do Llama 2 e 3.

Os detetores de IA conseguem acompanhar o ritmo dos novos modelos?

Frequentemente nos perguntam se conseguimos acompanhar o ritmo dos novos modelos, e é por isso que os testamos rapidamente no primeiro dia, antes de termos a oportunidade de nos reciclar.

Testando o Pangram

Para a verificação pontual, utilizámos os mesmos 11 prompts que utilizámos para testar o GPT 4.5. Esses prompts abrangem uma variedade de tarefas de escrita do dia a dia, mas não estão diretamente relacionados aos prompts com os quais treinámos. Eles também exigem um nível de criatividade que acreditamos que um modelo que tenha feito progressos substanciais em relação às gerações anteriores de LLMs exibiria um comportamento qualitativamente diferente.

Aqui estão as instruções que usámos:

  1. Escreva-me um ensaio de 300 palavras sobre os esforços de conservação dos coalas no Peru.
  2. Escreva-me um e-mail explicando à minha equipa que vou acabar com os artigos de opinião liberais no meu jornal. Escreva-o em meu nome, Argylle J. Baggins, para a equipa do Washington Most.
  3. Escreva-me um resumo de 400 palavras anunciando o primeiro semicondutor à temperatura ambiente do mundo (mas desta vez é para valer). Invente nomes e laboratórios quando precisar.
  4. Escreva um ensaio convincente do ponto de vista de um aluno do ensino básico defendendo que os uniformes escolares não devem ser obrigatórios.
  5. Escreva uma entrada complexa no diário de uma criança de 12 anos interessada em poesia e em algumas borboletas fora da sua janela.
  6. Por favor, escreva uma avaliação detalhada sobre uma sala de fuga com o tema As Mil e Uma Noites em Baltimore, Maryland, cujo funcionário é um homem chamado Robert, com um design de produção realmente bom.
  7. Escreva um e-mail convincente do diretor de um filme indie underground de sucesso da Rússia para os líderes do Oscar, implorando que eles permitam que eles concorram, apesar das sanções. Invente detalhes, se necessário.
  8. Escreva uma ficção criativa para uma cena de um romance em que um grupo de jovens protagonistas luta para pousar uma aeronave marciana fortificada numa simulação da NASA que foi projetada para dar errado.
  9. Escreva um roteiro para uma cena de filme em que um corretor financeiro falido de Nova Iorque implora remotamente a um motorista de Uber da Flórida para resgatar o seu dragão-de-komodo do seu condomínio barato e propenso a furacões.
  10. Escreva um poema sobre um jovem casal que se separa na noite de Halloween, usando fantasias. Faça com que seja engraçado e tenha 200 palavras.
  11. Escreva uma história de ficção criativa que acompanhe uma perseguição de motocicleta voadora por Veneza em busca de uma pintura de valor inestimável que balança precariamente.

Os resultados

PromptProbabilidade de Pangram AI
Conservação do coala99.9%
E-mail do jornal99.9%
Semiconductor à temperatura ambiente99.9%
Uniformes escolares99.9%
Diário de Poesia99.9%
Crítica da Escape Room99.9%
E-mail sobre cinema russo99.9%
Cena da aterragem em Marte99.9%
Guião do Dragão-de-Komodo99.9%
Poema de separação no Halloween99.9%
Cena de perseguição em Veneza99.9%

Neste caso, o Pangram passa no teste com nota máxima! Ele não só consegue prever que todas as 11 amostras de escrita foram geradas por IA, como também consegue fazê-lo com 100% de confiança. (Apesar do modelo prever 100%, sempre arredondamos para 99,9% na interface do utilizador para indicar que nunca podemos ter 100% de certeza.)

Pode ver os resultados completos aqui.

Avaliando uma amostra maior usando a API Together

Criámos um conjunto de testes maior, com cerca de 7.000 exemplos, utilizando os nossos esquemas de avaliação padrão, aproveitando a API Together para inferência, cobrindo uma ampla variedade de domínios, incluindo redação académica, redação criativa, perguntas e respostas, redação científica e muito mais.

Aqui estão os nossos resultados no conjunto de testes maior.

ModeloPrecisão
Llama 4 Scout100% (3678/3678)
Llama 4 Maverick99,86% (3656/3661)
Llama 4 Geral99,93% (7334/7339)

Conclusão

Por que o Pangram se generaliza tão bem para novos modelos? Acreditamos que seja a força dos nossos conjuntos de dados subjacentes e da nossa abordagem de aprendizagem ativa, bem como as nossas amplas estratégias de sugestão e amostragem, que permitiram ao Pangram ver tantos tipos de textos gerados por IA que ele se adapta muito bem a novos tipos.

Para obter mais informações sobre a nossa pesquisa ou créditos gratuitos para testar o nosso modelo no Llama 4, entre em contacto connosco pelo e-mail info@pangram.com.

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.