Anunciamos uma nova parceria com a Proofig! Saiba mais
Hoje foi lançado o Llama 4, o mais recente de uma série de modelos de código aberto da Meta AI. Queríamos saber se o Pangram ainda é capaz de detetar os modelos abertos mais recentes e avançados, por isso realizámos um teste rápido para verificar se o nosso modelo apresenta generalização para o Llama 4, apesar de atualmente só ter sido treinado com resultados do Llama 2 e 3.
Frequentemente nos perguntam se conseguimos acompanhar o ritmo dos novos modelos, e é por isso que os testamos rapidamente no primeiro dia, antes de termos a oportunidade de nos reciclar.
Para a verificação pontual, utilizámos os mesmos 11 prompts que utilizámos para testar o GPT 4.5. Esses prompts abrangem uma variedade de tarefas de escrita do dia a dia, mas não estão diretamente relacionados aos prompts com os quais treinámos. Eles também exigem um nível de criatividade que acreditamos que um modelo que tenha feito progressos substanciais em relação às gerações anteriores de LLMs exibiria um comportamento qualitativamente diferente.
Aqui estão as instruções que usámos:
| Prompt | Probabilidade de Pangram AI |
|---|---|
| Conservação do coala | 99.9% |
| E-mail do jornal | 99.9% |
| Semiconductor à temperatura ambiente | 99.9% |
| Uniformes escolares | 99.9% |
| Diário de Poesia | 99.9% |
| Crítica da Escape Room | 99.9% |
| E-mail sobre cinema russo | 99.9% |
| Cena da aterragem em Marte | 99.9% |
| Guião do Dragão-de-Komodo | 99.9% |
| Poema de separação no Halloween | 99.9% |
| Cena de perseguição em Veneza | 99.9% |
Neste caso, o Pangram passa no teste com nota máxima! Ele não só consegue prever que todas as 11 amostras de escrita foram geradas por IA, como também consegue fazê-lo com 100% de confiança. (Apesar do modelo prever 100%, sempre arredondamos para 99,9% na interface do utilizador para indicar que nunca podemos ter 100% de certeza.)
Pode ver os resultados completos aqui.
Criámos um conjunto de testes maior, com cerca de 7.000 exemplos, utilizando os nossos esquemas de avaliação padrão, aproveitando a API Together para inferência, cobrindo uma ampla variedade de domínios, incluindo redação académica, redação criativa, perguntas e respostas, redação científica e muito mais.
Aqui estão os nossos resultados no conjunto de testes maior.
| Modelo | Precisão |
|---|---|
| Llama 4 Scout | 100% (3678/3678) |
| Llama 4 Maverick | 99,86% (3656/3661) |
| Llama 4 Geral | 99,93% (7334/7339) |
Por que o Pangram se generaliza tão bem para novos modelos? Acreditamos que seja a força dos nossos conjuntos de dados subjacentes e da nossa abordagem de aprendizagem ativa, bem como as nossas amplas estratégias de sugestão e amostragem, que permitiram ao Pangram ver tantos tipos de textos gerados por IA que ele se adapta muito bem a novos tipos.
Para obter mais informações sobre a nossa pesquisa ou créditos gratuitos para testar o nosso modelo no Llama 4, entre em contacto connosco pelo e-mail info@pangram.com.
