Anunciamos uma nova parceria com a Proofig! Saiba mais
Hoje, a OpenAI lançou o GPT-4.5: o mais recente e maior modelo de linguagem disponível, e uma atualização significativa para o ChatGPT. Embora não tenha alcançado estatísticas de referência comparáveis a modelos de raciocínio como o DeepSeek R1 e o OpenAI O3, o GPT-4.5 representa o maior e mais esperado lançamento de modelo do ano até agora, e estamos entusiasmados para testá-lo. A OpenAI afirma que há grandes melhorias na qualidade da escrita, e as primeiras reações sobre o desempenho já estão por toda a parte nas redes sociais.
Queríamos responder à pergunta que muitos se fazem: à medida que os modelos ficam melhores, ainda podemos detectar textos gerados por IA com o GPT-4.5? Fizemos um teste rápido hoje para descobrir.
Começámos por recolher 11 exemplos de tarefas de escrita quotidianas que se poderiam pedir ao ChatGPT.
Aqui estão as instruções que usámos:
Procuramos tornar as sugestões o mais diversificadas e variadas possível e, além disso, tentámos escrever sugestões que apresentassem uma diferença qualitativa significativa em relação aos modelos GPT anteriores: por outras palavras, se houvesse uma oportunidade para o modelo ser criativo e mostrar o fator «uau», fizemos o nosso melhor para dar essa oportunidade ao GPT-4.5.
| Prompt | Pangrama | Principal concorrente 1 | Principal concorrente 2 |
|---|---|---|---|
| Conservação do coala | 100% | 100% | 100% |
| E-mail do jornal | 100% | 100% | 67% |
| Semiconductor à temperatura ambiente | 100% | 56% | 86% |
| Uniformes escolares | 85% | 100% | 80% |
| Diário de Poesia | 100% | 100% | 15% |
| Crítica da Escape Room | 100% | 81% | 56% |
| E-mail sobre cinema russo | 100% | 100% | 91% |
| Cena da aterragem em Marte | 100% | 43% | 7% |
| Guião do Dragão-de-Komodo | 98% | 88% | 0% |
| Poema de separação no Halloween | 100% | 100% | 0% |
| Cena de perseguição em Veneza | 100% | 49% | 9% |
O Pangram é capaz de detetar todas as 11 redações escritas pelo GPT-4.5, mesmo sem quaisquer dados do GPT-4.5 no conjunto de treino. Comparativamente, dois dos principais concorrentes em detecção de IA apresentam resultados irregulares, na melhor das hipóteses. Enquanto o Pangram é capaz de prever com confiança 10 das 11 amostras como tendo 98% ou mais de probabilidade de serem geradas por IA, os concorrentes frequentemente expressam altos níveis de incerteza ou, na pior das hipóteses, prevêem com alta confiança que o texto foi gerado por humanos.
O Pangram é, por si só, um grande modelo de aprendizagem automática que já analisou milhões de exemplos de textos gerados por humanos e por IA. Modelos grandes tendem a generalizar melhor e a captar padrões subtis em textos gerados por IA que outros não conseguem detectar. A nossa abordagem de aprendizagem ativa diminui ainda mais a nossa taxa de falsos positivos, ao mesmo tempo que aumenta a nossa sensibilidade, permitindo que o modelo funcione bem em escala e generalize para novos LLMs de forma muito mais eficaz do que os nossos concorrentes. Além disso, o nosso foco na qualidade e diversidade dos dados resulta, em última análise, num modelo que tem muito mais experiência na compreensão de detalhes mais refinados que outros modelos não conseguem captar.
Sim, a nossa ferramenta de deteção de IA continua a ser altamente eficaz na deteção de texto gerado pelo GPT-4.5.
Portanto, se está a pensar em como o Pangram se sairá quando um modelo novo, maior e melhor for lançado, ele passa no teste com o lançamento de IA mais esperado que vimos nos últimos tempos, sem qualquer necessidade de retreinamento. Se não quer que o seu software de deteção de IA pare de funcionar repentinamente na próxima vez que a OpenAI atualizar o seu modelo, experimente o Pangram hoje mesmo.
Para obter mais informações sobre a nossa pesquisa ou créditos gratuitos para testar o nosso modelo no GPT-4.5, entre em contacto connosco pelo e-mail info@pangram.com.
