Detecção de IA para equipas de ML e de dados

Detetor de IA para engenheiros de aprendizagem automática e cientistas de dados

Otimize o treino de LLM e a seleção de dados. Evite o colapso do modelo filtrando texto sintético dos seus conjuntos de dados de pré-treino ou de afinação, com uma precisão de 99,98% e um desempenho de API de alto rendimento.

Desenvolvido por investigadores da Google, da Tesla e da Universidade de Stanford. Validado pela ICLR e pela Universidade de Maryland.

filter_pipeline.py
from pangram import Pangram

# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []

for doc in training_corpus:
  result = client.predict(doc.text)
  if result['fraction_ai'] < 0.3:
    clean_corpus.append(doc)

print(f"Corpus: {len(clean_corpus)} clean docs")
Confiado por
marcas globais
TelaGoogle Sala de AulaQuoraTremauA Empresa da TransparênciaNewsguardChatPDFEm destaqueHaroHorizonteCitadoO VigilanteTutores universitáriosVerifiquei a minha escritaVibegradeWHEWikiEduTelaGoogle Sala de AulaQuoraTremauA Empresa da TransparênciaNewsguardChatPDFEm destaqueHaroHorizonteCitadoO VigilanteTutores universitáriosVerifiquei a minha escritaVibegradeWHEWikiEdu

Casos de utilização

Não treine os seus modelos
com dados de má qualidade.

O texto sintético está a contaminar os conjuntos de dados públicos. Filtre o conteúdo gerado por IA dos seus fluxos de treino com o motor de deteção de IA mais preciso para manter a pureza do corpus.

Análise de dados com IA

Evitar o colapso do modelo

O treino recursivo com conteúdos gerados por IA prejudica o desempenho e a diversidade do modelo. Identifique e filtre os conteúdos escritos por IA dos seus fluxos de trabalho de scraping para garantir a pureza do corpus.

Verificação RLHF

Verificar entradas do RLHF

Certifique-se de que os seus dados de feedback humano (RLHF) são realmente de origem humana. Verifique se os colaboradores da plataforma de crowdsourcing estão a utilizar o ChatGPT para gerar respostas nas suas tarefas de afinação.

Análise granular

Interpretabilidade granular

Não se contente com uma classificação binária. A nossa API Premium fornece probabilidades ao nível do token, permitindo-lhe manter os segmentos editados manualmente e descartar o «material de baixa qualidade» totalmente sintético.

Abordagem técnica

Um modelo em que pode confiar

Concebido para engenheiros que precisam de ter confiança na filtragem dos seus dados. O nosso modelo aborda os falsos positivos, a robustez contra ataques adversários e os resultados em constante evolução da IA.

Mineração negativa difícil

Treinar com «negativos evidentes» — textos escritos por humanos com um estilo formal ou repetitivo — para minimizar os falsos positivos e garantir que não descarta dados humanos valiosos.

Robustez adversarial

A Pangram lida com conteúdos gerados por IA que foram parafraseados ou modificados. Os nossos modelos são treinados para lidar com «humanizadores» e ataques adversários, de modo a detetar texto sintético ofuscado.

Preparação para o futuro

Deteta texto proveniente dos modelos mais recentes, incluindo o GPT-5, o Claude 3.5 e o Llama 3, garantindo que os seus filtros se mantêm à frente do estado da arte atual.

Integração

Concebido para o seu pipeline de dados do

01

SDK Python

Instale o pangram-sdk e integre a deteção nos seus pipelines do Airflow ou do Databricks com apenas algumas linhas de código. Otimizado para o agrupamento de ligações e o tratamento de erros.

Ver documentos →

02

API de alta produtividade do

Processe conjuntos de dados de grande volume com baixa latência. A nossa infraestrutura suporta o processamento em lote e garante o rendimento, tratando milhões de pedidos para operações de scraping empresarial.

Obter chave API →

03

Segurança e conformidade com a lei «
»

Totalmente certificado pela norma SOC 2 Tipo 2. Oferecemos terminais privados e políticas rigorosas de retenção de dados — nunca treinamos o sistema com os seus dados proprietários.

Saiba mais →

Perguntas frequentes

Perguntas frequentes sobre detecção de IA

Perguntas frequentes sobre a deteção de IA para engenheiros de ML
e cientistas de dados.

O nosso modelo foi treinado com base num conjunto de dados diversificado e exclusivo, composto por milhões de pares de documentos redigidos por humanos e por IA. Recorremos à aprendizagem ativa para abordar casos extremos e, em particular, reduzir o preconceito contra autores cuja língua materna não é o inglês.
A API devolve uma pontuação de previsão (entre 0,0 e 1,0) e uma etiqueta categórica. Os pontos de extremidade avançados oferecem uma análise ao nível da janela para visualizar a «irregularidade» e os padrões sintáticos ao longo do documento.
Não. Para clientes empresariais, oferecemos garantias de retenção zero, em que os dados são processados na memória e eliminados imediatamente após a análise, para garantir a privacidade.
Sim. Estamos constantemente a retreinar o nosso classificador com os resultados dos novos modelos de ponta (como o Gemini Ultra e o GPT-4) poucos dias após o seu lançamento.
Os nossos modelos são treinados especificamente para lidar com ataques adversários e «humanizadores» que tentam ofuscar texto sintético. Ao utilizar a mineração de exemplos negativos rigorosos durante o treino, minimizamos os falsos positivos em textos humanos com um estilo formal.

Sim. Pode instalar o pangram-sdk para integrar a deteção em pipelines do Airflow ou do Databricks com apenas algumas linhas de código. A nossa API está otimizada para operações de scraping empresariais de alto rendimento, suportando milhões de pedidos com baixa latência.

Ao contrário dos detetores binários, o Pangram fornece probabilidades ao nível dos tokens. Esta interpretabilidade granular permite-lhe identificar e reter segmentos editados por humanos, ao mesmo tempo que filtra o «conteúdo de baixa qualidade» totalmente sintético dos seus conjuntos de dados de treino.
A utilização do Pangram ajuda a evitar o colapso dos modelos. Ao filtrar o conteúdo recursivo gerado por IA dos seus fluxos de trabalho de scraping, mantém a pureza do corpus e garante que os seus modelos não sofrem uma degradação no desempenho ou na diversidade devido ao treino com dados de má qualidade.

Limpe os seus dados de treino hoje mesmo

Evite o colapso do modelo, verifique as entradas RLHF e filtre o conteúdo sintético dos seus conjuntos de dados com uma precisão de 99,98%.