面向机器学习与数据团队的 AI 检测
优化大型语言模型(LLM)的训练和数据筛选。通过以99.98%的准确率和高性能API,从预训练或微调数据集中过滤合成文本,从而防止模型崩溃。
由谷歌、特斯拉和斯坦福大学的研究人员开发。经ICLR和马里兰大学验证。
from pangram import Pangram
# Filter synthetic data from corpus
client = Pangram(api_key="your-api-key")
clean_corpus = []
for doc in training_corpus:
result = client.predict(doc.text)
if result['fraction_ai'] < 0.3:
clean_corpus.append(doc)
print(f"Corpus: {len(clean_corpus)} clean docs")




对人工智能生成的内容进行递归训练会降低模型性能并削弱多样性。请在您的数据抓取管道中识别并过滤人工智能生成的内容,以确保语料库的纯净度。

确保您的人工反馈(RLHF)数据确实来自真人。检测众包工作者是否在使用ChatGPT来生成您微调任务的回答。

不要满足于简单的二元标签。我们的高级 API 会返回标记级别的概率值,让您既能保留人工编辑的片段,又能剔除完全由机器生成的“垃圾内容”。
是的。您可以安装pangram-sdk,仅需几行代码即可将检测功能集成到 Airflow 或 Databricks 管道中。我们的 API 专为高吞吐量的企业级抓取操作进行了优化,能够以低延迟处理数百万次请求。