Question 1

What data did you train your model on?

Accepted Answer

我们的模型是在一个包含数百万份人类与AI文档配对的、多样化的专有数据集上训练而成的。我们利用主动学习技术来针对边缘案例，并专门减少对非母语写作者的偏见。

Question 2

How do I interpret the API results?

Accepted Answer

该 API 返回一个预测分数（0.0 到 1.0）和一个分类标签。高级接口提供窗口级分析，用于可视化文档中的“突发性”和语法模式。

Question 3

Are you storing data from API calls?

Accepted Answer

不。对于企业客户，我们提供零保留保证：数据在内存中处理，并在评分完成后立即删除，以确保隐私安全。

Question 4

Can Pangram detect text from the latest AI models?

Accepted Answer

是的。我们会在前沿模型（如 Gemini Ultra 和 GPT-4）发布后的几天内，立即利用其输出结果对我们的分类器进行持续训练。

Question 5

How does Pangram handle adversarial attacks or "humanized" text?

Accepted Answer

我们的模型专门针对对抗性攻击以及试图混淆合成文本的“人性化”算法进行了训练。通过在训练过程中采用硬负样本挖掘技术，我们最大限度地减少了在风格上符合规范的人类写作中出现的误报。

Question 6

Can I integrate this directly into my automated data pipelines?

Accepted Answer

是的。您可以安装 pangram-sdk，仅需几行代码即可将检测功能集成到 Airflow 或 Databricks 管道中。我们的 API 专为高吞吐量的企业级抓取操作进行了优化，能够以低延迟处理数百万次请求。

Question 7

How does Pangram distinguish between AI-generated content and human-edited "mixed" content?

Accepted Answer

与二元检测器不同，Pangram 提供词元级别的概率。这种精细的可解释性使您能够识别并保留人工编辑的片段，同时从训练数据集中过滤掉完全合成的“垃圾”内容。

Question 8

What is the primary benefit for LLM training and data selection?

Accepted Answer

使用 Pangram 有助于防止模型崩溃。通过从爬取管道中过滤掉递归生成的 AI 内容，您可以保持语料库的纯净度，并确保模型不会因使用劣质数据进行训练而导致性能或多样性下降。

面向机器学习工程师和数据科学家的 AI 检测工具

请勿使用低质量数据训练您的模型
。

防止模型坍缩

验证 RLHF 输入

细粒度可解释性

一个值得信赖的模型

硬负面挖掘

对抗鲁棒性

面向未来

专为您的
数据管道打造

AI检测常见问题解答

您是用什么数据训练模型的？

如何解读 API 结果？

您是否在存储 API 调用的数据？

Pangram 能否识别最新 AI 模型生成的文本？

Pangram 如何应对对抗性攻击或“人性化”文本？

我可以直接将此功能集成到我的自动化数据管道中吗？

Pangram 是如何区分 AI 生成的内容与人工编辑的“混合”内容的？

在大型语言模型（LLM）的训练和数据选择方面，主要优势是什么？

的AI检测功能，适用于所有组织

开发者专区

用于内容审核

面向高校

今天就清理您的训练数据吧