Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram, yapay zeka tarafından oluşturulan içeriği nasıl tespit eder?

Teknik raporu PDF olarak görüntüle

Genel Bakış

Pangram Text, neredeyse sıfır yanlış pozitif oranıyla AI tarafından üretilen içeriği tespit etmek için tasarlanmıştır. Titiz eğitim yaklaşımımız hataları en aza indirir ve modelin yazıda yer alan ince ipuçlarını analiz edip anlayarak AI metinlerini tespit etmesini sağlar.

İlk eğitim süreci

Sınıflandırıcımız geleneksel bir dil modeli mimarisi kullanır. Giriş metnini alır ve onu tokenlere ayırır. Ardından, model her tokeni bir gömme haline dönüştürür; bu, her tokenin anlamını temsil eden bir sayı vektörüdür.

Giriş, sinir ağından geçirilerek bir çıktı gömülüme dönüştürülür. Bir sınıflandırıcı başlığı, çıktı gömülüme 0 veya 1 tahminine dönüştürür; burada 0 insan etiketi, 1 ise AI etiketidir.

Kamuya açık ve lisanslı, insanlar tarafından yazılmış yaklaşık 1 milyon belgeden oluşan küçük ama çeşitli bir veri seti üzerinde bir başlangıç modeli eğitiyoruz. Veri seti ayrıca GPT-4 ve diğer öncü dil modelleri tarafından üretilen AI tarafından oluşturulan metinleri de içeriyor. Eğitimin sonucu, metnin insan mı yoksa AI tarafından mı yazıldığını güvenilir bir şekilde tahmin edebilen bir sinir ağıdır.

Yineleme yoluyla sürekli iyileştirme

Sert Negatif Madencilik

İlk model zaten oldukça etkiliydi, ancak doğruluğu en üst düzeye çıkarmak ve yanlış pozitif sonuçların (insan tarafından yazılmış belgeleri yanlışlıkla AI tarafından üretilmiş olarak tahmin etme) olasılığını azaltmak istedik. Bunu yapmak için, AI algılama modelleri için özel olarak bir algoritma geliştirdik.

İlk veri setiyle, modelimiz %99 doğruluktan %99,999 doğruluğa geçmek için yeterli sinyale sahip değildi. Model, verilerdeki ilk kalıpları hızlı bir şekilde öğrenirken, insan ve AI metinlerini kesin olarak ayırt edebilmek için zorlu kenar durumlarını görmesi gerekiyor.

Bu sorunu, modeli kullanarak büyük veri kümelerinde yanlış pozitifleri arayarak ve yeniden eğitimden önce bu ek zor örneklerle ilk eğitim kümesini genişleterek çözüyoruz. Birkaç döngüden sonra, ortaya çıkan model neredeyse sıfır yanlış pozitif oranı ve ayrılmış değerlendirme kümelerinde genel olarak iyileştirilmiş performans sergiliyor.

İNSANAIAyna Komutları
Ayna Komutları
Veri setinin AI tarafını, stil, ton ve anlamsal içerik açısından insan tarafına çok benzer şekilde tasarlıyoruz. Her insan örneği için, modelimizin belgeleri yalnızca LLM yazımının belirli özelliklerine göre sınıflandırmayı öğrenmesini sağlamak için, orijinal belgeyle mümkün olduğunca çok sayıda eksende eşleşen bir AI tarafından oluşturulmuş örnek üretiyoruz.
Yeniden eğitmek
Modeli güncellenmiş eğitim setiyle eğitiyoruz ve her adımda modelin performansını değerlendiriyoruz. Bu yöntemi kullanarak, hataları azaltabilir ve modelimizin doğruluğunu normal eğitimle mümkün olandan daha fazla artırabiliriz.
yeniden eğitim modeli diyagramı

Daha fazla bilgi edinin

arxiv.org
Pangram AI Tarafından Oluşturulan Metin Sınıflandırıcı Hakkında Teknik Rapor
Eğitim ayrıntıları, performans ve diğer deneyler hakkında ayrıntılı bilgi içeren teknik raporumuzu arXiv'de inceleyin!