Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Sınıflandırıcımız geleneksel bir dil modeli mimarisi kullanır. Giriş metnini alır ve onu tokenlere ayırır. Ardından, model her tokeni bir gömme haline dönüştürür; bu, her tokenin anlamını temsil eden bir sayı vektörüdür.
Giriş, sinir ağından geçirilerek bir çıktı gömülüme dönüştürülür. Bir sınıflandırıcı başlığı, çıktı gömülüme 0 veya 1 tahminine dönüştürür; burada 0 insan etiketi, 1 ise AI etiketidir.
İlk model zaten oldukça etkiliydi, ancak doğruluğu en üst düzeye çıkarmak ve yanlış pozitif sonuçların (insan tarafından yazılmış belgeleri yanlışlıkla AI tarafından üretilmiş olarak tahmin etme) olasılığını azaltmak istedik. Bunu yapmak için, AI algılama modelleri için özel olarak bir algoritma geliştirdik.
İlk veri setiyle, modelimiz %99 doğruluktan %99,999 doğruluğa geçmek için yeterli sinyale sahip değildi. Model, verilerdeki ilk kalıpları hızlı bir şekilde öğrenirken, insan ve AI metinlerini kesin olarak ayırt edebilmek için zorlu kenar durumlarını görmesi gerekiyor.
Bu sorunu, modeli kullanarak büyük veri kümelerinde yanlış pozitifleri arayarak ve yeniden eğitimden önce bu ek zor örneklerle ilk eğitim kümesini genişleterek çözüyoruz. Birkaç döngüden sonra, ortaya çıkan model neredeyse sıfır yanlış pozitif oranı ve ayrılmış değerlendirme kümelerinde genel olarak iyileştirilmiş performans sergiliyor.
