Sınıflandırıcımız geleneksel bir dil modeli mimarisi kullanır. Giriş metnini alır ve onu tokenlere ayırır. Ardından model, her bir tokeni bir gömüye dönüştürür; bu gömü, her tokenin anlamını temsil eden bir sayı vektörüdür.
Giriş verisi sinir ağından geçirilir ve bir çıktı gömüsü üretilir. Bir sınıflandırıcı başlığı, bu çıktı gömüsünü 0 veya 1 şeklinde bir tahmine dönüştürür; burada 0 insan etiketi, 1 ise yapay zeka etiketi anlamına gelir.
İlk model zaten oldukça etkiliydi, ancak doğruluğu en üst düzeye çıkarmak ve yanlış pozitif sonuçların (insan tarafından yazılmış belgelerin yapay zeka tarafından üretilmiş olarak yanlış bir şekilde tahmin edilmesi) olasılığını azaltmak istedik. Bunu başarmak için, yapay zeka tespit modelleri için özel olarak bir algoritma geliştirdik.
İlk veri setiyle, modelimiz %99 doğruluktan %99,999 doğruluğa ulaşmak için yeterli sinyale sahip değildi. Model, verilerdeki ilk kalıpları hızlı bir şekilde öğrense de, insan ve yapay zeka tarafından yazılmış metinleri kesin olarak ayırt edebilmek için zorlu sınır durumlarıyla karşılaşması gerekiyor.
Bu sorunu, modeli kullanarak büyük veri kümelerinde yanlış pozitifleri taramak ve yeniden eğitme işleminden önce bu ek zor örneklerle ilk eğitim kümesini genişleterek çözüyoruz. Bu işlemin birkaç kez tekrarlanmasının ardından, elde edilen model neredeyse sıfıra yakın bir yanlış pozitif oranı sergilemenin yanı sıra, ayrılmış değerlendirme kümelerinde genel olarak daha iyi bir performans gösteriyor.
