Pangram, yapay zeka tarafından üretilen içeriği nasıl tespit ediyor?

Teknik raporu PDF olarak görüntüle

Genel Bakış

Pangram Text, yapay zeka tarafından üretilen içeriği neredeyse sıfır yanlış pozitif oranıyla tespit etmek üzere tasarlanmıştır. Titiz eğitim yaklaşımımız hataları en aza indirir ve modelin metindeki ince ipuçlarını analiz edip anlayarak yapay zeka metinlerini tespit etmesini sağlar.

İlk eğitim süreci

Sınıflandırıcımız geleneksel bir dil modeli mimarisi kullanır. Giriş metnini alır ve onu tokenlere ayırır. Ardından model, her bir tokeni bir gömüye dönüştürür; bu gömü, her tokenin anlamını temsil eden bir sayı vektörüdür.

Giriş verisi sinir ağından geçirilir ve bir çıktı gömüsü üretilir. Bir sınıflandırıcı başlığı, bu çıktı gömüsünü 0 veya 1 şeklinde bir tahmine dönüştürür; burada 0 insan etiketi, 1 ise yapay zeka etiketi anlamına gelir.

İlk modeli, kamuya açık ve lisanslı insan tarafından yazılmış metinlerden oluşan, yaklaşık 1 milyon belgeden oluşan küçük ama çeşitlilik içeren bir veri seti üzerinde eğitiyoruz. Veri seti ayrıca GPT-4 ve diğer en yeni dil modelleri tarafından üretilen yapay zeka kaynaklı metinleri de içeriyor. Eğitimin sonucunda, bir metnin insan mı yoksa yapay zeka mı tarafından yazıldığını güvenilir bir şekilde tahmin edebilen bir sinir ağı elde ediliyor.

Tekrarlamalar yoluyla sürekli iyileştirme

Sert Negatif Madencilik

İlk model zaten oldukça etkiliydi, ancak doğruluğu en üst düzeye çıkarmak ve yanlış pozitif sonuçların (insan tarafından yazılmış belgelerin yapay zeka tarafından üretilmiş olarak yanlış bir şekilde tahmin edilmesi) olasılığını azaltmak istedik. Bunu başarmak için, yapay zeka tespit modelleri için özel olarak bir algoritma geliştirdik.

İlk veri setiyle, modelimiz %99 doğruluktan %99,999 doğruluğa ulaşmak için yeterli sinyale sahip değildi. Model, verilerdeki ilk kalıpları hızlı bir şekilde öğrense de, insan ve yapay zeka tarafından yazılmış metinleri kesin olarak ayırt edebilmek için zorlu sınır durumlarıyla karşılaşması gerekiyor.

Bu sorunu, modeli kullanarak büyük veri kümelerinde yanlış pozitifleri taramak ve yeniden eğitme işleminden önce bu ek zor örneklerle ilk eğitim kümesini genişleterek çözüyoruz. Bu işlemin birkaç kez tekrarlanmasının ardından, elde edilen model neredeyse sıfıra yakın bir yanlış pozitif oranı sergilemenin yanı sıra, ayrılmış değerlendirme kümelerinde genel olarak daha iyi bir performans gösteriyor.

İNSANYapay ZekaAyna Komutları
Ayna Komutları
Veri setinin yapay zeka tarafını, üslup, ton ve anlamsal içerik açısından insan tarafına olabildiğince benzeyecek şekilde tasarlıyoruz. Her bir insan örneği için, modelimizin belgeleri yalnızca büyük dil modellerinin (LLM) yazım özelliklerine dayalı olarak sınıflandırmayı öğrenmesini sağlamak amacıyla, orijinal belgeyle mümkün olduğunca çok sayıda açıdan uyumlu bir yapay zeka örneği oluşturuyoruz.
Yeniden eğitmek
Modeli güncellenmiş eğitim kümesiyle eğitiyor ve her adımda modelin performansını değerlendiriyoruz. Bu yöntemi kullanarak, hataları azaltabiliyor ve modelimizin doğruluğunu normal eğitimle elde edilebilecek düzeyin ötesine taşıyabiliyoruz.
modelin yeniden eğitilmesi şeması

Daha fazla bilgi edinin

arxiv.org
Pangram Yapay Zeka Tarafından Oluşturulan Metin Sınıflandırıcısına İlişkin Teknik Rapor
Eğitim ayrıntıları, performans ve diğer deneyler hakkında kapsamlı bilgi verdiğimiz teknik raporumuzun tamamını arXiv'de inceleyin!