Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Yelp yorumlarına derinlemesine bakış

Bradley Emi
10 Kasım 2023

NOT: Adımızı Pangram Labs olarak değiştirdik! Daha fazla bilgi için blog yazımızı okuyun.

Checkfor.ai olarak, interneti düşük kaliteli AI tarafından üretilen kirlilikten korumak misyonumuzu desteklemek için sınıfının en iyisi AI metin dedektörü olmaya çalışıyoruz. Savunulması gereken en önemli alanlardan biri kullanıcı yorum platformlarıdır.

Sahte çevrimiçi yorumlar, sonuçta hem işletmelere hem de tüketicilere zarar verir ve ChatGPT, yorum sahtekarlığının büyük ölçekte işlenmesini daha da kolaylaştırmıştır.

ChatGPT tarafından Yelp'te oluşturulan yorum

Çevrimiçi incelemelerde kullanıcı güvenini korumak, Checkfor.ai'nin çevrimiçi ortamda insanlar tarafından oluşturulan içeriğin gerçekliğini korumak misyonunun önemli bir parçasıdır.

Hakkımda

Benim adım Bradley Emi ve Checkfor.ai'nin CTO'suyum. Stanford'da yapay zeka araştırmacısı olarak çalıştım, Tesla Otopilot ekibinde makine öğrenimi bilimcisi olarak üretim modellerini piyasaya sürdüm ve Absci'de büyük sinir ağlarıyla ilaç tasarlamak için bir platform geliştiren araştırma ekibini yönettim. Otonom araçlarda ve ilaç keşfinde %99 doğruluk oranı yeterli değildir. %99 doğruluk oranı, 100 yayadan 1'inin otonom bir araç tarafından ezilmesi veya 100 hastadan 1'inin kötü tasarlanmış bir ilacın hayatı tehdit eden yan etkilerini yaşaması anlamına gelebilir.

AI tarafından üretilen metinleri tespit etmek hayati bir durum olmasa da, Checkfor.ai'de aynı kalite standartlarına sahip modeller ve yazılım sistemleri tasarlamak istiyoruz. Tespit aracımız, paraphrasing, gelişmiş prompt engineering ve undetectable.ai gibi tespit kaçırma araçları gibi düşmanca saldırılara karşı dayanıklı olmalıdır. Bu sorunu çözmeyi ciddiye alıyoruz (örneğin, sadece %99'a ulaşmakla yetinmiyoruz) ve bu nedenle, mühendislik ekibimizin en önemli önceliklerinden biri, son derece sağlam bir değerlendirme platformu geliştirmektir.

Değerlendirme Felsefesi: Test Setleri Birim Testleridir

Bir Software 1.0 siber güvenlik şirketi, birim testleri yapılmamış bir ürünü asla piyasaya sürmez. Bir Software 2.0 şirketi olarak, birim testlerine eşdeğer testlere ihtiyacımız var, ancak bu testler, stokastik davranışlar sergileyebilen ve geniş bir kuyruk dağılımını kapsarken doğru şekilde çalışması gereken milyonlarca, hatta milyarlarca parametreye sahip büyük modelleri test etmelidir. "%99 test seti doğruluğu" elde edip işimizi bitiremeyiz: gerçek dünyada karşılaşacağımız örnekleri özel olarak test eden değerlendirmelere ihtiyacımız var.

İyi bir test seti belirli soruları yanıtlar ve karıştırıcı değişkenlerin sayısını en aza indirir.

Hedeflenen test sorularına ve ilgili test setlerine örnekler şunlardır:

  • Modelimiz Yelp yorumlarında ne kadar iyi çalışıyor? Bin adet gerçek Yelp yorumu ve bin adet yapay zeka tarafından oluşturulan Yelp yorumundan oluşan test seti.
  • Modelimiz, yeniden ifade edilmiş metinlerde ne kadar iyi çalışıyor? Yüzlerce gerçek öğrenci denemesi, yüzlerce AI denemesi ve QuillBot veya Undetectable.AI aracılığıyla yeniden ifade edilmiş aynı denemelerden oluşan test seti.

Test setinizdeki her şeyi birleştirip bir sayı bildiremeyeceğiniz birkaç neden vardır.

  • Çok fazla karıştırıcı değişken var — testin veri dağılımı veya model nedeniyle başarılı mı yoksa başarısız mı olduğunu bilmiyoruz.
  • Herkes, test setini kolay örneklerle doldurarak doğruluk oranını yapay olarak yükseltebilir.
  • Test setinin tarafsız bir şekilde nasıl oluşturulduğuna dair açık ve tekrarlanabilir bir açıklama olmadan, birisinin modelinin başarılı olduğu ve temel modelin başarısız olduğu örnekleri seçip seçmediğini bilemeyiz.

Bu nedenle, bu tür karşılaştırmalı çalışmalar tamamen yanlış sonuçlara varıyor. Odaklanmamışlar ve modelin sergilemesini istediğimiz belirli davranışları test etmiyorlar. Önyargılı test setleri, modelin gerçek dünya örnekleriyle karşılaştığı durumlarda değil, en iyi performansını sergilediği durumlarda modelin yeteneklerini gösteriyor.

Tarafsız bir Yelp karşılaştırması

AI metin algılamanın gerçek hayattaki bir uygulama örneği, Yelp'te AI tarafından oluşturulan yorumları algılamaktır. Yelp, yorum platformunu sıkı bir şekilde denetlemeye kararlıdır ve 2022 Güven ve Güvenlik Raporuna bakarsanız, Yelp'in sahte, ücretli, teşvik edilmiş veya başka şekilde dürüst olmayan yorumlarla mücadeleye büyük önem verdiğini açıkça görebilirsiniz.

Neyse ki, Yelp de mükemmel bir açık kaynak veri seti yayınladı. Bu veri setinden rastgele 1000 yorum örnekledik ve en yaygın kullanılan LLM olan ChatGPT'den 1000 sentetik yorum oluşturduk.

ChatGPT incelemelerinin, Kaggle veri setindeki gerçek Yelp işletmeleri için yapıldığını belirtmek önemlidir: bu sayede model, işletme dağılımındaki farklar gibi ayrıntılara aşırı uyum sağlayarak hile yapamaz. Değerlendirme sırasında, modelin gerçek ile sahteyi ayırt etmek için metindeki doğru özellikleri kullanmayı gerçekten öğrendiğini test ediyoruz.

Bu veri setini, hangi AI algılama modellerinin ChatGPT tarafından oluşturulan yorumları gerçek yorumlardan gerçekten ayırt edebildiğini anlamak için kullanıyoruz!

Model doğrulukları

En basit ölçütümüz doğruluktur: Her model kaç örneği doğru sınıflandırdı?

  • Checkfor.ai: %99,85 (1997/2000)
  • Originality.AI: %96,2 (1738/1806) (not: Originality.AI, 50 kelimeden kısa belgeleri sınıflandırmayı reddediyor).
  • GPTZero: %90,8 (1815/2000)

99,85% ile 96% arasındaki fark ilk bakışta büyük bir fark gibi görünmeyebilir, ancak hata oranını dikkate aldığımızda bu rakamları daha iyi bir bağlama oturtabiliriz.

Checkfor.ai'nin her 666 sorgudan sadece birinde hata vermesi beklenirken, Originality.AI'nin her 26 sorgudan birinde, GPTZero'nun ise her 11 sorgudan birinde hata vermesi beklenmektedir. Bu, hata oranımızın Originality.AI'den 25 kat, GPTZero'dan ise 60 kat daha iyi olduğu anlamına gelmektedir.

Yanlış pozitifler ve yanlış negatifler

Yanlış pozitifleri ve yanlış negatifleri incelemek için (makine öğrenimi terimiyle, çok benzer istatistikler olan hassasiyet ve geri çağırma oranlarını ele alabiliriz), karışıklık matrisine bakabiliriz – doğru pozitiflerin, yanlış pozitiflerin, doğru negatiflerin ve yanlış negatiflerin göreceli oranları nelerdir?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.

AI metin algılamada düşük yanlış pozitif oranı daha önemlidir (gerçek insanları ChatGPT'den intihal yapmakla yanlış bir şekilde suçlamak istemeyiz), ancak düşük yanlış negatif oranı da gereklidir – AI tarafından üretilen içeriğin %10-20'sinden fazlasının gözden kaçmasına izin veremeyiz.

Model Güveni

Sonuç olarak, metnin insan tarafından yazıldığı veya ChatGPT tarafından yazıldığı açık olduğunda modelimizin yüksek güvenilirlik ifade etmesini istiyoruz.

Mitchell ve arkadaşlarının mükemmel akademik makalesi DetectGPT'de kullanılan görselleştirme stratejisine benzer bir strateji izleyerek, üç modelin tümü için hem AI tarafından üretilen incelemelerin hem de gerçek incelemelerin model tahminlerinin histogramlarını çiziyoruz. Üç modelin de doğruluk oranı %90'ın üzerinde olduğundan, y ekseninde logaritmik ölçek kullanmak, her modelin güvenilirlik özelliklerini görselleştirmek için en yararlı yöntemdir.

Bu grafikte, x ekseni modelin girdi incelemesini AI tarafından üretilmiş olarak tahmin etme olasılığını temsil eder. Y ekseni ise modelin gerçek (mavi çubuklar) veya AI (kırmızı çubuklar) metinler için belirli bir olasılığı ne sıklıkla tahmin ettiğini temsil eder. Bu "yumuşak" tahminlere baktığımızda, sadece evet veya hayır yerine, Checkfor.ai'nin GPTZero veya Originality.AI'dan çok daha iyi bir şekilde net bir karar sınırı çizdiğini ve daha güvenilir tahminlerde bulunduğunu görüyoruz.

GPTZero, olasılık aralığı 0,4–0,6 arasında ve modu 0,5 civarında olan çok fazla örnek tahmin etme eğilimindedir. Öte yandan, Originality.AI'nın yanlış pozitif sorunu, yumuşak tahminler incelendiğinde daha da belirgin hale gelir. Birçok gerçek yorum, 0,5 eşiğini geçmese bile, AI tarafından üretilmiş olarak tahmin edilmeye çok yakındır. Bu durum, kullanıcının modelin AI tarafından üretilmiş metni güvenilir bir şekilde tahmin edebileceğine güvenmesini zorlaştırır, çünkü yorumdaki küçük değişiklikler, bir düşmanın algılama eşiğinin altına düşene kadar yorumu tekrar tekrar düzenleyerek algılayıcıyı atlatmasına olanak tanır.

Öte yandan, bizim modelimiz genellikle çok kararlıdır. Genellikle kendinden emin kararlar verebiliyoruz. Derin öğrenme veya bilgi teorisi konusunda derin bilgiye sahip okuyucular için, gerçek dağılım ile tahmin edilen dağılım arasında en düşük çapraz entropi/KL-ayrışması değerine sahibiz.

Gerçek metni yüksek güvenilirlikle gerçek olarak tahmin etmenin açık bir değeri vardır ( Twitter'dan bu esprili resme bakın). Bu eğitimci, AI olasılığını AI tarafından yazılmış metin miktarı olarak yanlış yorumlamış olsa da, dedektörler gerçek metnin gerçekten gerçek olup olmadığı konusunda emin olmadıklarında, yanlış yorumlamaya yol açabilir.

https://twitter.com/rustykitty_/status/1709316764868153537

Checkfor.ai tarafından öngörülen 3 hatadan maalesef ikisi oldukça kesin. Dedektörümüz mükemmel değildir ve bu tür kesin yanlış tahminleri önlemek için modeli kalibre etmek için aktif olarak çalışıyoruz.

Sonuç

Gerçek ve sahte Yelp yorumlarının değerlendirilmesinde kullanılan veri setlerini açık kaynak olarak paylaşıyoruz. Böylece gelecekteki modeller, dedektörlerinin doğruluğunu test etmek için bu önemli karşılaştırma ölçütünü kullanabilirler.

Anahtar noktalarımız şunlardır:

Checkfor.ai, hem düşük yanlış pozitif hem de düşük yanlış negatif oranına sahiptir. Checkfor.ai, gerçek ve AI tarafından oluşturulan yorumları sadece yüksek doğrulukla değil, aynı zamanda yüksek güvenilirlikle de ayırt edebilir. Gelecekte bu tarz blog yazıları yayınlamaya devam edeceğiz ve daha fazla bilgi edindikçe modelimizle ilgili dürüst değerlendirmelerimizi kamuoyuyla paylaşacağız. Bizi takip etmeye devam edin ve düşüncelerinizi bize iletin!

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.