Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Üçüncü Taraf Araştırma Çalışması, Pangram'ın En Güçlü AI Dedektörü Olduğunu Gösteriyor

Bradley Emi
30 Ekim 2024

Üçüncü Taraf Araştırma Çalışması, Pangram'ın En Güçlü AI Dedektörü Olduğunu Gösteriyor

Houston Üniversitesi, UC Berkeley, UC Irvine ve Esperanto AI adlı girişim şirketinden araştırmacılar, Pangram'ın çok çeşitli ticari ve açık kaynaklı yöntemler arasında en sağlam AI metin dedektörü olduğunu keşfettiler. "Esperanto: Metin Kaynağı için AI Algılamada Sağlamlığı Artırmak için Sentetik İfadelerin Değerlendirilmesi" başlıklı makalede, araştırmacılar dil çevirisinin AI dedektörlerinin yetenekleri üzerindeki etkilerini incelediler.

Çevirmenleri kullanarak AI Dedektörlerini istismar etmek

AI algılamanın bilinen bir istismarı, AI metnini Google Translate aracılığıyla yabancı bir dile çevirip ardından bu metni tekrar İngilizceye çevirmenin, bir düşmanın (veya sadece zamanı kısıtlı zeki bir öğrencinin) AI algılama programlarından kaçmasına yardımcı olabileceğidir. Pangram'da, bu saldırıyı şirket içinde "çift çeviri" olarak adlandırıyoruz ve araştırmacılar buna "geri çeviri" diyorlar. İşte çift çevirinin bir örneği. ChatGPT'den bizim için bir metin yazmasını istiyoruz. Önce metni Japonca'ya çeviriyoruz, ardından tekrar İngilizce'ye çeviriyoruz. Çeviri yazılımının mükemmel olmadığı ve aynı şeyi ifade etmenin genellikle birden fazla yolu olduğu için bazı ifadelerin değiştiğini fark ediyoruz. Bu, Quillbot gibi bir yeniden ifade etme aracının yaptığına benzer bir etkiye sahiptir.

ChatGPT tarafından oluşturulan metin Çift çevrilmiş metin Çift çeviri örneği

Rakiplerimizin çoğu bu istismara karşı dayanıklı değildir. Yukarıda, piyasada kullanılan en yaygın rakip AI dedektörlerinden biri gösterilmektedir. Modelin ChatGPT'den gelen AI'yı doğrudan tespit edebildiğini görüyoruz, ancak çift çeviri uygulandığında AI'yı yalnızca %15 oranında tahmin edebiliyor.

GPTZero sonuçları Popüler bir rakip araç, orijinal AI metnini doğru bir şekilde sınıflandırıyor, ancak iki kez çevrilmiş metni insan tarafından yazılmış olarak yanlış sınıflandırıyor.

Ancak Pangram, hem orijinal ChatGPT metnini hem de iki kez çevrilmiş metni %99,99 AI olarak tahmin edebiliyor. Bunun AI tarafından üretilmiş bir metin olduğunu tahmin etmekle kalmıyor, aynı zamanda orijinal kaynağın GPT-4 olduğunu da güvenle tahmin edebiliyoruz. Araştırmacılar, bu fenomeni genel olarak ve geniş ölçekte incelemek için çalışmaya başladılar.

Pangram sonuçları Pangram, hem orijinal metni hem de iki kez çevrilmiş metni AI tarafından üretilmiş olarak doğru bir şekilde tanımlar.

720.000 belge üzerinde geri çevirinin etkisini inceleme

Tek bir örnek, bizim dedektörümüzün sağlam olduğunu ve diğerlerinin sağlam olmadığını kanıtlamak için yeterli değildir. Araştırma çalışmasında, araştırmacılar binlerce haber makalesi, bilimsel makale özeti, Reddit gönderisi ve insan tarafından yazıldığı doğrulanan ürün incelemesi topladılar. Ardından GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 ve Yi kullanarak birkaç AI örneği oluşturdular.

Genel olarak, çeviri saldırısı kullanılmadan önce bile, açık kaynaklı yöntemlerin ve ticari dedektörlerin çoğu aslında tamamen etkisizdir.

İlk olarak, bir eşik değeri seçildi: bu, bir belgeyi AI olarak kabul edeceğimiz yüzde kesme değerini seçmek anlamına gelir. Çoğu AI dedektörü, nihai çıktı olarak bir yüzde verir. Tüm dedektörleri karşılaştırılabilir hale getirmek için, eşik değerleri her modelin %1 Yanlış Pozitif Oranına sahip olacak şekilde seçildi. Ardından, dedektör doğruluğu, doğru pozitiflerin oranı olarak karşılaştırılabilir: her dedektör bu eşik değerinde kaç AI örneği yakalayabilir?

Makalede incelenen diğer yöntemlerin çoğu, AI içeriğini tespit etmede tamamen başarısızdır. Örneğin, ZeroGPT ve GPTZero bazı alanlarda hiçbir eşikte %1'lik bir yanlış pozitif oranına bile ulaşamamaktadır ve RADAR ve LLMDet gibi sıkça atıf yapılan akademik makalelerin doğruluk oranı %50'nin altındadır.

Performansı değerlendirmek için önerilen ölçüt, TPR @ 1% FPR'yi ölçmektir: yani, sabit bir %1 yanlış pozitif oranında, model AI tarafından üretilen metni ne sıklıkla tespit edebilir? ZeroGPT, çoğu alanda hiçbir eşikte %1 yanlış pozitif oranına bile ulaşamazken, RADAR ve LLMDet gibi sıkça atıf yapılan akademik makaleler bu ölçütte %50'nin oldukça altında bir sonuç elde etmektedir.

Bu arada, Pangram %1 FPR ile tüm alanlarda %96'nın üzerinde hatırlama oranına ulaşıyor ve hatta sadece 40-50 kelimelik incelemelerden oluşan zorlu inceleme veri setinde bile %85'lik bir oran elde ediyor (bu, ticari olarak yaygın olarak kullanılan AI'yı tespit etmek için önerdiğimiz kelime sayısı eşiğinin oldukça altında).

Çift çeviri saldırısından sonra, birçok dedektör tamamen bozulur. Örneğin, GPTZero haber alanında %97'den %42'ye, inceleme alanında ise %65'ten %9'a düşer. Araştırmacılar, "GPTZero ve ZeroGPT'nin sonuçları, geri çeviri tekniklerine karşı sağlamlık eksikliğini göstermektedir... Pangram, özellikle daha uzun metinlerde bir dereceye kadar sağlamlık sergilemektedir" sonucuna varmıştır.

Tam sonuçlar burada yeniden yayınlanmaktadır. Pangram tüm kategorilerde üstün performans sergilemektedir.

AI dedektörlerini karşılaştıran sonuç tablosu Esperanto makalesinden Pangram'ın sağlamlığını gösteren sonuç tablosu

Sonuç

Bu araştırma, Pangram'ın bugün piyasada akademik ve ticari ortamlarda kullanılabilecek kadar güvenilir bir şekilde çalışan ve çift çeviri gibi hilelerle atlatılamayan tek AI algılama yazılımı olduğu iddiamızı daha da desteklemektedir.

Bu bir kaza veya tesadüf değildir. Pangram'ın sağlamlığı, genelleme yapmayı bilen ve büyük veri kümeleri ile hedefli aktif öğrenme yaklaşımımızla desteklenen güçlü bir modelin kanıtıdır. Herkes bazı durumlarda veya hatta çoğu durumda çalışan bir AI algılama aracı geliştirebilir, ancak metin değiştirildiğinde veya düzenlendiğinde tamamen bozulmayan güvenilir ve tutarlı bir doğruluk elde etmenin tek yolu, ölçeklenebilir yaklaşımımızdır.

AI algılama modelimizin performansını ve sağlamlığını iyileştirmek için sürekli çalışıyoruz. Karşıt makine öğrenimi alanındaki en son araştırmaları takip ediyor ve kendi modelimizi potansiyel saldırılara ve atlatma girişimlerine karşı sürekli olarak test ediyoruz.

Bu konu hakkında yakında daha fazla bilgi paylaşacağız!

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.