Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Kurumların Pangram'ın yüksek doğruluğuna güvenebilmesinin önemli olduğuna inanıyoruz, bu nedenle kalite ölçütlerimizin (yanlış pozitifler ve yanlış negatifler) üçüncü taraflarca doğrulanmasını teşvik ediyoruz. Aşağıda, Chicago Üniversitesi (UChicago) ve Maryland Üniversitesi (UMD) araştırmacıları ile ticari değerlendiriciler tarafından Pangram'a ilişkin değerlendirmeleri öne çıkaracağız.
Önemli nokta: Pangram'ın iç testleri, üçüncü tarafların incelemelerine dayanıklıdır.
UChicago'nun Becker Friedman Ekonomi Enstitüsü'nde araştırmacılar dört AI dedektörünü karşılaştırdı: Pangram, GPTZero, Originality AI ve RoBERTa (açık kaynaklı bir AI dedektörü). Çalışmada, her bir dedektör kullanılarak 2020 öncesinde yazılmış 1.992 insan metni ve farklı türlerde ve kelime sayılarında 1.992 AI tarafından üretilmiş metin analiz edildi. AI tespitinde iki tür hataya baktılar: Yanlış Pozitif Oranlar ve Yanlış Negatif Oranlar. Bu oranlar, birden fazla eşik için karşılaştırıldı. Dedektörler ayrıca ChatGPT, Claude ve Gemini gibi popüler LLM'lerden AI tarafından üretilen metinleri sınıflandırdı. Araştırmacılar, FNR'deki değişiklikleri not etmek için dedektörler arasında birden fazla FPR Politika Sınırı oluşturdu.
Brian Jabarian ve Alex Imas tarafından Ağustos 2025'te yapılan " Yapay Yazım ve Otomatik Algılama " adlı çalışmadan:
Pangram, tüm eşiklerde diğer dedektörlere göre üstünlük sağlar.
Pangram, AI metinlerini doğru bir şekilde algılama yeteneğinden ödün vermeden sıkı bir politika sınırı (FPR ≤ 0,005) karşılayan tek algılayıcıdır.
Pangram, tüm türlerde ve ortalama olarak düşük maliyetli lider olmaya devam ediyor: Doğru olarak işaretlenen AI pasajı başına 0,0228 dolar, OriginalityAI için 0,0416 dolar ve GPTZero için 0,0575 dolar, bu da Pangram'ı hem tam uzunlukta pasajlar hem de stub'lar için en uygun maliyetli dedektör yapıyor.
Çalışma şunları gösterdi:
Pangram, orta uzunlukta ve uzun metinlerde neredeyse sıfır yanlış pozitif ve yanlış negatif oranları elde eder.
Pangram'ın yüksek doğruluğu, bloglar, incelemeler, özgeçmişler, haberler ve romanlar gibi farklı metin türlerinde takdir topladı. Daha kısa metinlerde, yanlış pozitif ve yanlış negatif oranları biraz artar, ancak "makul politika eşiklerinin oldukça altında kalır".
UChicago araştırmacıları, Pangram'ın diğer mevcut AI dedektörlerine kıyasla üstün performansına dikkat çekti. 0,0001 FPR sınırı verildiğinde, "ne GPTzero ne de Originality.AI en sıkı FPR politikası sınırı altında çok iyi performans göstermiyor. . .Pangram ise çoğu LLM modelinde hala yaklaşık 0,01 FNR oranı elde ediyor."
Pangram artık 50 kelimeden az metinler için tahmin yapmamaktadır, ancak çalışmada belirtildiği gibi,
Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.
Bu UMD çalışmasının Deney 1'inde, LLM'ler hakkında çeşitli düzeylerde bilgiye sahip anotatörler, bir metnin AI tarafından üretilip üretilmediğini tahmin etmek için kullanıldı. Bir anotatörün AI metinlerini neredeyse mükemmel bir şekilde tanımladığını gözlemledikten sonra, LLM kullanımında benzer geçmişe sahip dört uzman anotatör daha kullanılarak aynı 60 örnek sınıflandırıldı. Uzmanların oylarının sonuçları, Pangram, Pangram Humanizer ve GPTZero gibi ticari dedektörler ve Fast-DetectGPT gibi açık kaynaklı araçlarla karşılaştırıldı. Bu süreçte, Pangram diğer dedektörlerle karşılaştırıldı.
Pangram'ın yeniden ifade edilmiş ve insanlaştırılmış metinlere karşı tutarlı performansı
Pangram, yapay zeka tarafından üretilen insanlaştırılmış metinleri doğru bir şekilde tespit edebilir. Bu durum, Pangram'ın insanlaştırıcıları ve yeniden ifade edilmiş metinleri tespit etmede genel olarak en yüksek puanı aldığını ve %99,3 doğruluk oranıyla diğer yapay zeka tespit yazılımlarını geride bıraktığını belirten UMD'deki bilgisayar bilimcileri tarafından da doğrulanmıştır.
Pangram'ın humanizer'lara karşı nasıl bir performans sergilediğini öğrenin
Tom's Guide'dan Amanda Caswell, bir makalesinde, düzinelerce AI algılama aracını denedikten sonra Pangram'ın "denediğim diğerlerinden daha iyi performans gösterdiğini" belirtti. Pangram'ın, zaten düşük olan yanlış pozitif vakalarını azaltmak için özenle çalıştığı da görüldü.
ZDNET'ten David Gewirtz, Pangram'ı "testlerimize yeni katılan ve hemen kazananlar arasına giren bir ürün" olarak tanımlıyor.
Araştırma makalelerinde yapay zeka kullanımının artması, bunun bir suistimal göstergesi olduğu endişesini doğurmaktadır. Adam Day'in Medium makalesinde, AI içeriğinin yaygınlığı konusunda güvenilir sonuçlar elde etmek için Pangram'ın AI algılama özelliği kullanılmış ve araştırmada üretken AI'nın meşru kullanım alanları olduğu sonucuna varılmıştır. Day, araştırma yapmak için Pangram'ı kullanmayı önererek şöyle demiştir: "Yayınlanmış literatürde genAI kullanımına ilişkin bir anket yapmak isteyenler için Pangram'ın araçları bunu yapmak için harika bir fırsat sunuyor."
UMD araştırmacıları (Microsoft ve Pangram ile işbirliği içinde), Pangram'ın AI algılama sonuçlarını, 186.000 gazete makalesinden oluşan bir örneklem kullanarak haberlerde AI tarafından üretilen metinlerin varlığını analiz etmek için yakın zamanda yapılan bir çalışmada kullandılar. Haberlerin düşük bir yüzdesinin AI tarafından üretildiği tespit edildi, ancak AI kullanımı açıklanmadı. Pangram, "The New York Times, The Wall Street Journal ve The Washington Post'un görüş sayfalarında AI içeriği bulunan 219 makaleyi" tespit etmek için kullanıldı.
Çalışma, yapay zeka kullanımındaki aşağıdaki gibi nüansları ortaya koydu:
Kendi makalelerini yazan muhabirler, makalelerinde alıntı yaptıkları kişilerin yanıtlarını oluşturmak için yapay zeka kullandığının farkında olmayabilirler.
Pangram algılama özelliğini kullanan haberlerdeki yapay zeka
Pangram olarak, şeffaflığın güven için çok önemli olduğuna inanıyoruz. AI şeffaflığını kuruluşunuza getirmek için sizinle işbirliği yapmaktan memnuniyet duyarız.
