Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Günümüzde AI Algılama Pazarı birkaç büyük oyuncudan oluşmaktadır. Bunları duymuş olabilirsiniz: Pangram, GPTZero, Turnitin, ZeroGPT ve daha fazlası.
Bu şirketlerin çoğu, modellerini düzenli olarak günceller ve performanslarına ilişkin rakamları yayınlar. Kısa süre önce, GPTZero yaz modeli güncellemesini başlattı ve çeşitli yeni modellerdeki performanslarına ilişkin yeni rakamları yayınladı. Bu blog yazısında, GPTZero'nun yeni modelinin performansını, en son GPT-5 modelleri de dahil olmak üzere Pangram'ın AI algılama sistemi ile karşılaştıracağız .
| Model | Pangram Algılama Oranı | GPTZero Algılama Oranı | Daha İyi Dedektör |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | Pangram |
| GPT-5-sohbet-en-son | 99.97% | Test edilmemiş | Yok |
| GPT-5-mini | 99.92% | 92.2% | Pangram |
| GPT-5-nano | 99.97% | 96.1% | Pangram |
| GPT-OSS-120b | 100.00% | Test edilmemiş | Yok |
| GPT-OSS-20b | 99.74% | Test edilmemiş | Yok |
| GPT4.1 | 99.48% | 96.8% | Pangram |
| GPT4.1-mini | 99.94% | 98.7% | Pangram |
| o3 | 99.86% | 89.9% | Pangram |
| o3-mini | 100.00% | 98.4% | Pangram |
| İkizler 2.5 Pro | 99.91% | 95.7% | Pangram |
| İkizler 2.5 Flash | 99.75% | 98.2% | Pangram |
| Claude Sonnet 4 | 99.91% | 99.1% | Pangram |
Not: GPTZero, iç değerlendirme veri setlerini kamuya açıklamadığından, bu rakamlar tam olarak aynı belgelerden alınmamıştır. Ayrıca, GPTZero test ettiği belge sayısını da açıklamadığından, miktarları da karşılaştıramıyoruz. Ancak, Pangram'ın performans rakamları için, gerçek dünya kullanımını simüle etmek amacıyla her model için binlerce belgeyi ve çok çeşitli alanları ve komut şemalarını değerlendirdik.
Ayrıca, Pangram'ın doğruluğu yalnızca en fazla AI belgesini işaretlemekle sınırlı değildir. Pangram, düşük yanlış pozitif oranlarını korumada da pazar lideridir. İnsanlar tarafından yazılmış belgeleri AI tarafından üretilmiş olarak işaretlememek bizim için ciddi bir önceliktir. Aşağıda, Pangram ve GPTZero için bildirilen Yanlış Pozitif Oranlarının farkı özetlenmiştir:
| Pangram | GPTZero | |
|---|---|---|
| Yanlış Pozitif Oranı (%) | 0.01% | 1% |
| Yanlış Pozitif Oranı (#) | 10.000 belgeden 1'i | 100 belgeden yaklaşık 1'i |
GPTZero Yanlış Pozitif Oranı Blog Yazısı
Burada GPTZero'nun performans raporunda Yanlış Pozitif Oranı (FPR) %1 olarak görülüyor.
Pangram ve GPTZero, hakemli AI araştırma makalelerinde de karşı karşıya gelmiştir. Bu durum, Maryland Üniversitesi'nin yakın zamanda yaptığı "Yazma görevleri için ChatGPT'yi sık kullanan kişiler, AI tarafından üretilen metinleri doğru ve sağlam bir şekilde tespit edebilmektedir" başlıklı çalışmada en iyi şekilde ortaya konmuştur. Bu çalışma, uzman insan anotatörlerin insan ve AI tarafından üretilen metinler arasındaki farkı sınıflandırma yeteneğini araştırmıştır.
Çalışmanın bir parçası olarak, insan anotatörler ticari olarak satılan ve açık kaynaklı dedektörlerle karşılaştırıldı. Pangram, her bir insan dedektöründen daha iyi performans gösterdi ve GPTZero dahil tüm ticari alternatiflerden daha iyi sonuçlar elde etti.
| GPT-4o | Claude | |
|---|---|---|
| Pangram | 100% | 100% |
| GPTZero | 100% | 97.6% |
| Anotatör 1 | 96.7% | 100% |
| Annotator 2 | 96.7% | 100% |
| Annotator 3 | 86.7% | 80% |
| Annotator 4 | 90.0% | 96.7% |
| Anotatör 5 | 93.3% | 93.3% |
Pangram'ın amiral gemisi modeli ile GPTZero arasındaki farklar bununla sınırlı değil. Her iki model de "çok dilli"dir, yani sadece İngilizce değil, diğer dillerde de yapay zekayı algılayabilirler. Pangram, internetteki en popüler 20 dilin tümünde çok dillidir. GPTZero ise İngilizce, Fransızca ve İspanyolca dillerini destekler. Her modelin test edildiği diller şunlardır:
| Dil | Pangram Yanlış Pozitif Oranı (FPR) | GPTZero Yanlış Pozitif Oranı (FPR) | Pangram AI Algılama Oranı | GPTZero AI Algılama Oranı |
|---|---|---|---|---|
| İspanyolca | 0.00% | 5.6% | 100.0% | 96.4% |
| Fransızca | 0.00% | 3.1% | 100.0% | 93.1% |
| Arapça | 0.10% | Test edilmemiş | 100.0% | Test edilmemiş |
| Çekçe | 0.00% | Test edilmemiş | 99.89% | Test edilmemiş |
| Almanca | 0.00% | Test edilmemiş | 99.68% | Test edilmemiş |
| Yunanca | 0.00% | Test edilmemiş | 99.79% | Test edilmemiş |
| Farsça | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| Hintçe | 0.00% | Test edilmemiş | 99.58% | Test edilmemiş |
| Macarca | 0.10% | Test edilmemiş | 99.05% | Test edilmemiş |
| İtalyanca | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| Japonca | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| Hollandaca | 0.10% | Test edilmemiş | 100.0% | Test edilmemiş |
| Lehçe | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| Portekizce | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| Romence | 0.10% | Test edilmemiş | 100.0% | Test edilmemiş |
| Rusça | 0.00% | Test edilmemiş | 100.0% | Test edilmemiş |
| İsveççe | 0.00% | Test edilmemiş | 99.89% | Test edilmemiş |
| Türkçe | 0.00% | Test edilmemiş | 99.79% | Test edilmemiş |
| Ukraynalı | 0.00% | Test edilmemiş | 99.89% | Test edilmemiş |
| Urduca | 0.00% | Test edilmemiş | 98.84% | Test edilmemiş |
| Vietnamca | 0.00% | Test edilmemiş | 99.89% | Test edilmemiş |
| Çince | 0.00% | Test edilmemiş | 99.89% | Test edilmemiş |
Pangram'ın çok dilli metinlerdeki performansı hakkında daha fazla bilgi için bu blog yazısına bakın.
Ek olarak, her iki model de ESL performansına büyük önem verilerek eğitilmiştir, çünkü AI dedektörlerinin ana dili İngilizce olmayanlara karşı önyargılı olabileceği konusunda yaygın bir endişe vardır. Hem GPTZero hem de Pangram, özellikle ESL metinleri üzerinde elde ettikleri sonuçları yayınlamıştır. Aşağıda bu sonuçları karşılaştırmalı olarak görebilirsiniz:
| Yanlış Pozitif Oranı | Örneklem Büyüklüğü | |
|---|---|---|
| Pangram | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
Pangram'ın ESL metinlerine yaklaşımı hakkında daha fazla bilgi edinmek için şu blog yazısını okuyun: https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
AI algılama pazarına girenler için bir diğer endişe konusu ise, henüz piyasaya sürülmemiş modellerdeki performanstır. AI savaşları genişlemeye devam ederken, büyük AI laboratuvarları ve küçük yeni şirketler düzenli olarak önemli modeller piyasaya sürmektedir. Bir AI algılama çözümünün, doğrudan eğitilememiş olabilecek modellerde de doğru sonuçlar vermeye devam etmesi önemlidir.
GPT-5'in yakın zamanda piyasaya sürülmesi, bunu anlamak için harika bir fırsat sağladı! Yeni modelin piyasaya sürülmesinden birkaç saat sonra, Pangram ekibi GPTZero ve Pangram'ın çeşitli komut türlerinde performansını test etti. İşte sonuçlar:
| Pangram | GPTZero | |
|---|---|---|
| Belge 1 | 100% | 2% |
| Belge 2 | 100% | 0% |
| Belge 3 | 100% | 0% |
| Belge 4 | 100% | 0% |
| Belge 5 | 100% | 9% |
| Belge 6 | 99% | 0% |
| Belge 7 | 100% | 0% |
| Belge 8 | 100% | 0% |
| Belge 9 | 100% | 29% |
| Belge 10 | 100% | 0% |
| Belge 11 | 100% | 10% |
Not: GPTZero, GPT-5'te daha iyi performans gösterdiğini iddia eden bir model güncellemesi yayınladı! Orijinal karşılaştırmamızla ilgili daha fazla ayrıntı için lütfen bu blog yazısını inceleyin. Ayrıca, kullanıcıların herhangi bir noktada performansı karşılaştırmak için kendi testlerini tamamlamalarını öneririz.
Sonuç olarak, Pangram, yapay zeka tarafından üretilen içeriği tespit etmek için sağlam ve güvenilir bir seçenek olmaya devam ediyor. İster eğitim, yayıncılık, içerik denetimi ister daha özel bir ihtiyaçlarınız olsun, doğru ve adil yapay zeka tespiti için hizmetinizdeyiz. Blogumuzdan daha fazla bilgi edinebilir veya info@pangram.com adresinden bize ulaşabilirsiniz.
