Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
*Not: Yeni modelimiz Pangram 3.0, yayınladığımız araştırmaya dayanmaktadır: EditLens: Metinlerdeki AI Düzenlemesinin Kapsamını Ölçmek.
ChatGPT, Claude ve Gemini gibi büyük dil modellerinin (LLM) hızla benimsenmesi, metin yazma, düzeltme ve metinlerle etkileşim kurma şeklimizi dönüştürdü. OpenAI'nin yakın zamanda yaptığı bir araştırma, ChatGPT'ye yazma ile ilgili tüm sorguların üçte ikisinin, modelden sıfırdan metin oluşturmak yerine kullanıcı tarafından sağlanan metni değiştirmesini istediğini ortaya koydu. Kullanıcılar, insan tarafından yazılmış bir taslaktan yola çıkarak, modellerden grameri iyileştirmesini, argümanları yeniden yapılandırmasını veya üslubu değiştirmesini giderek daha fazla istiyor.
İnsanlar tarafından yazılmış ancak yapay zeka tarafından düzenlenmiş metinlerin yaygınlaşması, yapay zeka algılama araçları için ne anlama geliyor? Mevcut araçların çoğu, metinleri en fazla üç kategoriye ayırmak üzere tasarlanmıştır: tamamen insan tarafından yazılmış, tamamen yapay zeka tarafından yazılmış veya karışık. Bu çerçeve, LLM tarafından gramer düzeltmeleri yapılmış bir paragraf ile ayrıntılar eklemek için bir model tarafından genişletilmiş bir paragraf arasında ayrım yapmaz.
Metindeki AI düzenlemelerinin tüm spektrumunu tam olarak yakalamak için, bir metnin oluşturulmasında AI'nın katılımının büyüklüğünü ölçmek üzere tasarlanmış bir model olan Pangram 3.0'ı sunuyoruz. Pangram, tamamen insan, tamamen AI veya karışık gibi bir sınıflandırma yapmak yerine, AI müdahalesinin "gücüne" karşılık gelen bir puan verir.
Pangram 3.0, homojen karışık yazarlık metinleri olarak adlandıracağımız durumu ele almaktadır. Homojen ve heterojen karışık yazarlık arasındaki farkı inceleyelim.
Heterojen durumda, metnin her bir bölümünün yazarlığı doğrudan bir insana veya yapay zekaya atfedilebilir. Aşağıdaki örnekte, bir insan bir inceleme yazmaya başlar ve ardından ChatGPT'den buna eklemeler yapmasını ister. Bu gibi durumlarda, insan ve yapay zeka bölümleri arasında bir veya daha fazla sınır vardır. Her cümleyi veya hatta her kelimeyi, onu kimin ürettiğine göre (insan mı yoksa yapay zeka mı) etiketleyebilirsiniz. Heterojen karışık metin algılama (ayrıca ince taneli yapay zeka metin algılama olarak da adlandırılır) daha önce Kushnareva ve ark. (2024), Wang ve ark. (2023) ve Lei ve ark. (2025) tarafından incelenmiştir.
Homojen durumda, yazarlık düzenleme süreciyle iç içe geçmiştir. Restoran incelemesi örneğimize devam edecek olursak, bir insan kısa bir inceleme yazıp ChatGPT'den buna ayrıntılar eklemesini isterse, homojen bir karışık metin ortaya çıkar. Bu durumda, insan tarafından yazılan kelimeleri AI tarafından yazılan kelimelerden ayırmak imkansızdır: AI, insan metnini yeni kelimelerle yeniden ifade etmiştir, ancak metnin ardındaki anlam ve fikirler doğrudan insan taslağından gelmektedir (Bir insan yazarın başka bir yazarı alıntı yapmadan yeniden ifade ettiği bir durumu düşünün - bu klasik bir intihal örneğidir!
Şekil 2: Heterojen karışık insan-AI yazarlı metin örneği (solda) ve homojen karışık yazarlı metin örneği (sağda)
Şekil 1'deki üç düzenlenmiş metnin her biri, homojen karışık yazarlık durumunun bir örneğidir. Bu üç örnekten, "Hataları düzelt" komutuyla üretilen metin ile "Daha açıklayıcı hale getir" komutuyla üretilen metin arasında açık bir fark olduğunu görebiliriz. Bu fark, çıktı metinleri insan tarafından yazılmış orijinal metinle karşılaştırdığımızda özellikle belirgindir, ancak Pangram 3.0 ile, yalnızca düzenlenmiş metin varken bu farkı nicelemeye yönelik bir adım atıyoruz, böylece kullanıcılar belirli bir metinde AI'nın ne kadar yaygın olduğunu daha iyi anlayabilirler.
Bir metinde ne kadar AI düzenleme olduğunu belirlemek için bir model eğitmek amacıyla, her metinde bulunan AI düzenleme miktarı ile etiketlenmiş AI ile düzenlenmiş metinlerden oluşan bir eğitim veri seti oluşturmamız gerekiyordu. Haberler, incelemeler, eğitim amaçlı web makaleleri ve Reddit yazma komutları gibi farklı alanlardaki açık kaynak veri setlerinden tamamen insanlar tarafından yazılmış kaynak metinleri örnekledik. Ardından, GPT-4.1, Claude Sonnet 4 ve Gemini 2.5 Flash olmak üzere 3 farklı ticari LLM kullanarak "Bunu daha açıklayıcı hale getir" veya "Makalemin daha iyi bir not almasına yardımcı olabilir misin?" gibi 303 farklı düzenleme komutu uyguladık. Son olarak, insan tarafından yazılmış her metnin tamamen AI tarafından oluşturulmuş bir versiyonunu (aynı zamanda "sentetik ayna" olarak da adlandırılır, Pangram Teknik Raporu'na bakın) oluşturduk. Nihai veri setimiz 60 bin eğitim, 6 bin test ve 2,4 bin val örneği içeriyor.
Veri seti oluşturma sırasında düzenlenmemiş kaynak metne erişimimiz olduğu için, kaynak metni ve AI tarafından düzenlenmiş versiyonunu karşılaştırarak metinde bulunan AI düzenlemelerinin miktarını ölçebildik. AI'nın insan tarafından yazılmış kaynak metni ne kadar değiştirdiğini tahmin etmek için kosinüs mesafesi adı verilen bir metin benzerliği ölçütü kullandık. Tamamen insan tarafından yazılmış metinlere 0 puan, tamamen AI tarafından üretilmiş metinlere ise 1 puan verdik. Bu puanın, insanların AI düzenlemesini nasıl algıladıklarıyla uyumlu olduğunu doğrulamak için, AI tarafından oluşturulan metinlere kapsamlı bir şekilde maruz kalmış 3 uzmanı işe aldığımız ve onlardan iki AI tarafından düzenlenmiş metinden hangisinin daha fazla AI tarafından düzenlendiğini seçmelerini istediğimiz bir çalışma yürüttük. Çalışmamız, anotatörlerin genel olarak metinsel benzerlik ölçütü seçimimize katıldıklarını ortaya koydu.
Etiketlenmiş veri setimizi elde ettikten sonra, modeli eğitme zamanı gelmişti. Modelimiz, yalnızca AI tarafından düzenlenmiş metinler üzerinde eğitilmiştir. Bu, bir kullanıcının Pangram 3.0'ı nasıl kullanacağını yansıtmaktadır: Öğrencilerinin AI'yı ne kadar kullandığını merak eden bir öğretmen, öğrencilerin önceki taslaklarını değil, yalnızca teslim ettikleri metinleri görebilir. Modelimiz, bir metin verildiğinde, önceki bölümde atadığımız AI düzenleme puanını tahmin etmek üzere eğitilmiştir. Şekil 3, modelimizin hem eğitim hem de test aşamasındaki girdi ve çıktılarını göstermektedir.
İşte yazar Kazuo Ishiguro hakkında bir insan tarafından yazılmış paragraf:
İngiliz yazar Kazuo Ishiguro'nun eserlerini okumak, birçok farklı düzeyde hayal kırıklığı yaşamak demektir. Ishiguro'nun hayal kırıklığı yaratan yazımının dehası, okuyucunun karakterlere ve olay örgüsüne ne kadar duygusal olarak bağlandığına bakılmaksızın, hayal kırıklığının bolca yaşanmasıdır. Dilin kendisinde, okuyucu tekrarlar, uzun cümleler ve bolca kullanılan sıfatlar bulur. Ishiguro, karakterlerinden biri "Kısaca söyleyeyim" gibi bir şey söylediğinde, bende olumsuz bir fiziksel tepki oluşmasına neden oldu. Anlatıcıların hepsi bir iş sahibi, ancak hiçbiri profesyonel hikaye anlatıcısı değil. Bilgiler yavaş, belirsiz ve kronolojik sırayla değil aktarılıyor. Bu da okuyucuyu, olay örgüsünü anlamasını kolaylaştıracak somut gerçeklerden mahrum bırakıyor.
Pangram 3.0, farklı komutlar uyguladıktan sonra ChatGPT'den alınan bu paragrafın AI tarafından düzenlenmiş versiyonlarını şu şekilde karakterize ediyor:
| Hızlı | AI Yardımı (EditLens) Puanı | Pangram 3.0 Sonuç |
|---|---|---|
| Bunu temizle, makalemi bir edebiyat dergisine göndermeye çalışıyorum. | 0.52 | Metni Görüntüle ve Hafifçe Düzenlenmiş Sonuç |
| Dili daha canlı hale getirin | 0.79 | Metni Görüntüle ve Orta Düzeyde Düzenlenmiş Sonuç |
| Bunu Ishiguro'nun tarzında yeniden yazın. | 0.89 | Metni Görüntüle ve Tam AI Sonucu |
Grammarly, kullanıcıların kendi kelime işlemcileri içinde LLM'leri kullanarak metinleri doğrudan düzenlemelerine olanak tanıyan, abonelik tabanlı bir yapay zeka yazma asistanıdır. Grammarly'yi kullanarak 197 insan tarafından yazılmış metne 9 varsayılan düzenleme komutunu uyguladığımız bir veri seti topladık. Bunlar arasında "Basitleştir", "Akıcı hale getir" ve "Daha açıklayıcı hale getir" gibi komutlar yer alıyordu. Ardından, Pangram 3.0 kullanarak düzenlenmiş tüm metinleri puanladık. Şekil 4'te, düzenleme komutuna göre gruplandırılmış AI yardım puanlarının dağılımını sunuyoruz. Pangram 3.0'ın, belki de sezgilere aykırı bir şekilde, "En küçük hataları düzelt" komutunu en az düzenleme gerektiren komut olarak değerlendirirken, "Özetle" ve "Daha ayrıntılı hale getir" komutlarını çok daha müdahaleci düzenlemeler olarak değerlendirdiğini görebiliriz.
Şekil 4: Grammarly'den toplanan bir veri setinde Pangram 3.0 (EditLens) puanlarının dağılımı. Puanlar, uygulanan düzenlemelere göre gruplandırılmıştır. Tüm düzenlemeler, Grammarly'nin kelime işlemcisinde bulunan varsayılan seçeneklerdir.
Aynı metne 5 LLM düzenlemesi uyguladığımız ve her düzenlemeden sonra Pangram 3.0 ile metni yeniden puanladığımız bir deney yaptık. Şekil 5'te, genel olarak, her bir düzenlemeyi uyguladıkça AI yardım puanı (EditLens) arttığını görebiliriz.
Şekil 5: Aynı belge üzerinde yapılan 5 aşamalı AI düzenlemesinin ardından Pangram 3.0 puanları.
Kasım ayında, yapay zeka araştırmacıları, yapay zeka ve makine öğrenimi alanındaki en önemli konferanslardan biri olan Uluslararası Öğrenme Temsilleri Konferansı'nda (ICLR) yapay zeka tarafından üretildiği şüphelenilen sunumların ve akran değerlendirmelerinin büyük bir paya sahip olması konusunda endişelerini dile getirdiler. Carnegie Mellon Üniversitesi profesörü Graham Neubig, bu yılki ICLR sunumları ve değerlendirmelerinde yapay zeka tespiti yapan herkese ödül teklif etti ve Pangram olarak biz de bu teklifi memnuniyetle kabul ettik.
Bu analizin bir parçası olarak, yanlış pozitif oranımızı (FPR) kontrol etmek için, bu inceleme döngüsünde ICLR'ye gönderilen tüm akran incelemelerinin yanı sıra 2022'de gönderilen incelemelerde Pangram 3.0'ı çalıştırdık. 2022 incelemelerinde, Pangram 3.0, Hafif Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında yaklaşık 1/1.000 FPR, Orta Düzeyde Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında 1/5.000 FPR ve Yoğun Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında 1/10.000 FPR elde etti. Tamamen AI tarafından üretilen ve Tamamen İnsan tarafından üretilen arasında herhangi bir karışıklık bulamadık. Bu yılki incelemelerde, Pangram 3.0, incelemelerin yarısından fazlasının bir tür AI yardımı içerdiğini tespit etti. Şekil 6, 2026 ICLR incelemesinin tamamında Pangram 3.0 puanlarının dağılımını göstermektedir.
Şekil 6: 2026 ICLR incelemelerinde Pangram 3.0 tahminlerinin dağılımı
Metodolojimiz ve sonuçlarımız hakkında daha ayrıntılı bilgi için, analizimizle ilgili yazdığımız blog yazısını inceleyebilirsiniz.
Analiz sonuçlarımızı ve tüm incelemeler için Pangram 3.0 puanlarını yayınladık. Böylece, incelemeciler Pangram 3.0'ın yazdıkları incelemeleri nasıl puanladığını kontrol edebildiler. Sonuç olarak, Pangram 3.0'ın gerçek dünya metinlerinde nasıl performans gösterdiğine dair anekdotik geri bildirimler alabildik.
X'te analizimize verilen yanıtlarda ortak bir tema, AI Assistance'ın, ana dili İngilizce olmayan kişiler tarafından yazılan ve daha sonra LLM'leri kullanarak insan tarafından yazılan metinleri çeviren veya düzelten metinleri nasıl puanladığı sorusuydu. Aşağıda, Pangram'ın incelemelerine ilişkin karakterizasyonuna genel olarak katılan yorumcuların birkaç yanıtını paylaşıyoruz:
LLM'ler tarafından İngilizceye uyarlanmış yorumlarımı kontrol ettim ve hepsini "AI tespit edilmedi / tamamen insan tarafından yazıldı" olarak işaretledim.
— Ana Marasović (@anmarasovic) 15 Kasım 2025
Yorumlarımı kontrol ediyorum. Sonuç: 2 orta derecede AI düzenlemesi, 2 ağır ve 1 hafif. Çünkü yorumumu Çince yazdım ve gpt İngilizceye çevirmeme yardımcı oluyor. Bu şaşırtıcı bir sonuç değil. Ama bence ben sorumlu bir yorumcu olduğumu düşünüyorum :) https://t.co/1QoRvF6q2y
— Rising Zhang (张瑞星) (@xing_rui12683) 16 Kasım 2025
Artık AI tarafından üretilen içeriği tespit etmek için AI'ya, AI tarafından üretilen içeriğin kendisine güvendiğimizden daha fazla güveniyoruz haha.
— Shuaichen Chang (@ShuaichenChang) 17 Kasım 2025
Açıkça belirtmek gerekirse, bu analizi mümkün kılmak için çaba sarf eden kişilere tam saygı duyuyorum.
Kendi deneyimlerime göre: Dört incelemenin de... https://t.co/qzjxeG48u2
Bu ürün güncellemesini sizlerle paylaşmaktan heyecan duyuyoruz. Pangram 3.0 AI yardım algılama (EditLens) hakkında daha fazla teknik ayrıntı için araştırma makalemizi buradan inceleyebilirsiniz: https://arxiv.org/abs/2510.03154
