Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram 3.0: Metinlerdeki Yapay Zeka Düzenlemesinin Kapsamını Ölçme

Katherine Thai
11 Aralık 2025

*Not: Yeni modelimiz Pangram 3.0, yayınladığımız araştırmaya dayanmaktadır: EditLens: Metinlerdeki AI Düzenlemesinin Kapsamını Ölçmek.

ChatGPT, Claude ve Gemini gibi büyük dil modellerinin (LLM) hızla benimsenmesi, metin yazma, düzeltme ve metinlerle etkileşim kurma şeklimizi dönüştürdü. OpenAI'nin yakın zamanda yaptığı bir araştırma, ChatGPT'ye yazma ile ilgili tüm sorguların üçte ikisinin, modelden sıfırdan metin oluşturmak yerine kullanıcı tarafından sağlanan metni değiştirmesini istediğini ortaya koydu. Kullanıcılar, insan tarafından yazılmış bir taslaktan yola çıkarak, modellerden grameri iyileştirmesini, argümanları yeniden yapılandırmasını veya üslubu değiştirmesini giderek daha fazla istiyor.

İnsanlar tarafından yazılmış ancak yapay zeka tarafından düzenlenmiş metinlerin yaygınlaşması, yapay zeka algılama araçları için ne anlama geliyor? Mevcut araçların çoğu, metinleri en fazla üç kategoriye ayırmak üzere tasarlanmıştır: tamamen insan tarafından yazılmış, tamamen yapay zeka tarafından yazılmış veya karışık. Bu çerçeve, LLM tarafından gramer düzeltmeleri yapılmış bir paragraf ile ayrıntılar eklemek için bir model tarafından genişletilmiş bir paragraf arasında ayrım yapmaz.

Metindeki AI düzenlemelerinin tüm spektrumunu tam olarak yakalamak için, bir metnin oluşturulmasında AI'nın katılımının büyüklüğünü ölçmek üzere tasarlanmış bir model olan Pangram 3.0'ı sunuyoruz. Pangram, tamamen insan, tamamen AI veya karışık gibi bir sınıflandırma yapmak yerine, AI müdahalesinin "gücüne" karşılık gelen bir puan verir.

Homojen ve Heterojen Karma Yazarlık

Pangram 3.0, homojen karışık yazarlık metinleri olarak adlandıracağımız durumu ele almaktadır. Homojen ve heterojen karışık yazarlık arasındaki farkı inceleyelim.

Heterojen durumda, metnin her bir bölümünün yazarlığı doğrudan bir insana veya yapay zekaya atfedilebilir. Aşağıdaki örnekte, bir insan bir inceleme yazmaya başlar ve ardından ChatGPT'den buna eklemeler yapmasını ister. Bu gibi durumlarda, insan ve yapay zeka bölümleri arasında bir veya daha fazla sınır vardır. Her cümleyi veya hatta her kelimeyi, onu kimin ürettiğine göre (insan mı yoksa yapay zeka mı) etiketleyebilirsiniz. Heterojen karışık metin algılama (ayrıca ince taneli yapay zeka metin algılama olarak da adlandırılır) daha önce Kushnareva ve ark. (2024), Wang ve ark. (2023) ve Lei ve ark. (2025) tarafından incelenmiştir.

Homojen durumda, yazarlık düzenleme süreciyle iç içe geçmiştir. Restoran incelemesi örneğimize devam edecek olursak, bir insan kısa bir inceleme yazıp ChatGPT'den buna ayrıntılar eklemesini isterse, homojen bir karışık metin ortaya çıkar. Bu durumda, insan tarafından yazılan kelimeleri AI tarafından yazılan kelimelerden ayırmak imkansızdır: AI, insan metnini yeni kelimelerle yeniden ifade etmiştir, ancak metnin ardındaki anlam ve fikirler doğrudan insan taslağından gelmektedir (Bir insan yazarın başka bir yazarı alıntı yapmadan yeniden ifade ettiği bir durumu düşünün - bu klasik bir intihal örneğidir!

Şekil 2: Heterojen karışık insan-AI yazarlı metin örneği (solda) ve homojen karışık yazarlı metin örneği (sağda)

Şekil 1'deki üç düzenlenmiş metnin her biri, homojen karışık yazarlık durumunun bir örneğidir. Bu üç örnekten, "Hataları düzelt" komutuyla üretilen metin ile "Daha açıklayıcı hale getir" komutuyla üretilen metin arasında açık bir fark olduğunu görebiliriz. Bu fark, çıktı metinleri insan tarafından yazılmış orijinal metinle karşılaştırdığımızda özellikle belirgindir, ancak Pangram 3.0 ile, yalnızca düzenlenmiş metin varken bu farkı nicelemeye yönelik bir adım atıyoruz, böylece kullanıcılar belirli bir metinde AI'nın ne kadar yaygın olduğunu daha iyi anlayabilirler.

Şekil 3: Eğitim sırasında Pangram 3.0 modelleme sürecine genel bakış. Model eğitildikten sonra, kullanıcı herhangi bir metni girebilir ve metindeki AI yardımının kapsamı hakkında bir tahmin alabilir.

AI ile düzenlenmiş veri kümesi oluşturma

Bir metinde ne kadar AI düzenleme olduğunu belirlemek için bir model eğitmek amacıyla, her metinde bulunan AI düzenleme miktarı ile etiketlenmiş AI ile düzenlenmiş metinlerden oluşan bir eğitim veri seti oluşturmamız gerekiyordu. Haberler, incelemeler, eğitim amaçlı web makaleleri ve Reddit yazma komutları gibi farklı alanlardaki açık kaynak veri setlerinden tamamen insanlar tarafından yazılmış kaynak metinleri örnekledik. Ardından, GPT-4.1, Claude Sonnet 4 ve Gemini 2.5 Flash olmak üzere 3 farklı ticari LLM kullanarak "Bunu daha açıklayıcı hale getir" veya "Makalemin daha iyi bir not almasına yardımcı olabilir misin?" gibi 303 farklı düzenleme komutu uyguladık. Son olarak, insan tarafından yazılmış her metnin tamamen AI tarafından oluşturulmuş bir versiyonunu (aynı zamanda "sentetik ayna" olarak da adlandırılır, Pangram Teknik Raporu'na bakın) oluşturduk. Nihai veri setimiz 60 bin eğitim, 6 bin test ve 2,4 bin val örneği içeriyor.

AI'nın bir metni nasıl düzenlediğini nasıl belirleriz?

Veri seti oluşturma sırasında düzenlenmemiş kaynak metne erişimimiz olduğu için, kaynak metni ve AI tarafından düzenlenmiş versiyonunu karşılaştırarak metinde bulunan AI düzenlemelerinin miktarını ölçebildik. AI'nın insan tarafından yazılmış kaynak metni ne kadar değiştirdiğini tahmin etmek için kosinüs mesafesi adı verilen bir metin benzerliği ölçütü kullandık. Tamamen insan tarafından yazılmış metinlere 0 puan, tamamen AI tarafından üretilmiş metinlere ise 1 puan verdik. Bu puanın, insanların AI düzenlemesini nasıl algıladıklarıyla uyumlu olduğunu doğrulamak için, AI tarafından oluşturulan metinlere kapsamlı bir şekilde maruz kalmış 3 uzmanı işe aldığımız ve onlardan iki AI tarafından düzenlenmiş metinden hangisinin daha fazla AI tarafından düzenlendiğini seçmelerini istediğimiz bir çalışma yürüttük. Çalışmamız, anotatörlerin genel olarak metinsel benzerlik ölçütü seçimimize katıldıklarını ortaya koydu.

AI düzenlemelerini tahmin etmek için bir model eğitmek

Etiketlenmiş veri setimizi elde ettikten sonra, modeli eğitme zamanı gelmişti. Modelimiz, yalnızca AI tarafından düzenlenmiş metinler üzerinde eğitilmiştir. Bu, bir kullanıcının Pangram 3.0'ı nasıl kullanacağını yansıtmaktadır: Öğrencilerinin AI'yı ne kadar kullandığını merak eden bir öğretmen, öğrencilerin önceki taslaklarını değil, yalnızca teslim ettikleri metinleri görebilir. Modelimiz, bir metin verildiğinde, önceki bölümde atadığımız AI düzenleme puanını tahmin etmek üzere eğitilmiştir. Şekil 3, modelimizin hem eğitim hem de test aşamasındaki girdi ve çıktılarını göstermektedir.

Uygulamada AI yardım algılama

İşte yazar Kazuo Ishiguro hakkında bir insan tarafından yazılmış paragraf:

İngiliz yazar Kazuo Ishiguro'nun eserlerini okumak, birçok farklı düzeyde hayal kırıklığı yaşamak demektir. Ishiguro'nun hayal kırıklığı yaratan yazımının dehası, okuyucunun karakterlere ve olay örgüsüne ne kadar duygusal olarak bağlandığına bakılmaksızın, hayal kırıklığının bolca yaşanmasıdır. Dilin kendisinde, okuyucu tekrarlar, uzun cümleler ve bolca kullanılan sıfatlar bulur. Ishiguro, karakterlerinden biri "Kısaca söyleyeyim" gibi bir şey söylediğinde, bende olumsuz bir fiziksel tepki oluşmasına neden oldu. Anlatıcıların hepsi bir iş sahibi, ancak hiçbiri profesyonel hikaye anlatıcısı değil. Bilgiler yavaş, belirsiz ve kronolojik sırayla değil aktarılıyor. Bu da okuyucuyu, olay örgüsünü anlamasını kolaylaştıracak somut gerçeklerden mahrum bırakıyor.

Pangram 3.0, farklı komutlar uyguladıktan sonra ChatGPT'den alınan bu paragrafın AI tarafından düzenlenmiş versiyonlarını şu şekilde karakterize ediyor:

HızlıAI Yardımı (EditLens) PuanıPangram 3.0 Sonuç
Bunu temizle, makalemi bir edebiyat dergisine göndermeye çalışıyorum.0.52Metni Görüntüle ve Hafifçe Düzenlenmiş Sonuç
Dili daha canlı hale getirin0.79Metni Görüntüle ve Orta Düzeyde Düzenlenmiş Sonuç
Bunu Ishiguro'nun tarzında yeniden yazın.0.89Metni Görüntüle ve Tam AI Sonucu

Grammarly vaka çalışması

Grammarly, kullanıcıların kendi kelime işlemcileri içinde LLM'leri kullanarak metinleri doğrudan düzenlemelerine olanak tanıyan, abonelik tabanlı bir yapay zeka yazma asistanıdır. Grammarly'yi kullanarak 197 insan tarafından yazılmış metne 9 varsayılan düzenleme komutunu uyguladığımız bir veri seti topladık. Bunlar arasında "Basitleştir", "Akıcı hale getir" ve "Daha açıklayıcı hale getir" gibi komutlar yer alıyordu. Ardından, Pangram 3.0 kullanarak düzenlenmiş tüm metinleri puanladık. Şekil 4'te, düzenleme komutuna göre gruplandırılmış AI yardım puanlarının dağılımını sunuyoruz. Pangram 3.0'ın, belki de sezgilere aykırı bir şekilde, "En küçük hataları düzelt" komutunu en az düzenleme gerektiren komut olarak değerlendirirken, "Özetle" ve "Daha ayrıntılı hale getir" komutlarını çok daha müdahaleci düzenlemeler olarak değerlendirdiğini görebiliriz.

Şekil 4: Grammarly'den toplanan bir veri setinde Pangram 3.0 (EditLens) puanlarının dağılımı. Puanlar, uygulanan düzenlemelere göre gruplandırılmıştır. Tüm düzenlemeler, Grammarly'nin kelime işlemcisinde bulunan varsayılan seçeneklerdir.

Daha fazla AI düzenlemesi uyguladıkça AI yardım puanı yükselir.

Aynı metne 5 LLM düzenlemesi uyguladığımız ve her düzenlemeden sonra Pangram 3.0 ile metni yeniden puanladığımız bir deney yaptık. Şekil 5'te, genel olarak, her bir düzenlemeyi uyguladıkça AI yardım puanı (EditLens) arttığını görebiliriz.

Şekil 5: Aynı belge üzerinde yapılan 5 aşamalı AI düzenlemesinin ardından Pangram 3.0 puanları.

Öğrenme Temsilleri Uluslararası Konferansı (ICLR) Vaka Çalışması

Kasım ayında, yapay zeka araştırmacıları, yapay zeka ve makine öğrenimi alanındaki en önemli konferanslardan biri olan Uluslararası Öğrenme Temsilleri Konferansı'nda (ICLR) yapay zeka tarafından üretildiği şüphelenilen sunumların ve akran değerlendirmelerinin büyük bir paya sahip olması konusunda endişelerini dile getirdiler. Carnegie Mellon Üniversitesi profesörü Graham Neubig, bu yılki ICLR sunumları ve değerlendirmelerinde yapay zeka tespiti yapan herkese ödül teklif etti ve Pangram olarak biz de bu teklifi memnuniyetle kabul ettik.

Bu analizin bir parçası olarak, yanlış pozitif oranımızı (FPR) kontrol etmek için, bu inceleme döngüsünde ICLR'ye gönderilen tüm akran incelemelerinin yanı sıra 2022'de gönderilen incelemelerde Pangram 3.0'ı çalıştırdık. 2022 incelemelerinde, Pangram 3.0, Hafif Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında yaklaşık 1/1.000 FPR, Orta Düzeyde Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında 1/5.000 FPR ve Yoğun Düzenlenmiş ile Tamamen İnsan tarafından Yapılmış karşılaştırmasında 1/10.000 FPR elde etti. Tamamen AI tarafından üretilen ve Tamamen İnsan tarafından üretilen arasında herhangi bir karışıklık bulamadık. Bu yılki incelemelerde, Pangram 3.0, incelemelerin yarısından fazlasının bir tür AI yardımı içerdiğini tespit etti. Şekil 6, 2026 ICLR incelemesinin tamamında Pangram 3.0 puanlarının dağılımını göstermektedir.

Şekil 6: 2026 ICLR incelemelerinde Pangram 3.0 tahminlerinin dağılımı

Metodolojimiz ve sonuçlarımız hakkında daha ayrıntılı bilgi için, analizimizle ilgili yazdığımız blog yazısını inceleyebilirsiniz.

Pangram 3.0, ana dili İngilizce olmayan kişiler tarafından yazılmış yapay zeka destekli metinleri nasıl işler?

Analiz sonuçlarımızı ve tüm incelemeler için Pangram 3.0 puanlarını yayınladık. Böylece, incelemeciler Pangram 3.0'ın yazdıkları incelemeleri nasıl puanladığını kontrol edebildiler. Sonuç olarak, Pangram 3.0'ın gerçek dünya metinlerinde nasıl performans gösterdiğine dair anekdotik geri bildirimler alabildik.

X'te analizimize verilen yanıtlarda ortak bir tema, AI Assistance'ın, ana dili İngilizce olmayan kişiler tarafından yazılan ve daha sonra LLM'leri kullanarak insan tarafından yazılan metinleri çeviren veya düzelten metinleri nasıl puanladığı sorusuydu. Aşağıda, Pangram'ın incelemelerine ilişkin karakterizasyonuna genel olarak katılan yorumcuların birkaç yanıtını paylaşıyoruz:

Bu ürün güncellemesini sizlerle paylaşmaktan heyecan duyuyoruz. Pangram 3.0 AI yardım algılama (EditLens) hakkında daha fazla teknik ayrıntı için araştırma makalemizi buradan inceleyebilirsiniz: https://arxiv.org/abs/2510.03154

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.