Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram, ICLR incelemelerinin %21'inin yapay zeka tarafından oluşturulduğunu tahmin ediyor

Bradley Emi
18 Kasım 2025

Yazarlar, AI araştırma makalelerini yazmak için LLM'leri kullanıyor mu? Akran değerlendiriciler, bu makalelerin incelemelerini üretken AI araçlarına mı yaptırıyor? Bunu öğrenmek için, en önemli ve prestijli AI araştırma yayın platformlarından biri olan Uluslararası Öğrenme Temsilleri Konferansı'ndan (ICLR) 19.000 makale ve 70.000 incelemeyi analiz ettik. OpenReview ve ICLR'nin halka açık inceleme süreci sayesinde, tüm makaleler ve incelemeleri çevrimiçi olarak halka açık hale getirildi ve bu açık inceleme süreci bu analizin yapılmasını mümkün kıldı.

Tüm sonuçları iclr.pangram.com adresinde kamuya açık hale getirdik.

ICLR başvurularını neden incelemeliyiz?

Birincisi, bize ödül teklif edildi!

Graham Neubig'in ICLR başvurularını analiz etmek için ödül teklif ettiği tweet

Ciddiyetle söylemek gerekirse, birçok ICLR yazarı ve hakem, tamamen hayal ürünü referanslar içeren LLM tarafından üretilen bir makale ve tamamen AI tarafından üretilen incelemeler aldığını iddia eden birçok yazar gibi, AI ile ilgili bazı bariz bilimsel suistimal vakaları fark etmiştir.

Bir yazar, bir hakem tarafından yapılan akran değerlendirmesinde 40 adet yapay zeka tarafından oluşturulan soru sorulduğunu bile bildirdi!

Bu sorunun genel ölçeğini ölçmek istedik: Bu kötü davranış örnekleri tek seferlik olaylar mı, yoksa daha büyük bir eğilimin göstergesi mi? Bu yüzden Graham'ın teklifini kabul ettik!

ICLR başvurularında ve akran değerlendirmesinde yapay zeka kullanılmasına izin veriliyor mu?

ICLR, makaleler ve incelemelerde LLM kullanımına ilişkin izin verilen ve izin verilmeyen hususlar konusunda çok açık ve açıklayıcı bir politika izlemektedir.

Politika 1. LLM'nin herhangi bir kullanımı, "araştırmaya yapılan tüm katkılar belirtilmelidir" ve katkıda bulunanlar "çalışmaları için takdir görmeyi beklemelidir" şeklindeki Etik Kuralları politikalarına uygun olarak açıklanmalıdır.

Politika 2. ICLR yazarları ve hakemleri, "araştırmacılar kasıtlı olarak yanlış veya yanıltıcı iddialarda bulunmamalı, verileri uydurmamalı veya tahrif etmemeli ya da sonuçları yanlış sunmamalıdır" şeklindeki Etik Kuralları politikasına uygun olarak, katkıları konusunda nihai sorumluluk sahibidir.

ICLR ayrıca, yazarların makalelerinde ve incelemelerinde LLM'leri kullanırken uymaları gereken kılavuzlar da yayınlamıştır. Özetlemek gerekirse:

  • Yazarlar, makalelerini hazırlarken ve araştırma asistanı olarak LLM'leri kullanabilirler, ancak bu kullanımı açıklamak zorundadırlar ve makalelerinin bilimsel bütünlüğünden sorumludurlar.
  • Yazarlar, LLM incelemelerinde yazım ve dilbilgisi konusunda yardım almak için LLM'leri kullanabilirler, ancak LLM'yi incelemenin tamamını yazmak için kullanmak, hem makalenin dış görüşünü/bakış açısını kendi görüşleriymiş gibi yanlış sunmak hem de gizliliği ihlal etmek açısından Etik Kuralları ihlali anlamına gelebilir.

Bu nedenle, bu çalışmayı bireysel suçluları ifşa etmek amacıyla yapmıyoruz, çünkü LLM'ler hem makale sunumunda hem de akran değerlendirme sürecinde aslında izin verilmektedir. Bunun yerine, makalelerde ve akran değerlendirmesinde AI kullanımının miktarına dikkat çekmek ve tamamen AI tarafından oluşturulan değerlendirmelerin (ki bunlar aslında Etik Kuralları ihlali olasılığı yüksektir ) birçok kişinin fark ettiğinden çok daha yaygın bir sorun olduğunu vurgulamak istiyoruz.

Metodoloji

Öncelikle OpenReview API'sini kullanarak ICLR başvurularının tüm PDF'lerini indirdik. Ayrıca tüm notları da indirdik, bu da incelemeyi çıkarmamızı sağladı.

PyMuPDF gibi normal bir PDF ayrıştırıcı kullanmanın ICLR makaleleri için yetersiz olduğunu gördük, çünkü satır numaraları, resimler ve tablolar genellikle doğru şekilde işlenmiyordu. Bu nedenle, makalenin ana metnini çıkarmak için Mistral OCR'yi kullanarak makalenin ana metnini PDF'den Markdown olarak ayrıştırdık. AI de Markdown çıktısını tercih etme eğiliminde olduğundan, yalnızca biçimlendirmeden kaynaklanan yanlış pozitifleri azaltmak için Markdown'u düz metin olarak yeniden biçimlendirdik.

Ardından, bu PDF'lerden ayrıştırılan düz metin üzerinde Pangram'ın genişletilmiş metin sınıflandırıcısını çalıştırdık. Sınıflandırıcının genişletilmiş versiyonu, metni önce segmentlere ayırır ve her segment üzerinde ayrı ayrı AI algılama modelini çalıştırır. Sonuç, AI tarafından üretilen metin için pozitif sonuç veren segmentlerin yüzdesini gösterir, böylece sonuç bir makalenin tamamen insan tarafından yazılmış, tamamen AI tarafından üretilmiş veya bazı segmentler pozitif, bazı segmentler negatif sonuç veren karışık olduğunu gösterebilir.

Ayrıca, yeni EditLens modelimizi kullanarak AI için akran değerlendirmelerini de kontrol ettik. EditLens, AI'nın varlığını tespit etmekle kalmaz, aynı zamanda AI'nın düzenleme sürecine ne derece dahil olduğunu da açıklayabilir. EditLens, bir metnin beş kategoriden birine girdiğini tahmin edebilir:

  • Tamamen insan tarafından yazılmış
  • Hafifçe AI ile düzenlenmiş veya AI ile desteklenmiş
  • Orta düzeyde AI ile düzenlenmiş veya AI destekli
  • Ağır AI düzenlemesi veya AI yardımıyla
  • Tamamen yapay zeka tarafından üretilmiş

EditLens şu anda yalnızca özel beta sürümümüzdeki müşteriler tarafından kullanılabilir, ancak Aralık ayı başında genel kullanıma açılacaktır. Önümüzdeki haftalarda bu model hakkında daha fazla bilgi vereceğiz, ancak araştırma ön baskımızda, performansını ortak yazılmış metin üretiminde en son teknoloji olarak tanımlıyoruz ve iç benchmarklarda, ikili sınıflandırıcı olarak değerlendirildiğinde mevcut modelimizle benzer bir doğruluğa sahip ve tamamen insan tarafından yazılmış metinlerde 10.000'de 1 gibi olağanüstü düşük bir yanlış pozitif oranına sahip.

Sonuçlar

AI konferans makalelerini daha önce yaptığımız analizde, Pangram'ın 2022'den önce yayınlanan tüm ICLR ve NeurIPS makalelerinde %0 yanlış pozitif oranına sahip olduğunu tespit ettik. Bu makalelerin bazıları gerçekten eğitim setinde yer alsa da, hepsi değil; bu nedenle Pangram'ın gerçek test seti performansının aslında %0'a çok yakın olduğunu düşünüyoruz.

Akran değerlendirmeleri ne durumda? Ek bir negatif kontrol deneyi gerçekleştirdik ve yeni EditLens modelini 2022 akran değerlendirmesinin tamamında uyguladık. Hafif Düzenleme ile Tamamen İnsan tarafından yapılan düzenlemeler arasında yaklaşık 1/1000 hata oranı, Orta Düzey Düzenleme ile Tamamen İnsan tarafından yapılan düzenlemeler arasında 1/5000 hata oranı ve Yoğun Düzenleme ile Tamamen İnsan tarafından yapılan düzenlemeler arasında 1/10000 hata oranı bulduk. Tamamen AI tarafından üretilen ile Tamamen İnsan tarafından üretilen arasında herhangi bir karışıklık bulamadık.

ICLR 2022 incelemelerinde EditLens tahminlerinin dağılımı (negatif kontrol)

Deney için, tüm makaleler ve hakem değerlendirmeleri üzerinde Pangram uyguladık. İşte ana bulgular:

%21'i, yani 15.899 yorumun tamamen yapay zeka tarafından oluşturulduğunu tespit ettik. Yorumların yarısından fazlasında yapay zeka düzenleme, yardım veya tamamen yapay zeka tarafından oluşturma gibi bir şekilde yapay zeka kullanıldığını tespit ettik.

ICLR 2026 incelemelerinde EditLens tahminlerinin dağılımı

Öte yandan, makale gönderimleri hala çoğunlukla insanlar tarafından yazılmaktadır (yüzde 61'i çoğunlukla insanlar tarafından yazılmıştır). Bununla birlikte, birkaç yüz adet tamamen yapay zeka tarafından üretilmiş makale bulduk, ancak bunlar istisnai durumlar gibi görünüyor ve gönderimlerin yüzde 9'unda yapay zeka içeriği yüzde 50'nin üzerindeydi. Bir uyarı olarak, bazı tamamen yapay zeka tarafından üretilmiş makaleler, analizi gerçekleştirme fırsatımız olmadan önce zaten masa başında reddedilmiş ve OpenReview'dan kaldırılmıştı.

ICLR 2026 makale başvurularında AI içeriğinin dağılımı

Analiz

Sonuçlarda, AI'nın hem makale gönderimlerinde hem de hakem değerlendirmelerinde nasıl kullanıldığına ve bu kullanımın değerlendirme süreci üzerinde ne gibi etkileri olduğuna ışık tutan bazı ilginç eğilimler tespit ettik.

Makalelerde yapay zeka kullanımı, daha az sayıda inceleme ile ilişkilidir.

LLM'lerin yargıç olarak kullanıldıklarında genellikle insan yazımına göre kendi çıktılarını tercih ettiklerini gösteren önceki bir çalışmanın aksine, biz tam tersini bulduk: Bir gönderimde AI tarafından üretilen metin ne kadar fazla olursa, değerlendirmeler o kadar kötü oluyor.

Makalelerde AI içeriğine göre ortalama inceleme puanları

Bunun birçok nedeni olabilir. Bunlardan biri, bir makalede AI ne kadar çok kullanılırsa, makalenin genel olarak o kadar az düşünülmüş ve uygulanmış olmasıdır. Bilimsel yazılarda AI kullanıldığında, yardımcı bir araç olarak kullanılmaktan ziyade, iş yükünü azaltmak ve kısayol oluşturmak için kullanılması daha olasıdır. Ayrıca, tamamen AI ile üretilen makalelerin daha düşük puanlar alması, AI ile üretilen araştırmaların hala düşük kaliteli ve (henüz) bilime gerçek bir katkı sağlamadığını gösterebilir.

AI incelemeleri daha yüksek puanlar alıyor

AI katılım düzeyine göre ortalama değerlendirme puanları

Bir incelemede AI ne kadar fazla kullanılırsa, puan o kadar yüksek oluyor. Bu sorunlu bir durum: bu, incelemeyi yapan kişinin kendi görüşünü AI'yı çerçeve olarak kullanarak yeniden şekillendirmek yerine (eğer böyle olsaydı, AI incelemeleri ile insan incelemelerinin ortalama puanlarının aynı olmasını beklerdik), incelemeyi yapan kişinin makaleyi değerlendirme işini de AI'ya devrettiği anlamına geliyor. LLM'nin görüşünü gözden geçiren kişinin kendi gerçek görüşü olarak sunmak, Etik Kuralları'nın açık bir ihlalidir. AI'nın dalkavukluk eğilimi olduğunu biliyoruz, yani tarafsız bir görüş vermek yerine insanların duymak istediği ve hoşuna giden şeyler söylüyor: bu, akran değerlendirmelerine uygulandığında tamamen istenmeyen bir özellik! Bu, AI değerlendirmelerindeki puanlardaki olumlu önyargıyı açıklayabilir.

AI incelemeleri daha uzundur

AI katılım düzeyine göre ortalama inceleme uzunluğu

Eskiden daha uzun bir inceleme, incelemenin iyi düşünülmüş ve daha yüksek kaliteli olduğu anlamına geliyordu, ancak LLM çağında bu genellikle tam tersi anlamına gelebilir. AI tarafından oluşturulan incelemeler daha uzundur ve içlerinde çok fazla "dolgu içeriği" bulunur. Shaib ve arkadaşlarının" Metinde AI Slop'u Ölçmek" adlı araştırma makalesine göre, AI "slop"unun bir özelliği, bilgi yoğunluğunun düşük olmasıdır; bu da AI'nın gerçek içerik açısından çok az şey söylemek için çok fazla kelime kullandığı anlamına gelir.

LLM incelemelerinde de bunun doğru olduğunu görüyoruz: AI çok fazla kelime kullanıyor ancak aslında çok fazla bilgi içeren geri bildirim vermiyor. Bunun sorunlu olduğunu düşünüyoruz, çünkü yazarlar uzun bir incelemeyi analiz etmek ve aslında pek yararlı geri bildirim içermeyen boş sorular yanıtlamak için zaman harcamak zorunda kalıyorlar. Ayrıca, çoğu yazarın, makalelerini göndermeden önce büyük bir dil modelinden makalelerinin incelenmesini isteyeceğini de belirtmek gerekir. Bu durumlarda, LLM incelemesinden gelen geri bildirim büyük ölçüde gereksiz ve yararsızdır, çünkü yazar, LLM'nin yapacağı bariz eleştirileri zaten görmüştür.

Yanlış suçlamalar var mı?

Pangram'ın yanlış pozitif oranı son derece düşük olmakla birlikte, sıfırdan farklıdır ve bu nedenle, bir makalenin kaderine ilişkin kesin kararlar (örneğin, masa başı red kararı) vermek veya bir hakem değerlendiricisini cezalandırmak için bu aracı önermeden önce, aracın güvenilirliğini ölçmekle yükümlüyüz. Yukarıda açıklanan negatif kontrol çalışmaları kullanarak alan içi yanlış pozitif oranını doğrudan ölçtük, ancak diğer veri kümeleri, karşılaştırma ölçütleri ve genel metinlerde durum nedir?

Pangram'ın yanlış pozitif oranını önceki blog yazımızda belgeledik.

  • Pangram'ın test seti belgelerinde genel yanlış pozitif oranı 10.000'de 1'dir.
  • Pangram'ın ArXiV'den alınan bilimsel makalelerde yanlış pozitif oranı 100.000'de 1'dir.
  • PubMed'den alınan tıbbi makalelerde Pangram'ın yanlış pozitif oranı 0'dır (3 ondalık basamağa kadar güvenilirlikle).

Pangram'ın doğruluğu, UChicago Booth ve Amerikan Kanser Araştırmaları Derneği tarafından yakın zamanda yapılan çalışmalar da dahil olmak üzere, birçok bağımsız çalışma tarafından da doğrulanmıştır.

Bu rakamları bağlamına oturtmak gerekirse, Pangram'ın yanlış pozitif oranı, DNA testi veya uyuşturucu testinin yanlış pozitif oranıyla karşılaştırılabilir: tamamen yapay zeka tarafından üretilen bir metnin tamamen insan tarafından yazılmış bir metinle karıştırıldığı gerçek bir yanlış pozitif durum, sıfırdan farklıdır, ancak son derece nadirdir.

AI akran değerlendirmesi aldığınızı nasıl anlayabilirsiniz?

Eğer bir yazar olarak, yapay zeka tarafından oluşturulmuş bir yorum aldığınızdan şüpheleniyorsanız, bunun birkaç belirgin işareti vardır. Pangram, yapay zeka tarafından oluşturulmuş metinleri tespit edebilir, ancak yapay zeka yorumlarının işaretlerini gözle de tespit edebilirsiniz.

AI yazma kalıplarını gözle tespit etmek için genel bir kılavuz hazırladık, ancak AI akran değerlendirmelerinde özellikle bulunan bazı ek sinyaller ve işaretler fark ettik.

AI akran değerlendirmelerinde fark ettiğimiz bazı "ipuçları":

  • Başlık stilleri: AI tarafından oluşturulan akran değerlendirmeleri, 2-3 kelimelik özet etiketlerinin ardından iki nokta üst üste işareti ile kalın bölüm başlıkları oluşturmayı sever. Örneğin:

Güçlü yönleri: Net problem formülasyonu: Makale gerçek bir sorunu ele almaktadır: VLM tabanlı OCR sistemleri, belirsizliği belirtmeden bozuk belgelerde halüsinasyonlar görürler, bu da açıkça bozuk çıktı üreten klasik OCR sistemlerinden daha kötüdür. Motivasyon iyi ifade edilmiştir. Sistematik metodoloji: İki aşamalı eğitim yaklaşımı (sözde etiketli soğuk başlangıç + GRPO) makul ve iyi açıklanmıştır. Ödül hacklemeye karşı koruma önlemleri içeren çok amaçlı ödül tasarımı (özellikle uzunluk uyuşmazlığı sönümleme faktörü η), dikkatli bir mühendislik çalışmasını göstermektedir.

Sorular: 1. Gerçek bozulmalara genelleme: Yazarlar, yaklaşımın belirli sentetik bozulma sürecinin ötesinde genelleştirilebileceğini göstermek için gerçek dünyadaki bozulmuş belgeler (ör. tarihi belge veri kümeleri) üzerinde değerlendirme yapabilirler mi? 2. MinerU sistemleriyle karşılaştırma: MinerU ve MinerU2.5 [2,3], belge ayrıştırmada son zamanlarda kaydedilen ilerlemeleri temsil etmektedir. Önerilen yöntem, Blur-OCR üzerinde bu sistemlerle karşılaştırıldığında nasıl bir performans sergiliyor? Bu sistemler belirsizlik tahminleri üretemiyorsa, önerilen etiketleme yaklaşımıyla birleştirilebilirler mi?

  • Gerçek analizden ziyade yüzeysel eleştiriler: AI tarafından üretilen incelemeler, makalenin bilimsel bütünlüğüyle ilgili gerçek endişelerden ziyade yüzeysel konulara odaklanma eğilimindedir. Tipik AI eleştirileri arasında, sunulan ablasyonlara çok benzer ek ablasyonların yapılması, test setinin boyutunun veya kontrol sayısının artırılması veya daha fazla açıklama veya örnek istenmesi sayılabilir.

  • Çok az şey ifade eden çok fazla kelime kullanmak: AI incelemeleri genellikle düşük bilgi yoğunluğu sergiler ve daha özlü bir şekilde ifade edilebilecek noktaları belirtmek için gereksiz ayrıntılara yer verir. Bu ayrıntıya düşkünlük, uzun incelemeleri inceleyerek asıl önemli eleştirileri çıkarmak zorunda olan yazarlar için ekstra iş yükü yaratır.

AI makaleleri ve AI akran değerlendirmeleri bilimsel sürece neden zararlıdır?

Bu yılın başlarında, Kore'deki UNIST'ten araştırmacılar, hakem değerlendirme sürecinin kalitesindeki düşüşün bazı nedenlerini özetleyen bir görüş belgesi yayınladılar. Yapay zeka alanı büyümeye devam ettikçe, hakem değerlendirme sistemine binen kaynak yükü nihayetinde çatlaklar göstermeye başlıyor. Makale sayısındaki patlama karşısında, nitelikli hakemlerin sayısı sınırlıdır.

Kalitesiz AI tarafından üretilen makalelerin en büyük sorunu, sınırlı olan zaman ve kaynakları boşa harcamalarıdır. Analizimize göre, AI tarafından üretilen makaleler insan tarafından yazılan makaleler kadar iyi değildir ve daha da sorunlu olanı, dürüst olmayan hakemler ve "spray and pray" (bir konferansa çok sayıda makale göndererek, bunlardan birinin şans eseri kabul edilmesini ummak) yöntemini kullanan makale fabrikaları tarafından ucuza üretilebilmeleridir. AI tarafından üretilen makalelerin hakem değerlendirme sistemini doldurmasına izin verilirse, değerlendirme kalitesi düşmeye devam edecek ve hakemler gerçek araştırmalar yerine "kalitesiz" makaleleri okumak zorunda kalarak motivasyonlarını kaybedeceklerdir.

AI tarafından oluşturulan incelemelerin neden zararlı olabileceğini anlamak biraz daha incelikli bir konudur. ICLR ile aynı fikirdeyiz: AI, özellikle İngilizce, yorumcunun ana dili değilse, yorumcuların fikirlerini daha iyi ifade etmelerine yardımcı olmak için olumlu bir destek aracı olarak kullanılabilir. Ayrıca, AI genellikle gerçekten yararlı geri bildirimler sağlayabilir ve yazarların, LLM'lerle akran değerlendirme sürecini canlandırarak, LLM'lerin araştırmayı eleştirmelerini ve eksikliklerini ortaya çıkarmalarını ve yazarın başlangıçta fark etmemiş olabileceği hataları ve yanlışlıkları yakalamalarını sağlamak genellikle verimli olabilir.

Ancak soru hala geçerli: AI yararlı geri bildirimler üretebiliyorsa, neden tamamen AI tarafından üretilen incelemeleri yasaklamalıyız? Chicago Üniversitesi ekonomisti Alex Imas, son tweetinde bu konunun özünü şöyle ifade ediyor: Cevap, bilimsel akran değerlendirmesinde insan yargısının yer almasını isteyip istemediğimize bağlı.

Alex Imas'ın yapay zeka tarafından oluşturulan yorumlar hakkındaki tweet'i

Mevcut AI modellerinin insan yargısını tamamen değiştirmek için yeterli olduğuna inanıyorsak, konferanslar tüm inceleme sürecini otomatikleştirmeli, makaleleri bir LLM'ye aktarmalı ve puanları otomatik olarak vermeli. Ancak insan yargısının sürecin bir parçası olarak kalması gerektiğine inanıyorsak, tamamen AI tarafından üretilen içeriklerin onaylanması gerekir. Imas iki temel sorun belirliyor: Birincisi, AI tarafından üretilen içeriğin (üretimi daha kolay olduğu için) birkaç inceleme döngüsü içinde insan yargısını hızla ortadan kaldıracağı bir dengeleme durumu; ikincisi ise, bir AI incelemesinin gerçekten iyi olup olmadığını belirlemenin, makaleyi kendiniz incelemekle aynı çabayı gerektirdiği bir doğrulama sorunu. Öyleyse, LLM'ler insanlardan daha iyi incelemeler üretebiliyorsa, neden tüm süreci otomatikleştirmeyelim?

Bence, insan yargıları tamamlayıcı nitelikte olmakla birlikte, AI değerlendirmelerine ortogonal bir değer katıyor. İnsanlar genellikle ilk bakışta fark edilmeyen, dağılım dışı geri bildirimler sunabiliyor. Uzman görüşleri, deneyim, bağlam ve zaman içinde şekillenen ve rafine edilen bir bakış açısıyla şekillendiği için LLM'lerden daha yararlıdır. LLM'ler güçlüdür, ancak değerlendirmeleri genellikle zevk ve yargıdan yoksundur ve bu nedenle "düz" hissettirir.

Belki gelecekteki konferanslarda, insan incelemelerinin sadece LLM tarafından belirtilebilecek "bariz" eleştirileri tekrarlamadığından emin olmak için, SOTA LLM incelemesini insan incelemelerinin yanına koyabilirler.

Sonuç

Akademik hakem değerlendirmesinde yapay zeka tarafından üretilen içeriğin yükselişi, bilim camiası için kritik bir zorluk teşkil etmektedir. Analizimiz, tamamen yapay zeka tarafından üretilen hakem değerlendirmelerinin ICLR değerlendirme popülasyonunun önemli bir bölümünü oluşturduğunu ve yapay zeka tarafından üretilen makale sayısının da arttığını göstermektedir. Ancak, bu yapay zeka tarafından üretilen makaleler, gerçek araştırma katkıları olmaktan çok, çoğu zaman özensiz çalışmalardır.

Bu eğilimin bilim için sorunlu ve zararlı olduğunu savunuyoruz ve konferanslar ile yayıncıları, suistimali önlemek ve bilimsel dürüstlüğü korumak için bir çözüm olarak yapay zeka tespitini benimsemeye çağırıyoruz.

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.