Yazarlar, yapay zeka araştırma makalelerini yazmak için büyük dil modellerini (LLM) kullanıyor mu? Hakemler, bu makalelere ilişkin değerlendirmelerini yazma işini üretken yapay zeka araçlarına devrediyor mu? Bunu öğrenmek amacıyla, en önemli ve prestijli yapay zeka araştırma yayın platformlarından biri olan Uluslararası Öğrenme Temsilleri Konferansı’ndan (ICLR) alınan 19.000 makaleyi ve 70.000 değerlendirmeyi analiz ettik. OpenReview ve ICLR'nin açık değerlendirme süreci sayesinde, tüm makaleler ve değerlendirmeleri çevrimiçi olarak kamuya açık hale getirildi ve bu açık değerlendirme süreci, bu analizin yapılmasını mümkün kıldı.
Tüm sonuçları iclr.pangram.com adresinde herkesin erişimine açtık.
Şey, öncelikle bize bir ödül teklif edildi!
Graham Neubig'in ICLR sunumlarını analiz edenlere ödül vaat ettiği tweet'i
Ciddiyetle söylemek gerekirse, birçok ICLR yazarı ve hakem, tamamen uydurma kaynaklara sahip bir büyük dil modeli (LLM) tarafından üretilmiş makale gibi, yapay zeka ile ilgili bariz bilimsel suistimal vakaları fark etmiş durumda; ayrıca pek çok yazar, tamamen yapay zeka tarafından üretilmiş hakem yorumları aldıklarını iddia ediyor.
Hatta bir yazar, bir hakem tarafından hakem değerlendirmesi sırasında yapay zeka tarafından üretilmiş 40 soru sorulduğunu bildirdi!
Bu sorunun genel boyutunu ölçmek istedik: Bu kötü davranış örnekleri münferit olaylar mı, yoksa daha geniş çaplı bir eğilimin göstergesi mi? İşte bu yüzden Graham’ın teklifini kabul ettik!
ICLR, makaleler ve inceleme makalelerinde büyük dil modellerinin (LLM) kullanımına ilişkin neyin izinli neyin yasak olduğu konusunda son derece net ve açıklayıcı bir politikaya sahiptir.
Kural 1. Bir LLM’nin kullanımı, “araştırmaya yapılan tüm katkılar belirtilmelidir” ve katkıda bulunanlar “çalışmaları için takdir görmeyi beklemelidir” şeklindeki Etik Kuralları ilkeleri uyarınca mutlaka açıklanmalıdır.
Politika 2. ICLR yazarları ve hakemleri, “araştırmacılar kasıtlı olarak yanlış veya yanıltıcı iddialarda bulunmamalı, verileri uydurmamalı veya tahrif etmemeli ya da sonuçları çarpıtmamalıdır” şeklindeki Etik Kuralları politikasına uygun olarak, kendi katkılarının nihai sorumluluğunu üstlenirler.
ICLR ayrıca, yazarların makalelerinde ve incelemelerinde büyük dil modellerini (LLM) kullanırken uymaları gereken kılavuzlar da yayınlamıştır. Özetlemek gerekirse:
Dolayısıyla, bu çalışmayı tek tek suçluları ifşa etmek amacıyla yürütmüyoruz; zira büyük dil modellerinin hem makale sunumunda hem de hakem değerlendirme sürecinde kullanımı aslında izin verilmektedir. Bunun yerine, makalelerde ve hakem değerlendirmelerinde yapay zekanın ne kadar yaygın olarak kullanıldığına dikkat çekmek ve tamamen yapay zeka tarafından üretilen değerlendirmelerin (ki bunlar gerçekten de Etik Kuralları ihlali teşkil etme olasılığı yüksektir ) pek çok kişinin farkında olduğundan çok daha yaygın bir sorun olduğunu vurgulamak istiyoruz.
Öncelikle OpenReview API'sini kullanarak ICLR'ye gönderilen tüm PDF dosyalarını indirdik. Ayrıca tüm notları da indirdik; bu sayede değerlendirme metinlerini ayıklayabildik.
PyMuPDF gibi standart bir PDF ayrıştırıcısının ICLR makaleleri için yetersiz olduğunu gördük; zira satır numaraları, resimler ve tablolar genellikle doğru şekilde işlenmiyordu. Bu nedenle, makalenin ana metnini çıkarmak için Mistral OCR'yi kullanarak makalenin ana metnini PDF'den Markdown olarak ayrıştırdık. AI de Markdown çıktısını tercih etme eğiliminde olduğundan, yalnızca biçimlendirmeden kaynaklanan yanlış pozitifleri azaltmak için Markdown'u düz metin olarak yeniden biçimlendirdik.
Ardından, bu PDF’lerden elde edilen ayrıştırılmış düz metin üzerinde Pangram’ın genişletilmiş metin sınıflandırıcısını çalıştırdık. Sınıflandırıcının genişletilmiş versiyonu, metni önce segmentlere ayırır ve her bir segment üzerinde yapay zeka algılama modelini ayrı ayrı çalıştırır. Sonuç, kaç segmentin yapay zeka tarafından üretilmiş metin olarak pozitif sonuç verdiğini gösteren bir yüzde değeridir; dolayısıyla bu sonuç, bir makalenin tamamen insan tarafından yazılmış, tamamen yapay zeka tarafından üretilmiş ya da bazı segmentlerin pozitif, bazılarının ise negatif sonuç verdiği karma bir yapıya sahip olduğunu gösterebilir.
Ayrıca, yeni EditLens modelimizi kullanarak yapay zeka ile ilgili akran değerlendirmelerini de inceledik. EditLens, sadece yapay zekanın varlığını tespit etmekle kalmaz, aynı zamanda düzenleme sürecine yapay zekanın ne ölçüde dahil olduğunu da tanımlayabilir. EditLens, bir metnin aşağıdaki beş kategoriden birine girdiğini tahmin edebilir:
EditLens şu anda yalnızca özel beta sürümümüzdeki müşterilerimiz tarafından kullanılabiliyor, ancak Aralık ayı başında herkese açık hale gelecek. Önümüzdeki haftalarda bu model hakkında daha fazla bilgi vereceğiz, ancak araştırma ön baskımızda, performansını ortak yazarlı metin üretimi konusunda en son teknoloji olarak tanımlıyoruz. Dahili karşılaştırmalarda, ikili sınıflandırıcı olarak değerlendirildiğinde mevcut modelimizle benzer bir doğruluğa sahip ve tamamen insan tarafından yazılmış metinlerde 10.000'de 1 gibi olağanüstü düşük bir yanlış pozitif oranına sahip.
Yapay zeka konferans bildirileriyle ilgili önceki analizimizde, Pangram'ın 2022'den önce yayınlanan tüm ICLR ve NeurIPS bildirilerinde %0 yanlış pozitif oranına sahip olduğunu tespit ettik. Bu bildirilerin bir kısmı gerçekten de eğitim kümesinde yer alsa da, hepsi değil; bu nedenle Pangram'ın gerçek test kümesi performansının aslında %0'a çok yakın olduğuna inanıyoruz.
Peki ya hakem değerlendirmeleri? 2022 yılına ait tüm hakem değerlendirmeleri üzerinde yeni EditLens modelini çalıştırdığımız ek bir negatif kontrol deneyi gerçekleştirdik. Hafif Düzenlenmiş ile Tamamen İnsan tarafından yapılan değerlendirmeler arasında yaklaşık 1/1.000, Orta Düzenlenmiş ile Tamamen İnsan tarafından yapılan değerlendirmeler arasında 1/5.000 ve Yoğun Düzenlenmiş ile Tamamen İnsan tarafından yapılan değerlendirmeler arasında 1/10.000 hata oranı tespit ettik. Tamamen AI tarafından üretilen ile Tamamen İnsan tarafından üretilen değerlendirmeler arasında herhangi bir karışıklık bulamadık.
ICLR 2022 değerlendirmelerinde EditLens tahminlerinin dağılımı (negatif kontrol)
Deney kapsamında, tüm makaleler ve hakem değerlendirmeleri üzerinde Pangram'ı çalıştırdık. İşte başlıca bulgular:
Yorumların %21'inin, yani 15.899 yorumun tamamen yapay zeka tarafından oluşturulduğunu tespit ettik. Yorumların yarısından fazlasında, ister düzenleme, ister destek, ister tamamen yapay zeka tarafından oluşturulma şeklinde olsun, bir şekilde yapay zeka kullanıldığını gördük.
ICLR 2026 değerlendirmelerinde EditLens tahminlerinin dağılımı
Öte yandan, makale gönderimlerinin çoğu hâlâ insan eliyle yazılmış durumda (gönderimlerin %61’i büyük ölçüde insan eliyle yazılmıştı). Bununla birlikte, birkaç yüz adet tamamen yapay zeka tarafından üretilmiş makale tespit ettik; ancak bunlar istisnai durumlar gibi görünüyor. Ayrıca, gönderimlerin %9’unda yapay zeka içeriği %50’nin üzerindeydi. Bir uyarı olarak belirtmek gerekirse, tamamen yapay zeka tarafından üretilmiş bazı makaleler, analizimizi gerçekleştirme fırsatı bulamadan önce zaten ön eleme aşamasında reddedilmiş ve OpenReview’dan kaldırılmıştı.
ICLR 2026 bildiri sunumlarında yapay zeka içeriğinin dağılımı
Sonuçlarda, yapay zekanın hem makale gönderimlerinde hem de hakem değerlendirmelerinde nasıl kullanıldığına ve bu kullanımın değerlendirme sürecinin kendisi üzerinde ne gibi etkileri olduğuna ışık tutan bazı ilginç eğilimler tespit ettik.
LLM’lerin jüri olarak kullanıldıklarında genellikle insan yazımına kıyasla kendi çıktılarından yana tercih yaptıklarını gösteren önceki bir çalışmanın aksine, biz tam tersi bir sonuçla karşılaştık: Bir makalede yapay zeka tarafından üretilen metin ne kadar fazla olursa, değerlendirmeler o kadar kötü oluyor.
Makalelerdeki AI içeriklerine göre ortalama değerlendirme puanları
Bunun birçok nedeni olabilir. Bunlardan biri, bir makalede yapay zeka ne kadar çok kullanılırsa, makalenin genel olarak o kadar az iyi düşünülmüş ve uygulanmış olmasıdır. Bilimsel yazılarda yapay zeka kullanıldığında, bu teknolojinin destekleyici bir yardımcı olarak değil, daha çok iş yükünü azaltmak ve kestirme yollara başvurmak amacıyla kullanılması muhtemeldir. Ayrıca, tamamen AI tarafından üretilen makalelerin daha düşük puanlar alması, AI ile üretilen araştırmaların hala düşük kaliteli ve (henüz) bilime gerçek bir katkı sağlamadığını gösterebilir.
AI katılım düzeyine göre ortalama değerlendirme puanları
Bir inceleme ne kadar çok yapay zeka içeriyorsa, puan o kadar yüksek çıkıyor. Bu durum sorunlu: bu, incelemeyi yapan kişinin kendi görüşünü yapay zekayı bir çerçeve olarak kullanarak yeniden şekillendirmek yerine (eğer durum böyle olsaydı, yapay zeka incelemeleri ile insan incelemeleri arasında ortalama puanın aynı olmasını beklerdik), incelemeyi yapan kişinin makaleye ilişkin yargısını da aslında yapay zekaya devrettiği anlamına geliyor. LLM'nin görüşünü, incelemeyi yapan kişinin kendi gerçek görüşüymüş gibi sunmak, Etik Kuralları'nın açık bir ihlalidir. Yapay zekanın dalkavukluk eğiliminde olduğunu biliyoruz; bu da, tarafsız bir görüş vermek yerine, insanların duymak istediği ve hoşuna giden şeyleri söylediği anlamına gelir: bu, akran incelemesine uygulandığında tamamen istenmeyen bir özelliktir! Bu, yapay zeka incelemelerindeki puanlardaki olumlu önyargıyı açıklayabilir.
AI katılım düzeyine göre ortalama yorum uzunluğu
Eskiden daha uzun bir yorum, yorumun iyi düşünülmüş ve daha kaliteli olduğu anlamına gelirdi; ancak büyük dil modelleri (LLM) çağında bu durum genellikle tam tersini ifade edebiliyor. Yapay zeka tarafından üretilen yorumlar daha uzun ve içinde çok fazla "dolgu içeriği" barındırıyor. Shaib ve diğerlerinin" Metinde AI Slop'u Ölçmek" adlı araştırma makalesine göre, AI "slop"unun bir özelliği, bilgi yoğunluğunun düşük olmasıdır; bu da AI'nın gerçek içerik açısından çok az şey söylemek için çok fazla kelime kullandığı anlamına gelir.
Bunu büyük dil modelleri (LLM) tarafından yazılan incelemelerde de gözlemliyoruz: Yapay zeka çok fazla kelime kullanıyor, ancak aslında bilgi yoğunluğu yüksek geri bildirimler sunmuyor. Bunun sorunlu olduğunu düşünüyoruz çünkü yazarlar, uzun bir incelemeyi analiz etmek ve aslında pek yararlı geri bildirim içermeyen boş soruları yanıtlamak için zaman harcamak zorunda kalıyor. Ayrıca, çoğu yazarın, gönderimlerini fiilen göndermeden önce büyük bir dil modelinden inceleme isteyeceğini de belirtmek gerekir. Bu durumlarda, LLM incelemesinden gelen geri bildirim büyük ölçüde gereksiz ve yararsızdır çünkü yazar, LLM'nin yapacağı bariz eleştirileri zaten görmüştür.
Pangram'ın yanlış pozitif oranı son derece düşük olmakla birlikte sıfır değildir; bu nedenle, bir makalenin akıbetine ilişkin kesin kararlar almak (örneğin, ilk bakışta reddetme kararı) veya bir hakem hakkında yaptırım uygulamak için bu aracı önermeden önce, aracın güvenilirliğini nicel olarak değerlendirmekle yükümlüyüz. Yukarıda açıklanan negatif kontrol çalışmalarıyla alan içi yanlış pozitif oranını doğrudan ölçtük; peki ya diğer veri kümeleri, karşılaştırma setleri ve genel metinler ne durumda?
Pangram'ın yanlış pozitif oranını önceki blog yazımızda belgelemiştik.
Pangram'ın doğruluğu, UChicago Booth ve Amerikan Kanser Araştırmaları Derneği tarafından yakın zamanda yapılan çalışmalar da dahil olmak üzere, çok sayıda bağımsız araştırma tarafından da teyit edilmiştir.
Bu rakamları bir bağlama oturtmak gerekirse, Pangram’ın yanlış pozitif oranı, DNA testi veya uyuşturucu testinin yanlış pozitif oranıyla karşılaştırılabilir: Tamamen yapay zeka tarafından üretilmiş bir metnin, tamamen insan tarafından yazılmış bir metinle karıştırıldığı gerçek bir yanlış pozitif durum, sıfır değildir ancak son derece nadirdir.
Eğer bir yazar olarak yapay zeka tarafından yazılmış bir yorum aldığınızdan şüpheleniyorsanız, dikkat etmeniz gereken birkaç belirgin işaret vardır. Pangram, yapay zeka tarafından üretilen metinleri tespit edebiliyor olsa da, yapay zeka yorumlarının belirtilerini gözle de fark edebilirsiniz.
Yapay zeka tarafından yazılmış metinlerin kalıplarını gözle tespit etmeye yönelik genel bir kılavuz hazırladık; ancak özellikle yapay zeka ile yapılan akran değerlendirmelerinde bazı ek işaretler ve belirteçlerin de mevcut olduğunu fark ettik.
AI akran değerlendirmelerinde fark ettiğimiz bazı "ipuçları":
Güçlü Yönler: Net problem tanımlaması: Makale, gerçek bir sorunu ele almaktadır: VLM tabanlı OCR sistemleri, bozuk belgelerde belirsizlik sinyali vermeden hatalı çıktılar üretmektedir; bu durum, açıkça bozuk çıktılar üreten klasik OCR sistemlerinden daha kötüdür. Çalışmanın motivasyonu net bir şekilde ifade edilmiştir. Sistematik metodoloji: İki aşamalı eğitim yaklaşımı (sözde etiketli soğuk başlangıç + GRPO) makul ve iyi açıklanmıştır. Ödül hacklemeye karşı koruma önlemleri içeren çok amaçlı ödül tasarımı (özellikle uzunluk uyuşmazlığı sönümleme faktörü η), özenli bir mühendislik çalışmasını göstermektedir.
Sorular: 1. Gerçek bozulmalara genelleştirme: Yazarlar, yaklaşımın belirli sentetik bozulma iş akışının ötesine genelleştirilebildiğini göstermek için gerçek dünyadaki bozulmuş belgeler (ör. tarihi belge veri kümeleri) üzerinde bir değerlendirme yapabilir mi? 2. MinerU sistemleriyle karşılaştırma: MinerU ve MinerU2.5 [2,3], belge ayrıştırma alanındaki son gelişmeleri temsil etmektedir. Önerilen yöntem, Blur-OCR üzerinde bu sistemlerle karşılaştırıldığında nasıl bir performans sergiliyor? Bu sistemler belirsizlik tahminleri üretemiyorsa, önerilen etiketleme yaklaşımıyla birleştirilebilirler mi?
Gerçek bir analizden ziyade yüzeysel ayrıntılara takılma: Yapay zeka tarafından üretilen incelemeler, makalenin bilimsel bütünlüğüne ilişkin gerçek endişelerden ziyade yüzeysel konulara odaklanma eğilimindedir. Tipik yapay zeka eleştirileri arasında, sunulan ablasyonlara çok benzer şekilde daha fazla ablasyon yapılması gerektiği, test kümesinin boyutunun veya kontrol grubu sayısının artırılması talebi ya da daha fazla açıklama veya örnek istenmesi sayılabilir.
Çok az şey ifade eden uzun cümleler: Yapay zeka tarafından yazılan incelemeler genellikle bilgi yoğunluğu açısından zayıftır; daha kısa ve öz bir şekilde ifade edilebilecek noktaları anlatmak için gereksiz ayrıntılara yer verilir. Bu ayrıntı bolluğu, gerçek eleştirileri ortaya çıkarmak için uzun incelemeleri tek tek incelemek zorunda kalan yazarlar için fazladan iş yükü yaratır.
Bu yılın başlarında, Kore’deki UNIST’ten araştırmacılar, hakemlik sürecinin kalitesindeki düşüşün bazı nedenlerini özetledikleri bir görüş belgesi yayınladılar. Yapay zeka alanı büyümeye devam ettikçe, hakemlik sistemi üzerindeki kaynak yükü nihayetinde çatlaklar vermeye başlıyor. Makale sayısındaki patlama karşısında, nitelikli hakemlerin sayısı açıkça yetersiz kalıyor.
Kalitesiz yapay zeka tarafından üretilen makalelerin en büyük sorunu, sınırlı olan zaman ve kaynakları boşa harcamalarıdır. Analizlerimize göre, yapay zeka tarafından üretilen makaleler insan tarafından yazılan makaleler kadar iyi değildir; daha da sorunlu olan ise, bu makalelerin dürüst olmayan hakemler ve "spray and pray" (şans eseri birinin kabul edileceği umuduyla bir konferansa çok sayıda makale gönderen) makale fabrikaları tarafından ucuza üretilebilmesidir. AI tarafından üretilen makalelerin hakemlik sistemini istila etmesine izin verilirse, hakemlik kalitesi düşmeye devam edecek ve hakemler, gerçek araştırmalar yerine "kalitesiz" makaleleri okumak zorunda kalacakları için motivasyonlarını yitireceklerdir.
AI tarafından üretilen yorumların neden zararlı olabileceğini anlamak biraz daha karmaşıktır. ICLR ile aynı fikirdeyiz: AI, özellikle İngilizce'nin hakemlerin ana dili olmadığı durumlarda, hakemlerin fikirlerini daha iyi ifade etmelerine yardımcı olmak için destekleyici bir araç olarak olumlu bir şekilde kullanılabilir. Ayrıca, AI genellikle gerçekten yararlı geri bildirimler sağlayabilir ve yazarların LLM'lerle akran değerlendirme sürecini canlandırmaları, LLM'lerin araştırmayı eleştirip zayıf noktalarını ortaya çıkarmasını sağlamaları ve yazarın başlangıçta fark edemediği hataları ve yanlışlıkları yakalamaları genellikle verimli sonuçlar doğurur.
Ancak şu soru hâlâ cevap bekliyor: Yapay zeka yararlı geri bildirimler üretebiliyorsa, neden tamamen yapay zeka tarafından üretilen değerlendirmeleri yasaklayalım ki? Chicago Üniversitesi ekonomisti Alex Imas, yakın zamanda attığı bir tweet’te meselenin özünü şöyle ifade ediyor: Cevap, bilimsel hakemlik sürecine insan yargısının dahil edilmesini isteyip istemediğimize bağlı.
Alex Imas'ın yapay zeka tarafından oluşturulan yorumlar hakkındaki tweet'i
Eğer mevcut yapay zeka modellerinin insan yargısını tamamen ikame etmeye yeterli olduğuna inanıyorsak, konferanslar tüm değerlendirme sürecini otomatikleştirmeli; makaleleri bir büyük dil modelinden (LLM) geçirip puanları otomatik olarak atamalıdır. Ancak insan yargısının sürecin bir parçası olarak kalması gerektiğine inanıyorsak, tamamen yapay zeka tarafından üretilen içeriklerin kullanımına izin verilmemelidir. Imas iki temel sorun belirlemektedir: birincisi, AI tarafından üretilen içeriğin (üretimi daha kolay olduğu için) birkaç inceleme döngüsü içinde insan yargısını hızla ortadan kaldıracağı bir havuz dengesi; ikincisi ise, bir AI incelemesinin gerçekten iyi olup olmadığını belirlemenin, makaleyi kendiniz incelemekle aynı çabayı gerektirdiği bir doğrulama sorunu — öyleyse, LLM'ler insanlardan daha iyi incelemeler üretebiliyorsa, neden tüm süreci otomatikleştirmeyelim?
Bana göre, insan değerlendirmeleri yapay zeka değerlendirmelerini tamamlayıcı nitelikte olmakla birlikte, bunlara farklı bir bakış açısı da katmaktadır. İnsanlar, çoğu zaman ilk bakışta fark edilemeyen, verim dağılımının dışına düşen geri bildirimler sunabilir. Uzman görüşleri, büyük dil modellerinden (LLM) daha yararlıdır; zira bu görüşler deneyim, bağlam ve zamanla şekillendirilip rafine edilmiş bir bakış açısı tarafından şekillenir. Büyük dil modelleri güçlüdür, ancak değerlendirmelerinde genellikle zevk ve muhakeme eksikliği hissedilir ve bu nedenle "sığ" bir izlenim bırakırlar.
Belki de gelecekteki konferanslarda, insan değerlendirmelerinin sadece bir LLM tarafından da ortaya konabilecek "bariz" eleştirileri tekrarlamaktan ibaret kalmaması için, SOTA LLM değerlendirmeleri insan değerlendirmelerinin yanına konulabilir.
Akademik hakemlik sürecinde yapay zeka tarafından üretilen içeriklerin artışı, bilim camiası için ciddi bir sorun teşkil etmektedir. Analizimiz, tamamen yapay zeka tarafından üretilen hakem değerlendirmelerinin ICLR’deki toplam değerlendirme havuzunun önemli bir bölümünü oluşturduğunu ve yapay zeka tarafından üretilen makale sayısının da giderek arttığını göstermektedir. Bununla birlikte, bu yapay zeka tarafından üretilen makaleler, gerçek araştırma katkıları olmaktan çok, genellikle kalitesiz içerikler niteliğindedir.
Bu eğilimin bilim açısından sorunlu ve zararlı olduğunu savunuyoruz; konferans organizatörlerini ve yayıncıları, suistimali önlemek ve bilimsel dürüstlüğü korumak için bir çözüm olarak yapay zeka tabanlı intihal tespit sistemlerini benimsemeye çağırıyoruz.

Bradley, bir yapay zeka araştırmacısı ve endüstride derin öğrenme ürünleri geliştirme konusunda uzman bir isimdir. Son olarak, üretken yapay zeka ile ilaç keşfi yapan Absci şirketinde derin öğrenme araştırma grubuna liderlik etmiş ve daha önce Tesla Autopilot’un temel bilgisayar görme ekibinin bir üyesi olarak görev yapmıştır.
Bradley, yüksek lisans öğrencisiyken Stanford Vision Lab bünyesinde derin öğrenme alanında birçok makale kaleme almıştır. Stanford Üniversitesi’nden fizik lisans ve yapay zeka yüksek lisans derecelerine sahiptir. Yapay zekanın yanı sıra eğitim ve felsefe konularına da ilgi duymakta olup, aynı zamanda tutkulu bir golfçüdür.






