Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

AI Dedektörlerinde Yanlış Pozitifler Hakkında Her Şey

Bradley Emi
27 Mart 2025

Pangram'daki çalışmalarımızın en önemli yönlerinden biri, yanlış pozitif oranımızı en aza indirmektir. Bu, insan tarafından yazılmış metinlerin yapay zeka tarafından üretilmiş olarak işaretlenme olasılığını mümkün olduğunca azaltmak anlamına gelir. Bugün, Pangram'ın birçok farklı yazı türünde yanlış pozitif oranlarını, yanlış pozitif oranını mümkün olduğunca düşük tutmak için modellerimizi nasıl ölçüp değerlendirdiğimizi ve son olarak, sektördeki en düşük yanlış pozitif oranına sahip AI algılama yazılımını geliştirmek için kullandığımız bazı teknikleri açıklayacağız.

Yanlış pozitif nedir?

AI algılama bağlamında, yanlış pozitif, bir algılayıcının insan tarafından üretilen bir örneği yanlışlıkla AI tarafından üretilmiş olarak tahmin etmesidir. Buna karşılık, yanlış negatif, AI tarafından üretilen bir örneğin yanlışlıkla insan tarafından üretilmiş olarak tahmin edilmesidir.

AI tespitinde yanlış pozitifler ve yanlış negatifler

Yukarıdaki şema iki tür hatayı göstermektedir. Kırmızı negatif sınıfı, yeşil ise pozitif sınıfı temsil ediyorsa, kırmızı X'in yeşil olarak tahmin edilmesi yanlış pozitif, yeşil O'nun kırmızı olarak tahmin edilmesi ise yanlış negatif olacaktır.

İstatistikte, Tip I hata ve Tip II hata terimleri kullanılır: bu terimler tam olarak aynı anlama gelir. Tip I hata, yanlış pozitif; Tip II hata ise yanlış negatiftir. İstatistikçiler ve özellikle tıp bilimlerinde çalışanlar, bu iki hata oranını ayırt etmek için duyarlılık ve özgüllük terimlerini de kullanır. Makine öğrenimi bilimcileri ise kesinlik ve geri çağırma terimlerini kullanır. Bu terimler arasında bazı küçük teknik farklılıklar olsa da, eğitim amaçlı olarak, bu yazıda sadece "yanlış pozitifler" ve "yanlış negatifler" terimlerini kullanacağız, çünkü bu iki hata türü için en açıklayıcı terimlerin bunlar olduğunu düşünüyorum.

AI tespitinde, yanlış pozitif sonuç yanlış negatif sonuçtan çok daha kötüdür. AI yardımı olmadan ödevlerini kendileri yazan öğrencileri AI intihali ile tekrar tekrar suçlamak, öğrenci ile öğretmen arasındaki güveni büyük ölçüde zedeler ve öğrenci için büyük bir endişe ve strese neden olabilir. Öte yandan, yanlış negatif sonuç, ara sıra bir kopya çeken öğrencinin gözden kaçabileceği anlamına gelebilir, ki bu da o kadar kötü bir sonuç değildir.

Diğer tespit sorunlarında, yanlış negatif sonuçların yanlış pozitif sonuçlardan çok daha fazla zarara yol açabileceğini belirtmek gerekir: örneğin, bir kanser tarama testinde, testin hastanın kanser olduğunu yanlışlıkla söylemesi, testin hastanın gerçek kanserini tamamen gözden kaçırmasından çok daha iyidir. Test, hastanın kanser olduğunu yanlış bir şekilde belirtiyorsa, hastanın takip ve ek işlemler ve testler için tekrar hastaneye gitmesi rahatsızlık verici olabilir, ancak bu, hastanın hayatını tehdit eden kanser teşhisini gözden kaçırmaktan çok daha iyidir.

AI algılamaya geri dönersek, yanlış pozitif sonuçlar yanlış negatif sonuçlardan daha fazla zarar verir, ancak her ikisi de önemlidir: AI tarafından üretilen metinleri sürekli olarak gözden kaçırmak ve bunları yanlış bir şekilde insan tarafından üretilmiş olarak tahmin etmek, aracın değerini de zedeler. Bu nedenle, Pangram'da genel yaklaşımımız, yanlış negatif ve yanlış pozitif sonuçları mümkün olduğunca en aza indirmek, ancak yanlış pozitif sonuçları daha yüksek öncelikli olarak ele almaktır.

Pangram'ın yanlış pozitif oranı nedir?

Cevap: Duruma göre değişir!

Genel olarak, yanlış pozitif oranımızı yaklaşık 10.000'de 1 olarak ölçüyoruz: yazının türüne ve diğer değişkenlere bağlı olarak bazen biraz daha yüksek, bazen biraz daha düşük olabilir.

Pangram'ın yanlış pozitif oranını çok çeşitli yazılar üzerinde ölçüyoruz: bunlara alan adı diyoruz. Aşağıda, her bir alanda dahili olarak ölçtüğümüz en güncel yanlış pozitif oranları bulabilirsiniz. Bu oranlar eksiksiz değildir:

Etki alanıYanlış Pozitif Oranı
Akademik Makaleler0.004%
Ürün Yorumları (İngilizce)0.004%
Ürün Yorumları (İspanyolca)0.008%
Ürün Yorumları (Japonca)0.015%
Bilimsel Özetler0.001%
Kod Belgeleri0.0%
Kongre Tutanakları0.0%
Tarifler0.23%
Tıbbi Makaleler0.000%
ABD İşletme İncelemeleri0.0004%
Hollywood Film Senaryoları0.0%
Vikipedi (İngilizce)0.016%
Vikipedi (İspanyolca)0.07%
Vikipedi (Japonca)0.02%
Vikipedi (Arapça)0.08%
Haber Makaleleri0.001%
Kitaplar0.003%
Şiirler0.05%
Siyasi Konuşmalar0.0%
Sosyal Medya Soru-Cevap0.01%
Yaratıcı Yazma, Kısa Öyküler0.009%
Nasıl Yapılır Makaleleri0.07%

Pangram'ın yanlış pozitiflere yatkınlığını belirleyen faktörler nelerdir?

Genel olarak, Pangram aşağıdaki koşullar sağlandığında en iyi performansı gösterir:

  • Metin yeterince uzun (iki yüz kelimeden fazla).
  • Metin tam cümlelerle yazılmıştır.
  • Etki alanı, yaygın çevrimiçi eğitim setlerinde iyi temsil edilmektedir.
  • Metin daha yaratıcı içerik barındırıyor ve daha az kalıplaşmış.

Bu faktörlerin Pangram'ın denemeler, yaratıcı yazılar ve incelemelerde en iyi performansı göstermesinin nedeni olduğuna inanıyoruz. Haber makaleleri, bilimsel makaleler ve Wikipedia girişleri daha formel ve teknik olsa da, bu alanlarda veri bol miktarda mevcuttur ve bu nedenle Pangram, yazılardaki en ince kalıpları bile çok iyi tanıyabilir hale gelmiştir. Son olarak, tarifler ve şiir gibi alanlar en zayıf alanlardır, çünkü metinler genellikle kısadır, tam cümlelerle yazılmamıştır (LLM'nin metne kendine özgü stilini katma şansı daha azdır) ve genellikle diğer alanlara göre çevrimiçi ortamda daha nadirdir.

Pratik olarak bu ne anlama geliyor? Pangram tüm alanlarda nispeten güvenilir olsa da, metin uzun, tam cümlelerden oluşuyorsa ve yazardan daha özgün girdi gerektiriyorsa Pangram'ın doğruluğuna daha fazla güvenebilirsiniz. Bu nedenle, kısa madde işaretli listeler ve ana hatlar, matematik, çok kısa (örneğin tek cümlelik) yanıtlar ve uzun veri listeleri, elektronik tablolar, şablon tabanlı yazılar ve kullanım kılavuzları gibi son derece formülsel metinleri taramamanızı öneririz.

Pangram'ın yanlış pozitif oranı rakiplerine kıyasla nasıldır?

Rakiplerimiz üzerinde aynı kapsamlı karşılaştırma testini yapamayız, çünkü bunun maliyeti çok yüksek olacaktır. Ancak rakiplerimizin yanlış pozitif oranlarının ne olduğunu inceleyebiliriz.

Turnitin

Turnitin'in web sitesinde bildirilen yanlış pozitif oranı

Turnitin'in son teknik raporunda, akademik yazılarda yanlış pozitif oranının %0,51 olduğu, yani belge düzeyinde yaklaşık 200'de 1 olduğu belirtilmektedir. Bu, her 200 öğrenci ödevinden 1'inin yanlışlıkla AI olarak işaretleneceği anlamına gelir.

Akademik makalelerden oluşan benzer bir veri setinde ölçülen yanlış pozitif oranımız %0,004, yani 25.000'de 1'dir.

Bu önemli bir fark. Büyük bir araştırma üniversitesinde, yılda 100.000 makale sunulabilir. Bu, Turnitin için 500 yanlış bayrak ile Pangram için sadece 4 yanlış bayrak arasındaki farktır.

GPTZero

GPTZero'nun web sitesinde bildirilen yanlış pozitif oranı

GPTZero, %1'lik bir yanlış pozitif oranına sahip olduğunu iddia ediyor. Bu oran, Turnitin'den 2 kat, Pangram'dan ise 250 kat daha kötü.

Adil bir karşılaştırma için, genel VIP setimizden daha küçük bir belge seti üzerinde GPTZero ile Pangram'ı içsel olarak karşılaştırdık. Yanlış pozitiflerin bildirilenden daha kötü olduğunu, %2,01 olduğunu tespit ettik.

Copyleaks

Copyleaks'in web sitesinde bildirilen yanlış pozitif oranı

Copyleaks, %0,2'lik bir yanlış pozitif oranı, yani 500'de 1 oranını iddia ediyor. Bu oran doğruysa, Pangram'dan 50 kat daha kötü bir sonuçtur.

Ayrıca, bu şekilde tek başına verilen bir rakam tüm hikayeyi anlatmaz. Verilerin nereden geldiğini ve değerlendirmede ne tür potansiyel önyargılar olabileceğini bilmiyoruz. Bu nedenle kapsamlı bir karşılaştırma yapıyoruz ve modelimizi değerlendirme sürecimizi ayrıntılı olarak anlatan bu makaleyi yayınlıyoruz.

RAID karşılaştırma testi

Geçen yıl Liam Dugan ve ortak yazarları tarafından yayınlanan RAID çalışmasına, yayınladığımız araştırma özeti makalesindeki 2 numaralı çalışmaya göz atarak, aşağıdaki grafiğe dikkat çekmek istiyoruz.

RAID çalışmasında dedektörler arasında yanlış pozitif oranları

Çoğu dedektör, "eşik" değeri verir. Bu değer, modelin metnin AI olduğunu söylediği çizginin üzerindeki yüzde güvenilirlik ve modelin metnin insan tarafından yazıldığını söylediği çizginin altındaki yüzde güvenilirliktir. Eşik değerini değiştirerek, yanlış pozitif ve yanlış negatif sonuçlar dengelenebilir.

Bu grafikte, x ekseninde eşik değerinin değiştirilmesinden kaynaklanan yanlış pozitif oranı, y ekseninde ise geri çağırma oranı gösterilmektedir: bu, söz konusu eşik değerinde değerlendirildiğinde AI olarak sınıflandırılabilen AI belgelerinin oranıdır.

Uzun lafın kısası, rakiplerimizin dedektörleri, yanlış pozitif oranı yüzde 1'in altında olacak şekilde zorlandıklarında çalışmazlar; yani, eşik yüzde 1 FPR üretecek kadar düşük olduğunda hiçbir AI'yı yakalayamazlar.

Pangram'ın yanlış pozitif oranını nasıl değerlendiririz?

Pangram, herhangi bir yeni modelin kontrol paneline ve API'ye yerleştirilmesine izin verilmeden önce son derece titiz bir onay ve test sürecinden geçer.

Kalite güvencesi sürecimizde, yanlış pozitifler için üç tür test uyguluyoruz ve her biri nicel ve nitel değerlendirme arasında bir denge kuruyor. Değerlendirmelerimiz şunları içeriyor:

  1. Büyük ölçekli holdout setleri. Set başına yaklaşık 10.000 ila 10.000.000 örnek. Bunlar, ChatGPT öncesi (2022) dönemine ait büyük ölçekli, açık erişimli İnternet veritabanlarıdır. Bu veritabanlarından, eğitim için kullanılmayan ve yalnızca değerlendirme amacıyla ayrılmış bir holdout seti seçtik.

  2. Orta ölçekli VIP setleri. Set başına yaklaşık 1.000 örnek. Bunlar, mühendisler veya etiketleyiciler tarafından saygın kaynaklardan elle toplanan, gözle incelenen ve insan tarafından yazıldığı kişisel olarak doğrulanan veri kümeleridir. Eğitimli uzmanlar, AI tarafından üretilen içeriği gözle tespit etmede iyidirler, ancak ara sıra hatalar da yaparlar, bu nedenle verileri düzenli olarak denetler ve doğruluğu için temizleriz.

  3. Zorlu setler. Set başına yaklaşık 10-100 örnek. Bunlar daha önce bildirilmiş yanlış pozitifler, arkadaşlarımızın bize gönderdiği zorlu vakalar ve genel olarak, performansımızı görmek istediğimiz ilginç örneklerdir. Ayrıca, tarifler, şiirler, film senaryoları ve büyük dil modeli eğitim setlerinde yeterince temsil edilmeyen diğer yazılı formlar gibi sıra dışı metin örnekleri de topluyoruz ve bunları da zorlu görev setleri olarak değerlendiriyor, ayrıca modelimizin "dağılım dışı" durumlarda ne kadar iyi performans gösterdiğine dair genel bir kriter olarak görüyoruz.

Bu üç tür kalite güvencesine ek olarak, birim testlerimiz de bulunmaktadır. Bu birim testleri, genel olarak, modelimizi "utanç verici hatalar" olarak adlandırabileceğimiz durumlar için test etmektedir. Mevcut birim test paketimiz, Bağımsızlık Bildirgesi, edebiyattan ünlü alıntılar, kendi web sitemizdeki metinler ve blog yazılarımız gibi belgeler için insanı tahmin etmemizi gerektirmektedir. Bu birim testlerinden herhangi biri başarısız olursa, yeni modelin dağıtımını engelliyor ve yeniden baştan başlıyoruz. Değerlendirme konusunda rehber felsefelerimizden biri, yeni bir model piyasaya sürüldüğünde bu "utanç verici hataların" asla tekrarlanmaması için onları takip ve izleme konusunda aşırı dikkatli olmaktır.

Pangram'da kullanılan üç tür değerlendirme setini gösteren şema: büyük ölçekli holdout setleri (10 milyonun üzerinde örnek), orta ölçekli VIP setleri (1000'den fazla örnek) ve challenge setleri (10-100 örnek)

Matematik ve bilime yatkın kişiler şu soruyu sorabilir: Neden niteliksel değerlendirmeye ihtiyaç duyulur? Daha fazla örnek her zaman daha iyi değil midir?

Buna cevabım şu olur: Daha fazla örnek her zaman daha iyi değildir. Bilge bir peygamberin dediği gibi, yalanlar, lanetli yalanlar ve istatistikler vardır. Ama cidden, büyük ölçekli bir veri kümesi oluşturduğunuzda, her zaman bir tür önyargı katmış olursunuz. Ve her örneği inceleyemeyeceğiniz kadar büyük bir veri setiniz olduğunda, modelinizin veri setindeki bir önyargıya aşırı uyum sağlayıp, testte iyi sonuçlar verirken gerçek dünyada kötü sonuçlar verip vermeyeceğini bilemezsiniz. (Bu arada, bu yüzden "%99 doğruluk" bildiren ancak bunları gerçekten test ettiğinizde bu doğruluğa yaklaşamayan birçok çevrimiçi AI dedektörü olduğunu düşünüyoruz).

Bu çok çeşitli test takımlarının önemini gösteren komik bir örnek, Pangram'ın ilk günlerinde, Wikipedia'yı eğitim setine ilk kez dahil ettiğimizde yaşandı. İlk başarısız denemelerimizden biri, holdout setinde harika sonuçlar verdi, ancak elle toplanan Wikipedia makalelerinden oluşan VIP setinde çok zayıf sonuçlar verdi. Sonunda, kullandığımız Huggingface veri setinde, insan tarafında, Uluslararası Fonetik Alfabe ile ifade edilen isim telaffuzlarının, modelin aşırı uyum sağladığı gerçekten garip bir şekilde yeniden biçimlendirildiğini keşfettik: model sadece ismin biçimlendirmesine bakıyor ve ardından biçimlendirmeye dayanarak belgenin AI mı yoksa insan mı olduğu sonucuna varıyordu. Holdout setinde harika, ancak modelin bu özel ipucuna sahip olmadığı gerçek dünyada berbat! Pangram'ın gerçek dünyada göreceği metin türünü doğru bir şekilde yansıtan bir test setine sahip olmanın önemi budur.

Pangram'da müşterilere bir model göndermeden önce, hem nicel hem de nitel değerlendirmeyi içeren sıkı bir onay prosedüründen geçeriz. Bu prosedürde modeli stres testine tabi tutar ve mevcut modele göre performansını inceleriz.

  1. Kantitatif değerlendirme: tüm holdout'larda, VIP setlerinde ve zorlu vakalarda yanlış pozitif oran metriklerinin regresyon analizine tabi tutulmaması gerektiği anlamına gelir.

  2. Niteliksel değerlendirme: çoğu durumda, bazı örnekler iyileştirilecek, bazı örnekler ise gerileyecektir. Mümkün olduğunda, gerileyen belirli örnekleri gözle inceler ve başarısızlıkların açıklanabilir olduğundan emin oluruz. Bu genellikle incelikli bir işlemdir ve test ettiğimiz belirli hipotezlere özeldir, ancak genel olarak, başarısızlık vakalarının, dağıtımdan sonra gerçek dünyada başarısızlığa genelleştirilebilecek belirli bir model sergilemediğinden emin olmak isteriz.

  3. Vibe check / red teaming: Son olarak, nicel ve nitel değerlendirmeler tamamlandıktan sonra, modeli ekibe gönderip bir süre denemelerini isteyerek modelin "vibe check"ini yapıyoruz. Bazı güncellemeler için, modeli geniş çapta kamuya sunmadan önce iç testçiler veya beta müşteriler tarafından da test ettirebiliyoruz (genellikle modeli bozan vakaları bulmaya teşvik ediyoruz!).

  4. Geriye dönük A/B testi: eski tahminlerimiz üzerinde çevrimdışı çıkarımlar yapıyoruz ve eski model ile yeni model arasındaki farkları inceliyoruz. Daha önce çıkarımda bulunduğumuz veriler için her zaman temel gerçeğe sahip değiliz, ancak yine de gerçek hayattaki başarısızlık örneklerini gösterebilecek tutarlı kalıplar arıyoruz.

Özetle, modelimizin performansını metrikler ve istatistiklerle ölçerken son derece titiz ve bilimsel davranıyoruz, ancak tüm hikayeyi anlatmak için sadece rakamlara güvenmiyoruz. Modeli incelemek ve metriklerimizin gözden kaçırmış olabileceği hata kalıplarını bulmak için gözlerimize, sezgilerimize ve kalıp tanıma yeteneğimize de güveniyoruz. Ayrıca, ekibimizin gözden kaçırmış olabileceği boşlukları bulmak için test ekibimize, kırmızı takım ekibimize ve beta müşterilerimize de güveniyoruz.

Bu kadar düşük bir yanlış pozitif oranı elde etmek için kullandığımız teknikler nelerdir?

Düşük bir yanlış pozitif oranı sağlamak, araştırma misyonumuzun temelini oluşturmaktadır. İşte, sınıfının en iyisi hata oranını elde etmek için şimdiye kadar kullandığımız bazı teknikler.

Kapsamlı eğitim verisi kapsamı

Rakip AI dedektörleri "akademi/okullar/sınıflar/eğitimciler için" geliştirilmiş olabilir, ancak bunun gerçekte anlamı, eğitim setlerinin yalnızca akademik yazılar içermesidir.

Öte yandan, Pangram'ı Bitter Lesson'dan yararlanmak için geliştirdik: çok çeşitli kaynaklardan elde edilen büyük hacimli verilerle eğitilen genel öğrenme algoritmaları, alanına özgü verilerle eğitilen özel modellerden daha etkilidir.

Bu, AI dedektörümüzü çok çeşitli yazılar üzerinde eğittiğimiz anlamına gelir: yaratıcı, teknik, bilimsel, ansiklopedik, incelemeler, web siteleri, blog yazıları... liste uzayıp gider. Bunun nedeni, çok yönlü bir liberal sanat eğitimi gibi, birçok disiplin ve yazım stiline maruz kalmak, modelin yeni vakalarla karşılaştığında daha iyi anlamasına ve genelleştirmesine yardımcı olur. AI eğitimindeki genel eğilime uygun olarak, ChatGPT ve diğer büyük dil modelleri belirli kullanım durumları için özel verilerle eğitilmez, genel zeka kazanabilmeleri için genel büyük ölçekli metin verileriyle eğitilir: LLM'nin üretebileceği tüm farklı genel metin türlerine karşı dayanıklı AI dedektörlerini eğitmek için de aynı stratejiyi benimsemekteyiz.

Sert negatif madencilik / Aktif öğrenme

Hard negative mining adlı bir teknikten yararlanan aktif öğrenme algoritmamız hakkında kapsamlı bir şekilde yazdık ve yanlış pozitif oranımızı sıfıra yakın bir seviyeye indirebilmemizin ana nedeninin bu olduğunu düşünüyoruz.

Esasen, bunun işe yaramasının nedeni, gerçek hayattaki örneklerin çoğunun "kolay örnekler" olmasıdır - model, insan ve yapay zekanın temel kalıplarını öğrendikten sonra, veri setinin büyük çoğunluğu için hangisinin hangisi olduğunu ayırt etmek çok kolaydır. Ancak, bu size yalnızca yaklaşık %99 doğruluk sağlar. Doğruluğun son birkaç yüzde 9'unu elde etmek için, modeli eğitmek için en zor vakaları bulmalıyız: Bu vakaları, bir insanın AI dil modeline çok benzer bir şekilde yazmaya karar verdiği, ancak aslında tesadüfen öyle yazdığı vakalar olarak düşünebiliriz. Bu zor olumsuz örnekleri bulmak için, LLM'leri eğitmek için kullanılanlar gibi internet ölçeğinde veri kümeleri üzerinde büyük ölçekli arama yaparız ve ardından benzer sesli AI örnekleri oluşturmak için sentetik yansıtma gerçekleştiririz. Daha fazla ayrıntı, nasıl çalışır sayfasında bulunabilir.

Kayıp Ağırlıklandırma ve Aşırı Örnekleme

Optimizasyon hedefimizi, modelin eğitim prosedürü sırasında yanlış negatiflerden ziyade yanlış pozitifleri önceliklendirecek şekilde formüle ediyoruz. Model bir insan belgesini yanlış algıladığında, bir AI belgesini yanlış algılamasından çok daha ağır bir faktörle "cezalandırılır". Bu, modeli muhafazakar olmaya zorlar ve yalnızca kesinlikle emin olduğu durumlarda bir belgenin AI olduğunu tahmin etmesini sağlar.

Kalibrasyon

Bu, RAID'de açıklanan eşik seçimi ile ilgilidir. Değerlendirme setlerimizdeki milyonlarca belgeyi değerlendirerek, yanlış pozitif ve yanlış negatif oranları uygun şekilde dengelemek için eşiğimizi seçiyoruz. Eşik seçimimizle, yanlış pozitiflerden ödün vermeden yanlış negatif oranını makul bir seviyede tutmak için bir denge kurmaya çalışıyoruz.

Önemli noktalar

  • Pangram, rakiplerine göre önemli ölçüde daha düşük bir yanlış pozitif oranına sahiptir.
  • Pangram'ın son derece düşük yanlış pozitif oranı, ölçek, eğitim ve arama unsurlarının birleşiminden kaynaklanmaktadır.
  • Yanlış pozitif oranı AI tespitinde çok önemli olduğundan, son derece kapsamlı bir test ve kalite güvence paketi oluşturduk ve dikkatli istatistiksel değerlendirme ile daha karmaşık, niteliksel insan yargısı ve his kontrolünü birleştiren kapsamlı bir onay süreci geliştirdik.

Yazılımımızın genel doğruluğunu artırmak için araştırmacılarla çalışmayı seviyoruz ve yapay zeka algılamada açık karşılaştırma ve şeffaflığa büyük önem veriyoruz. Bizimle çalışmak, işbirliği yapmak veya Pangram'ın doğruluğu hakkında daha fazla bilgi almak için lütfen info@pangram.com adresine başvurun.

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.