giriiş
ABD ve İsviçre üniversitelerinden bir grup araştırmacı, Google ve yan kuruluşu DeepMind ile iş birliği içinde, DALL-E, Imagen veya kararlı difüzyon gibi üretken yapay zeka modellerine dayalı görüntüleme platformlarından verilerin nasıl sızabileceğini açıklayan bir araştırma makalesi yayınladı.
Kullanıcının “avokado şeklindeki sandalye” gibi belirli bir metin istemine girmesi ve birkaç saniye içinde metin tarafından oluşturulmuş bir görüntü alması gerçeğine dayanarak hepsi aynı şekilde çalışır.
Üretken Yapay Zeka Modelleri
Bu platformlarda kullanılan üretken AI modelleri, önceden tanımlanmış bir açıklama ile çok sayıda görüntü üzerinde eğitilmiştir. Fikir, sinir ağlarının büyük miktarda eğitim verisini işledikten sonra yeni ve benzersiz görüntüler oluşturabilmesidir.
Ancak yeni araştırmalar, bu görüntülerin her zaman benzersiz olmadığını gösteriyor. Bazı durumlarda sinir ağı, eğitimde kullanılan önceki görüntüyle tam olarak eşleşen bir görüntüyü yeniden üretebilir. Bu, sinir ağlarının yanlışlıkla özel bilgileri açığa çıkarabileceği anlamına gelir.
Bu çalışma, görüntüleri oluşturmak için kullanılan yapay zeka modellerinin eğitim verilerini tutmadığı ve eğitim verilerinin ifşa edilmediği takdirde gizli kalabileceği fikrine meydan okuyor.
Daha fazla veri sağlayın
Derin öğrenme sistemlerinin sonuçları uzman olmayanları hayrete düşürebilir ve büyülü olduklarını düşünebilirler, ancak aslında bunda sihir yoktur, çünkü tüm sinir ağları çalışmalarını aynı prensip üzerine inşa eder: öğrenme. büyük bir veri seti ve her resmin kesin açıklamalarını kullanarak, örneğin: bir dizi kedi ve köpek resmi.
Eğitimden sonra, sinir ağı yeni bir görüntü gösterir ve sizden bunun bir kedi mi yoksa köpek mi olduğuna karar vermenizi ister. Bu mütevazı andan itibaren, bu modellerin geliştiricileri daha karmaşık senaryolara geçerek, pek çok kedi görüntüsü üzerinde eğitilmiş bir algoritma kullanarak var olmayan bir evcil hayvanın görüntüsünü yaratıyor. Bu deneyler sadece görsellerle değil, yazı, video ve hatta sesle de yapılıyor.
Tüm sinir ağları için başlangıç noktası eğitim veri setidir. Sinir ağları hiç yoktan yeni nesneler yaratamaz. Örneğin, bir kedi görüntüsü oluşturmak için algoritmanın binlerce gerçek kedi fotoğrafını veya çizimini incelemesi gerekir.
Veri Kümelerini Gizli Tutmak İçin Büyük Çabalar
Araştırmacılar çalışmalarında, şu şekilde çalışan makine öğrenimi modellerine özel önem veriyorlar: eğitim verilerini (insanların, arabaların, evlerin vb. görüntüleri) gürültü ekleyerek bozuyorlar, ardından sinir ağı bu görüntüleri kendi konumlarına geri yüklemek için eğitiliyor. orijinal durum.
Bu yöntem, kabul edilebilir kalitede görüntülerin üretilmesine izin verir, ancak potansiyel bir dezavantaj – örneğin, rekabetçi ağlar oluşturma algoritmalarıyla karşılaştırıldığında – veri sızdırma eğiliminin daha yüksek olmasıdır. Ham veriler ondan en az üç farklı şekilde çıkarılabilir, yani:
-
Sinir ağını, binlerce görüntüden benzersiz bir şekilde oluşturulan bir şey yerine belirli bir kaynak görüntüyü çıkarmaya zorlamak için belirli sorguları kullanmak.
-
Orijinal görüntü, yalnızca bir kısmı mevcut olsa bile geri yüklenebilir.
-
Belirli bir görüntünün eğitim verilerine dahil olup olmadığını kolayca belirleyebilirsiniz.
Sinir ağları genellikle tembeldir ve yeni bir görüntü oluşturmak yerine, aynı görüntünün birden çok kopyasını içeriyorsa, eğitim setinden bir şeyler üretirler. Eğitim setinde bir görüntü yüz defadan fazla tekrarlanırsa, orijinaline yakın haliyle sızma olasılığı çok yüksektir.
Ancak araştırmacılar, orijinal sette yalnızca bir kez görünen eğitim görüntülerini çıkarmanın yollarını gösterdi. Araştırmacıların test ettiği 500 görüntüden, algoritma rastgele üç tanesini yeniden oluşturdu.
Kimden çaldın?
Ocak 2023’te üç sanatçı, telif haklarına saygı duymadan çevrimiçi görüntülerini modellerini eğitmek için kullandıkları için yapay zeka tabanlı görüntüleme platformlarına dava açtı.
Sinir ağı aslında sanatçının stilini kopyalayabilir ve böylece onu gelirinden mahrum edebilir. Makale, bazı durumlarda, algoritmaların, çeşitli nedenlerle, gerçek insanların çalışmalarıyla neredeyse aynı olan çizimler, fotoğraflar ve diğer görseller üreterek düpedüz intihal yapabildiğini belirtmektedir.
Bu nedenle araştırmacılar, orijinal eğitim grubunun özgüllüğünü artırmak için önerilerde bulundu:
-
Eğitim gruplarında tekrarları ortadan kaldırın.
-
Eğitim görüntülerini, örneğin gürültü ekleyerek veya parlaklığı değiştirerek yeniden işleyin; Bu, veri sızıntısı olasılığını azaltır.
-
Algoritmayı özel eğitim görüntüleri kullanarak test etmek ve ardından yanlışlıkla tam olarak yeniden üretmediğini kontrol etmek.
Sıradaki ne?
Üretken sanat platformları, son zamanlarda sanatçılar ve teknoloji geliştiricileri arasında bir dengenin bulunması gereken ilginç bir tartışmayı ateşledi. Bir yandan telif haklarına saygı gösterilmelidir, ancak öte yandan yapay zeka tarafından yaratılan sanat, insan sanatından çok mu farklı?
Ama güvenlik hakkında konuşalım. Makale, yalnızca bir makine öğrenimi modeli hakkında belirli bir dizi gerçek sunar. Konsepti bu tür tüm algoritmalara genişleterek ilginç bir duruma geliyoruz. Bir cep telefonu operatörünün akıllı asistanının, bir kullanıcı talebine yanıt olarak bir şirket hakkındaki gizli bilgileri ilettiği veya bir kamu sinir ağına birinin pasaportunun bir kopyasını oluşturması talimatını veren sahte bir komut dosyası yazdığı bir senaryo hayal etmek zor değil. Ancak araştırmacılar bu tür problemlerin hala teorik olduğunu vurguluyor.
Ancak, ChatGPT gibi komut dosyası oluşturma modelleri artık gerçek kötü amaçlı kod yazmak için kullanıldığından, şu anda karşı karşıya olduğumuz başka gerçek sorunlar da var.
Ve GitHub Copilot, programcıların girdi olarak büyük miktarda açık kaynak yazılımı kullanarak kod yazmasına yardımcı olur. Ve araç, kodu çok geniş bir eğitim veri setinde yer alan yazarların telif haklarına ve mahremiyetine her zaman saygı göstermez.
Sinir ağları geliştikçe, henüz kimsenin anlamadığı sonuçları olan saldırılar olacaktır.
Kaynak : https://worldweeklynews.com/new-research-reveals-how-private-data-can-leak-from-generative-ai-models-like-dall-e-and-imagen/