GAN - GAN performansı nasıl ölçülür?

Fotoğrafı çeken Dawid Małecki

GAN'larda, jeneratör ve ayırıcı için amaç işlevi genellikle rakibe göre ne kadar iyi yaptıklarını ölçer. Örneğin, jeneratörün ayırıcıyı ne kadar kandırdığını ölçüyoruz. Görüntü kalitesini veya çeşitliliğini ölçmede iyi bir ölçüm değildir. GAN serisinin bir parçası olarak, farklı GAN modellerinden gelen sonuçların nasıl karşılaştırılacağına ilişkin Başlangıç ​​Puanı ve Fréchet Başlangıç ​​Uzaklığı'nı inceliyoruz.

Başlangıç ​​Puanı (IS)

IS, GAN'ın performansını ölçmede iki kriter kullanır:

  • Oluşturulan görüntülerin kalitesi ve
  • onların çeşitliliği.

Entropi rastgele olarak görülebilir. Eğer rastgele bir değişkenin x değeri yüksek oranda tahmin edilebilir ise, düşük entropiye sahiptir. Aksine, tahmin edilemez ise, entropi yüksektir. Örneğin, aşağıdaki şekilde iki olasılık dağılımımız var p (x). p2, p1'den daha yüksek bir entropiye sahiptir, çünkü p2, daha muntazam bir dağılıma sahiptir ve bu nedenle, x'in ne olduğu hakkında daha az öngörülebilirdir.

GAN'da koşullu olasılık P (y | x) 'in yüksek oranda tahmin edilebilir olmasını (düşük entropi) istiyoruz. bir görüntü verildiğinde, nesne türünü kolayca bilmeliyiz. Bu nedenle, oluşturulan görüntüleri sınıflandırmak ve P (y | x) - tahminini yapmak için bir Inception ağı kullanıyoruz; burada y, etiket ve x, üretilen veridir. Bu, görüntülerin kalitesini yansıtır. Daha sonra görüntülerin çeşitliliğini ölçmemiz gerekiyor.

P (y) şu şekilde hesaplanan marjinal olasılıktır:

Oluşturulan görüntüler farklıysa, y için veri dağılımı aynı olmalıdır (yüksek entropi).

Aşağıdaki şekil bu kavramı görselleştirmektedir.

Bu iki kriteri birleştirmek için, KL farklılıklarını hesaplıyoruz ve IS'yi hesaplamak için aşağıdaki denklemi kullanıyoruz.

IS için bir eksiklik, sınıf başına sadece bir görüntü oluşturması durumunda performansı yanlış gösterebilmesidir. Çeşitlilik düşük olsa da p (y) hala tek tip olacaktır.

Fréchet Başlangıç ​​Mesafesi (FID)

FID'de, bir ara katmandaki özellikleri çıkarmak için Inception ağını kullanıyoruz. Daha sonra, ortalama µ ve kovaryans Σ olan çok değişkenli bir Gauss dağılımı kullanarak bu özelliklerin veri dağılımını modelliyoruz. Gerçek görüntüler x ile oluşturulan görüntüler g arasındaki FID şöyle hesaplanır:

Tr tüm köşegen unsurları özetler.

Düşük FID değerleri daha iyi görüntü kalitesi ve çeşitlilik anlamına gelir.

FID mod çöküşüne duyarlıdır. Aşağıda gösterildiği gibi, benzetilmiş eksik modlarla mesafe artar.

Kaynak Daha düşük bir FID puanı daha iyi bir model tanımlar.

FID, IS'den daha gürültüye karşı daha dayanıklıdır. Model, sınıf başına yalnızca bir görüntü oluşturuyorsa, mesafe yüksek olacaktır. Dolayısıyla FID, görüntü çeşitliliği için daha iyi bir ölçümdür. FID'nin oldukça yüksek önyargılı ancak düşük varyanslı. FID'yi bir eğitim veri seti ile test veri seti arasında hesaplayarak, her ikisinin de gerçek görüntüler olması nedeniyle FID'in sıfır olmasını beklemeliyiz. Bununla birlikte, testin farklı eğitim numuneleriyle çalıştırılması, sıfır FID olmadığını gösterir.

Kaynak

Ayrıca, hem FID hem de IS, özellik çıkarımına (özelliklerin varlığı veya yokluğu) dayanır. Mekansal ilişki sürdürülmezse bir jeneratör aynı puanı alacak mı?

Hassas, Geri Çağırma ve F1 Puanı

Oluşturulan görüntüler ortalama olarak gerçek görüntülere benziyorsa, hassasiyet yüksektir. Yüksek geri çağırma, jeneratörün eğitim veri setinde bulunan herhangi bir örneği üretebileceğini ima eder. F1 skoru, hassasiyet ve hatırlamanın harmonik ortalamasıdır.

Google Beyin araştırma makalesinde “GAN'lar eşit yaratılıyor mu”, farklı GAN modellerinin kesinliğini ve geri çağrılmasını ölçmek için üçgen veri setiyle bir oyuncak deneyi yaratıldı.

Kaynak

Bu oyuncak veri seti, farklı GAN modelinin performansını ölçebilir. Farklı maliyet fonksiyonlarının değerini ölçmek için kullanabiliriz. Örneğin, yeni işlev, iyi bir kapsama alanı olan yüksek kaliteli üçgen üretmede iyi olacak mı?

Referans

GAN'ların Eğitimi için Geliştirilmiş Teknikler

GAN'lar Eşittir mi? Büyük Ölçekli Bir Çalışma

İki Zamanlı Bir Güncelleme Kuralı ile Eğitilen GAN'lar Yerel Nash Dengesine Yakınlaşıyor