標籤:優秀 二分 上採樣 sse upload ict 一起 set add
GAN
由Goodfellow等人於2014年引入的產生對抗網路(GAN)是用於學習映像潛在空間的VAE的替代方案。它們通過強制產生的映像在統計上幾乎與真實映像幾乎無法區分,從而能夠產生相當逼真的合成映像。
理解GAN的直觀方式是想象一個偽造者試圖創造一幅偽造的畢加索作品。起初,偽造者的任務非常糟糕。他將他的一些假貨與真正的畢加索混合在一起,並將它們全部展示給藝術品經銷商。藝術品經銷商對每幅畫進行真實性評估,並給出關於畢加索看起來像畢加索的原因的偽造反饋。偽造者回到他的工作室準備一些新的假貨。隨著時間的推移,偽造者越來越有能力模仿畢加索的風格,藝術品經銷商越來越專業地發現假貨。最後,他們手上拿著一些優秀的假畢加索。
這就是GAN的意義:偽造網路和專家網路,每個網路都經過最好的培訓。因此,GAN由兩部分組成:
- 產生網路(generator): 將隨機向量(潛在空間中的隨機點)作為輸入,並將其解碼為合成映像;
- 辨別網路(discriminator): 將映像(真實的或合成的)作為輸入,並預測映像是來自訓練集還是由產生器網路建立。
產生器網路經過訓練,能夠欺騙鑒別器網路,因此隨著訓練的進行,它逐漸產生越來越逼真的映像:人工映像看起來與真實映像無法區分,只要鑒別器網路不可能鑒別兩張圖片。同時,鑒別器不斷適應發生器逐漸改進的能力,為產生的映像設定了高度的真實感。一旦訓練結束,產生器就能夠將其輸入空間中的任何點轉換為可信的映像。與VAE不同,這個潛在空間對有意義結構的明確保證較少;特別是,它不是連續的。
[圖片上傳失敗...(image-599f61-1536326082049)]
值得注意的是,GAN是一個最佳化最小值不固定的系統。通常,梯度下降包括在靜態損失中滾下山丘。但是使用GAN,從山上下來的每一步都會改變整個景觀。這是一個動態系統,其中最佳化過程尋求的不是最小,而是兩個力之間的平衡。出於這個原因,GAN是眾所周知的難以訓練 - 讓GAN工作需要大量仔細調整模型架構和訓練參數。
GAN實現
使用keras實現一個簡單的GAN網路:DCGAN,Generator和Discriminator都是由卷積網路組成。使用Conv2DTranspose網路層在Generator用來對圖片上採樣。
在CIFAR10,50000張32x32 RGB圖片資料集上訓練。為了訓練更容易,僅使用“青蛙"類圖片。
實現GAN網路流程:
- generator網路將(latent_dim, )向量轉換成(32,32,3)圖片;
- discriminator將(32,32,3)圖片映射到2分類得分上,得到圖片為真的機率;
- gan網路將generator和discriminator結合起來:gan(x) = discriminator(generator(x))。gan網路將隱空間向量映射到鑒別器鑒別generator由隱空間向量產生圖片為真的機率上;
- 使用帶real/fake標籤的real、fake圖片對Discriminator訓練;
- 要訓練Generator,可以使用gan模型損失對Generator權重的梯度。這意味著,在每個步驟中,將產生器的權重移動到使鑒別器更可能將產生器解碼的映像歸類為“真實”的方向上。換句話說,你訓練產生器來欺騙鑒別器。
A bag of tricks
眾所周知,訓練GAN和調整GAN實現的過程非常困難。你應該記住一些已知的技巧。像深度學習中的大多數事情一樣:這些技巧是啟發學習法的,而不是理論支援的指導方針。 他們得到了對手頭現象的直觀理解的支援,並且他們已經知道在經驗上運作良好,儘管不一定在每種情況下都有效。
以下是實現GAN產生器和鑒別器時使用的一些技巧。它不是GAN相關技巧的詳盡列表;你會在GAN文獻中找到更多:
- Generator使用tanh作為最後一層的啟用函數,而不是sigmoid;
- 隱空間取樣時使用常態分佈(高斯分布),而不是均勻分布;
- 為了健壯性可以增加隨機性。由於GAN訓練導致動態平衡,GAN可能會以各種方式陷入困境。在訓練期間引入隨機性有助於防止這種情況。我們以兩種方式引入隨機性:通過在鑒別器中使用dropout並通過向鑒別器的標籤添加隨機雜訊。
- 稀疏梯度可能會阻礙GAN訓練。在深度學習中,稀疏性通常是理想的屬性,但在GAN中則不然。有兩件事可以引起梯度稀疏:最大池操作和ReLU啟用。建議使用跨步卷積進行下採樣,而不是最大池化,建議使用LeakyReLU層而不是ReLU啟用。它與ReLU類似,但它通過允許小的負啟用值來放寬稀疏性約束。
- 在產生的映像中,通常會看到由於產生器中像素空間的不均勻覆蓋而導致的棋盤格偽影(見圖8.17)。為瞭解決這個問題,每當我們在產生器和鑒別器中使用跨步的Conv2DTranpose或Conv2D時,我們使用可以被步長大小整除的核心大小。
Generator
首先,開發一個產生器模型,該模型將向量(從潛在空間 - 在訓練期間將隨機採樣)轉換為候選映像。 GAN通常出現的許多問題之一是產生器卡在產生的看起來像雜訊的映像。一種可能的解決方案是在鑒別器和發生器上使用dropout。
GAN 產生器網路
import kerasfrom keras import layersimport numpy as nplatent_dim = 2height = 32width = 32channels = 3generator_input = keras.Input(shape=(latent_dim,))x = layers.Dense(128 * 16 * 16)(generator_input)x = layers.LeakyReLU()(x)x = layers.Reshape((16, 16, 128))(x)#將輸入轉換成16*16 128通道的特徵圖x = layers.Conv2D(256, 5, padding='same')(x)x = layers.LeakyReLU()(x)x=layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)#上採樣32*32x = layers.LeakyReLU()(x)x = layers.Conv2D(256, 5, padding='same')(x)x = layers.LeakyReLU()(x)x = layers.Conv2D(256, 5, padding='same')(x)x = layers.LeakyReLU()(x)#產生32x32 1通道的特徵圖x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x)generator = keras.models.Model(generator_input, x)#將(latent_dim,)->(32,32,3)generator.summary()
Discriminator
接下來,將開發一個鑒別器模型,將候選映像(真實的或合成的)作為輸入,並將其分為兩類:“產生的映像”或“來自訓練集的真實映像”。
GANs 鑒別器網路
discriminator_input = layers.Input(shape=(height, width, channels))x = layers.Conv2D(128, 3)(discriminator_input)x = layers.LeakyReLU()(x)x = layers.Conv2D(128, 4, strides=2)(x)x = layers.LeakyReLU()(x)x = layers.Conv2D(128, 4, strides=2)(x)x = layers.LeakyReLU()(x)x = layers.Conv2D(128, 4, strides=2)(x)x = layers.LeakyReLU()(x)x = layers.Flatten()(x)x = layers.Dropout(0.4)(x)x = layers.Dense(1, activation='sigmoid')(x)#二分類discriminator = keras.models.Model(discriminator_input, x)discriminator.summary()discriminator_optimizer = keras.optimizers.RMSprop(lr=0.0008, clipvalue=1.0,decay=1e-8)discriminator.compile(optimizer=discriminator_optimizer, loss='binary_crossentropy')
對抗網路
最後,設定GAN,它連結產生器和鑒別器。經過訓練,該模型將使產生器向一個方向移動,從而提高其欺騙鑒別器的能力。這個模型將潛在空間點轉換為分類決策(“假”或“真實”) 並且它意味著使用始終“這些是真實映像”的標籤進行訓練。因此,訓練gan將更新產生器的權重。在查看假映像時,使鑒別器更有可能預測“真實”的方式。非常重要的是要注意在訓練期間將鑒別器設定為凍結(不可訓練):訓練gan時不會更新其權重。如果在此過程中可以更新鑒別器權重,那麼將訓練鑒別器始終預測“真實”,這不是我們想要的!
對抗網路
discriminator.trainable = Falsegan_input = keras.Input(shape=(latent_dim,))gan_output = discriminator(generator(gan_input))gan = keras.models.Model(gan_input,gan_output)gan_optimizer = keras.optimizers.RMSprop(lr=0.0004,clipvalue=1.0, decay=1e-8)gan.compile(optimizer=gan_optimizer,loss='binary_crossentropy')
訓練DCGAN
現在可以開始訓練了。總結一下,這就是訓練迴圈的流程。對於每個epoch,執行以下操作:
- 在潛在空間中繪製隨機點(隨機雜訊);
- 在產生器中使用隨機雜訊產生映像;
- 將產生的映像與實際映像混合;
- 使用這些混合映像訓練鑒別器,並使用相應的目標:要麼“真實”(對於真實映像)要麼“假”(對於產生的映像);
- 在潛在空間中繪製新的隨機點;
- 使用這些隨機向量訓練gan,目標都是“這些都是真實的映像。”這會更新產生器的權重(僅因為鑒別器在gan內被凍結)以使它們朝向讓鑒別器預測“這些是真實的映像“用於產生的映像:這會訓練發生器欺騙鑒別器。
GAN訓練
import osfrom keras.preprocessing import image(x_train, y_train), (_, _) = keras.datasets.cifar10.load_data()x_train = x_train[y_train.flatten() == 6]#第6類x_train = x_train.reshape((x_train.shape[0],)+(height, width, channels)).astype('float32') / 255.iterations = 10000batch_size = 20save_dir = 'your_dir'#儲存產生圖片start = 0for step in range(iterations): random_latent_vectors = np.random.normal(size=(batch_size, latent_dim))#常態分佈隨機取點 generated_images = generator.predict(random_latent_vectors)#fake圖 stop = start + batch_size real_images = x_train[start: stop] #混合真、假圖片 combined_images = np.concatenate([generated_images, real_images]) #標籤 labels = np.concatenate([np.ones((batch_size, 1)), np.zeros((batch_size, 1))]) labels += 0.05 * np.random.random(labels.shape)#加隨機雜訊 d_loss = discriminator.train_on_batch(combined_images, labels) random_latent_vectors = np.random.normal(size=(batch_size, latent_dim)) isleading_targets = np.zeros((batch_size, 1)) #gan訓練:訓練generator,固定discriminator a_loss = gan.train_on_batch(random_latent_vectors, misleading_targets) start += batch_size if start > len(x_train) - batch_size: start = 0 if step % 100 == 0:#每100步儲存一次 gan.save_weights('gan.h5') print('discriminator loss:', d_loss) print('adversarial loss:', a_loss) img = image.array_to_img(generated_images[0] * 255., scale=False) img.save(os.path.join(save_dir,'generated_frog' +str(step)+'.png')) img = image.array_to_img(real_images[0] * 255., scale=False) img.save(os.path.join(save_dir,'real_frog' + str(step) + '.png'))
訓練時,可能會看到對抗性損失開始顯著增加,而判別性損失往往為零 - 鑒別者最終可能主導產生器。如果是這種情況,嘗試降低鑒別器學習速率,並提高鑒別器的丟失率dropout。
小結
- GAN由與鑒別器網路和產生器網路組成。訓練鑒別器以在產生器的輸出和來自訓練資料集的真實映像之間進行區分,並且訓練產生器以欺騙鑒別器。值得注意的是,產生器組不能直接從訓練集中看到映像;它對資料的資訊來自鑒別器。
- GAN難以訓練,因為訓練GAN是一個動態過程,而不是具有固定損失的簡單梯度下降過程。GAN正確訓練需要使用一些啟發學習法技巧,以及大量的參數調整。
- GAN可以產生高度逼真的映像。但是與VAE不同,他們學到的潛在空間沒有整齊的連續結構,因此可能不適合某些實際應用,例如通過潛在空間概念向量進行影像編輯。
[Deep-Learning-with-Python]GAN圖片產生