人臉合成效果媲美StyleGAN,而它是個(gè)自編碼器
自編碼器(AE)與生成對(duì)抗網(wǎng)絡(luò)(GAN)是復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的兩類方法,它們也經(jīng)常被拿來(lái)比較。人們通常認(rèn)為自編碼器在圖像生成上的應(yīng)用范圍比 GAN 窄,那么自編碼器到底能不能具備與 GAN 同等的生成能力呢?這篇研究提出的新型自編碼器 ALAE 可以給你答案。目前,該論文已被 CVPR 2020 會(huì)議接收。
- 論文地址:https://arxiv.org/pdf/2004.04467.pdf
- GitHub 地址:https://github.com/podgorskiy/ALAE
自編碼器是一種無(wú)監(jiān)督方法,它通過(guò)同時(shí)學(xué)習(xí)編碼器-生成器圖將「生成性」和「表征性」結(jié)合起來(lái)。關(guān)于自編碼器有兩個(gè)疑問(wèn)尚未得到解決:
- 自編碼器是否具備和 GAN 同等的生成能力?
- 自編碼器能否學(xué)習(xí)解耦表征(disentangled representation)?
最近,來(lái)自美國(guó)西弗吉尼亞大學(xué)的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE),試圖解決以上問(wèn)題。ALAE 是一個(gè)通用架構(gòu),它能夠利用近期 GAN 在訓(xùn)練方面的改進(jìn)。研究者表示 ALAE 具備與 GAN 相當(dāng)?shù)纳赡芰?,且能夠?qū)W習(xí)解耦表征。
利用 ALAE 通用架構(gòu),該研究設(shè)計(jì)了兩個(gè)自編碼器:一種基于 MLP 編碼器,另一種基于 StyleGAN 生成器,即 StyleALAE。
研究者對(duì)這兩個(gè)架構(gòu)的解耦能力進(jìn)行了驗(yàn)證,發(fā)現(xiàn) StyleALAE 不僅能夠生成與 StyleGAN 生成質(zhì)量相當(dāng)?shù)?1024x1024 人臉圖像,在同樣分辨率條件下,它還可以基于真實(shí)圖像生成人臉重建和操縱結(jié)果。
研究者認(rèn)為,ALAE 是首個(gè)性能匹配甚至超過(guò)生成器架構(gòu)的自編碼器。
ALAE 到底效果如何呢?我們來(lái)看展示圖:
StyleALAE 的風(fēng)格混合效果。
感興趣的讀者可以自己運(yùn)行 demo,不過(guò)你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅(qū)動(dòng),詳情參見(jiàn) GitHub 地址。
新型通用自編碼器 ALAE
研究者觀察到每個(gè) AE 方法都使用同樣的假設(shè):潛在空間的概率分布應(yīng)與先驗(yàn)相關(guān),自編碼器應(yīng)該與之匹配。而 StyleGAN 相關(guān)論文證明,中間潛在空間應(yīng)當(dāng)具備更好的解耦能力。
于是研究者通過(guò)修改原始 GAN 范式設(shè)計(jì)了一種新型 AE 架構(gòu):
允許基于數(shù)據(jù)學(xué)得的潛在分布解決耦合問(wèn)題 (A),并使用對(duì)抗策略學(xué)習(xí)輸出數(shù)據(jù)分布 (B),以保留 GAN 的生成能力;為了實(shí)現(xiàn) (A) 和 (B),該研究提出將 AE reciprocity 置于潛在空間中 (C),以避免使用在數(shù)據(jù)空間中運(yùn)行的基于簡(jiǎn)單 l_2 范數(shù)的重建損失(對(duì)于圖像空間來(lái)說(shuō)它們通常是次優(yōu)選擇)。
如下圖 1 所示,研究者將生成器 G 和判別器 D 分別分解成兩個(gè)網(wǎng)絡(luò):F、G 和 E、D。
圖 1:ALAE 架構(gòu)。
此外,研究者還展示了 ALAE 與其他自編碼器的關(guān)聯(lián),詳見(jiàn)下表:
StyleALAE
研究者使用 ALAE 構(gòu)建了一個(gè)自編碼器,該自編碼器使用的是基于 StyleGAN 的生成器。具體架構(gòu)如下圖 2 所示:
圖 2:StyleALAE 架構(gòu)。StyleALAE 編碼器中的實(shí)例歸一化(IN)層用來(lái)提取多尺度風(fēng)格信息,并通過(guò)可學(xué)習(xí)的多重線性映射(multilinear map)將它們組合成為一個(gè)潛在代碼 w。
實(shí)現(xiàn)
ALAE 的算法訓(xùn)練過(guò)程參見(jiàn)下圖:
ALAE 效果如何?
該研究在多個(gè)數(shù)據(jù)集上評(píng)估了 ALAE 的性能,實(shí)驗(yàn)代碼和數(shù)據(jù)參見(jiàn) GitHub 地址。
在 MNIST 上的性能
研究者使用 MNIST 數(shù)據(jù)集訓(xùn)練 ALAE,并使用特征表示來(lái)執(zhí)行分類、重建和分析解耦能力的任務(wù)。
表 2:不同方法在 MNIST 分類任務(wù)上的性能。
圖 3:MNIST 重建效果。
StyleALAE 學(xué)習(xí)風(fēng)格表征的能力
研究者在 FFHQ、LSUN 和 CelebA-HQ 數(shù)據(jù)集上評(píng)估 StyleALAE 的性能。
表 3:不同方法在 FFHQ 和 LSUN 數(shù)據(jù)集上的 FID 分?jǐn)?shù)。
表 4:不同方法的感知路徑長(zhǎng)度(PPL),表示表征解耦程度。
圖 5:FFHQ 重建結(jié)果。StyleALAE 對(duì)未見(jiàn)過(guò)的圖像的 1024×1024 重建結(jié)果。
圖 6:StyleALAE 的 FFHQ 生成結(jié)果(1024 × 1024 分辨率)。
圖 9:StyleALAE 的風(fēng)格混合效果?!竎oarse styles」從 Source 圖像中復(fù)制了高級(jí)特征,如姿勢(shì)、大致發(fā)型和臉型,從 Destination 圖像中復(fù)制了所有顏色(眸色、發(fā)色和光照);「middle styles」從 Source 圖像中復(fù)制了較小型的面部特征例如發(fā)式、眼睛睜/閉,從 Destination 圖像中復(fù)制了臉型;「fine styles」從 Source 圖像中復(fù)制了顏色和微結(jié)構(gòu)。
圖 8:不同方法在 CelebA-HQ 數(shù)據(jù)集上的重建結(jié)果。第一行是真實(shí)圖像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。
從圖中可以看出,StyleALAE 的生成結(jié)果更加清晰,失真度也最低。