人臉合成效果媲美StyleGAN，而它是個(gè)自編碼器

作者：佚名 2020-04-26 11:26:02

自編碼器（AE）與生成對(duì)抗網(wǎng)絡(luò)（GAN）是復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的兩類方法，它們也經(jīng)常被拿來(lái)比較。

自編碼器（AE）與生成對(duì)抗網(wǎng)絡(luò)（GAN）是復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的兩類方法，它們也經(jīng)常被拿來(lái)比較。人們通常認(rèn)為自編碼器在圖像生成上的應(yīng)用范圍比 GAN 窄，那么自編碼器到底能不能具備與 GAN 同等的生成能力呢？這篇研究提出的新型自編碼器 ALAE 可以給你答案。目前，該論文已被 CVPR 2020 會(huì)議接收。

論文地址：https://arxiv.org/pdf/2004.04467.pdf
GitHub 地址：https://github.com/podgorskiy/ALAE

自編碼器是一種無(wú)監(jiān)督方法，它通過(guò)同時(shí)學(xué)習(xí)編碼器-生成器圖將「生成性」和「表征性」結(jié)合起來(lái)。關(guān)于自編碼器有兩個(gè)疑問(wèn)尚未得到解決：

自編碼器是否具備和 GAN 同等的生成能力？
自編碼器能否學(xué)習(xí)解耦表征（disentangled representation）？

最近，來(lái)自美國(guó)西弗吉尼亞大學(xué)的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE)，試圖解決以上問(wèn)題。ALAE 是一個(gè)通用架構(gòu)，它能夠利用近期 GAN 在訓(xùn)練方面的改進(jìn)。研究者表示 ALAE 具備與 GAN 相當(dāng)?shù)纳赡芰?，且能夠?qū)W習(xí)解耦表征。

利用 ALAE 通用架構(gòu)，該研究設(shè)計(jì)了兩個(gè)自編碼器：一種基于 MLP 編碼器，另一種基于 StyleGAN 生成器，即 StyleALAE。

研究者對(duì)這兩個(gè)架構(gòu)的解耦能力進(jìn)行了驗(yàn)證，發(fā)現(xiàn) StyleALAE 不僅能夠生成與 StyleGAN 生成質(zhì)量相當(dāng)?shù)?1024x1024 人臉圖像，在同樣分辨率條件下，它還可以基于真實(shí)圖像生成人臉重建和操縱結(jié)果。

研究者認(rèn)為，ALAE 是首個(gè)性能匹配甚至超過(guò)生成器架構(gòu)的自編碼器。

ALAE 到底效果如何呢？我們來(lái)看展示圖：

StyleALAE 的風(fēng)格混合效果。

感興趣的讀者可以自己運(yùn)行 demo，不過(guò)你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅(qū)動(dòng)，詳情參見(jiàn) GitHub 地址。

新型通用自編碼器 ALAE

研究者觀察到每個(gè) AE 方法都使用同樣的假設(shè)：潛在空間的概率分布應(yīng)與先驗(yàn)相關(guān)，自編碼器應(yīng)該與之匹配。而 StyleGAN 相關(guān)論文證明，中間潛在空間應(yīng)當(dāng)具備更好的解耦能力。

于是研究者通過(guò)修改原始 GAN 范式設(shè)計(jì)了一種新型 AE 架構(gòu)：

允許基于數(shù)據(jù)學(xué)得的潛在分布解決耦合問(wèn)題 (A)，并使用對(duì)抗策略學(xué)習(xí)輸出數(shù)據(jù)分布 (B)，以保留 GAN 的生成能力；為了實(shí)現(xiàn) (A) 和 (B)，該研究提出將 AE reciprocity 置于潛在空間中 (C)，以避免使用在數(shù)據(jù)空間中運(yùn)行的基于簡(jiǎn)單 l_2 范數(shù)的重建損失（對(duì)于圖像空間來(lái)說(shuō)它們通常是次優(yōu)選擇）。

如下圖 1 所示，研究者將生成器 G 和判別器 D 分別分解成兩個(gè)網(wǎng)絡(luò)：F、G 和 E、D。

äººè„¸åˆæˆæ•ˆæžœåª²ç¾ŽStyleGANï¼Œè€Œå®ƒæ˜¯ä¸ªè‡ªç¼–ç å™¨

圖 1：ALAE 架構(gòu)。

此外，研究者還展示了 ALAE 與其他自編碼器的關(guān)聯(lián)，詳見(jiàn)下表：

StyleALAE

研究者使用 ALAE 構(gòu)建了一個(gè)自編碼器，該自編碼器使用的是基于 StyleGAN 的生成器。具體架構(gòu)如下圖 2 所示：

圖 2：StyleALAE 架構(gòu)。StyleALAE 編碼器中的實(shí)例歸一化（IN）層用來(lái)提取多尺度風(fēng)格信息，并通過(guò)可學(xué)習(xí)的多重線性映射（multilinear map）將它們組合成為一個(gè)潛在代碼 w。

實(shí)現(xiàn)

ALAE 的算法訓(xùn)練過(guò)程參見(jiàn)下圖：

ALAE 效果如何？

該研究在多個(gè)數(shù)據(jù)集上評(píng)估了 ALAE 的性能，實(shí)驗(yàn)代碼和數(shù)據(jù)參見(jiàn) GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 數(shù)據(jù)集訓(xùn)練 ALAE，并使用特征表示來(lái)執(zhí)行分類、重建和分析解耦能力的任務(wù)。

表 2：不同方法在 MNIST 分類任務(wù)上的性能。

圖 3：MNIST 重建效果。

StyleALAE 學(xué)習(xí)風(fēng)格表征的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 數(shù)據(jù)集上評(píng)估 StyleALAE 的性能。

表 3：不同方法在 FFHQ 和 LSUN 數(shù)據(jù)集上的 FID 分?jǐn)?shù)。

表 4：不同方法的感知路徑長(zhǎng)度（PPL），表示表征解耦程度。

圖 5：FFHQ 重建結(jié)果。StyleALAE 對(duì)未見(jiàn)過(guò)的圖像的 1024×1024 重建結(jié)果。

圖 6：StyleALAE 的 FFHQ 生成結(jié)果（1024 × 1024 分辨率）。

圖 9：StyleALAE 的風(fēng)格混合效果?！竎oarse styles」從 Source 圖像中復(fù)制了高級(jí)特征，如姿勢(shì)、大致發(fā)型和臉型，從 Destination 圖像中復(fù)制了所有顏色（眸色、發(fā)色和光照）；「middle styles」從 Source 圖像中復(fù)制了較小型的面部特征例如發(fā)式、眼睛睜/閉，從 Destination 圖像中復(fù)制了臉型；「fine styles」從 Source 圖像中復(fù)制了顏色和微結(jié)構(gòu)。

圖 8：不同方法在 CelebA-HQ 數(shù)據(jù)集上的重建結(jié)果。第一行是真實(shí)圖像；第二行：StyleALAE；第三行：Balanced PIONEER；第四行：PIONEER。

從圖中可以看出，StyleALAE 的生成結(jié)果更加清晰，失真度也最低。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

人臉合成編碼器數(shù)據(jù)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人臉合成效果媲美StyleGAN，而它是個(gè)自編碼器

新型通用自編碼器 ALAE

實(shí)現(xiàn)

ALAE 效果如何？

人臉合成效果媲美StyleGAN，而它是個(gè)自編碼器