自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕 精華

發(fā)布于 2024-4-24 13:47
瀏覽
0收藏

在人物說(shuō)話(huà)的過(guò)程中,每一個(gè)細(xì)微的動(dòng)作和表情都可以表達(dá)情感,都能向觀眾傳達(dá)出無(wú)聲的信息,也是影響生成結(jié)果真實(shí)性的關(guān)鍵因素。


如果能夠根據(jù)特定面容來(lái)自動(dòng)生成一段生動(dòng)逼真的形象,將徹底改變?nèi)祟?lèi)與人工智能系統(tǒng)的交互形式,例如改善有障礙患者的交流方式、增強(qiáng)人工智能輔導(dǎo)教育的趣味性、醫(yī)療保健場(chǎng)景下的治療支持和社會(huì)互動(dòng)等。


最近,微軟亞洲研究院的研究人員拋出了一個(gè)重磅炸彈VASA-1框架,利用視覺(jué)情感技巧(VAS,visual affective skills),只需要輸入一張肖像照片+一段語(yǔ)音音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部運(yùn)動(dòng)的超逼真說(shuō)話(huà)面部視頻。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2404.10667.pdf

項(xiàng)目主頁(yè):https://www.microsoft.com/en-us/research/project/vasa-1/


在VASA框架下,首款模型VASA-1不僅能夠產(chǎn)生與音頻完美同步的嘴唇動(dòng)作,還能夠捕捉大量面部細(xì)微差別和自然的頭部動(dòng)作,有助于感知真實(shí)性和生動(dòng)性。


框架的核心創(chuàng)新點(diǎn)為基于擴(kuò)散的整體面部動(dòng)力學(xué)和頭部運(yùn)動(dòng)生成模型,以及使用視頻來(lái)開(kāi)發(fā)出這種富有表現(xiàn)力和解耦的面部潛空間(disentangled face latent space)。


研究人員還使用了一組全新的指標(biāo)對(duì)模型能力進(jìn)行評(píng)估,結(jié)果表明該方法在各個(gè)維度上都顯著優(yōu)于之前的方法,可以提供具有逼真面部和頭部動(dòng)態(tài)的高質(zhì)量視頻,還支持以高達(dá)40 FPS的幀速率實(shí)時(shí)生成512×512視頻,啟動(dòng)延遲可忽略不計(jì)。


可以說(shuō),VASA框架為模擬人類(lèi)對(duì)話(huà)行為中,使用逼真化身進(jìn)行實(shí)時(shí)互動(dòng)鋪平了道路。

VASA框架

一個(gè)好的生成視頻應(yīng)該具備幾個(gè)關(guān)鍵點(diǎn):高保真度、圖像幀的清晰度和真實(shí)性、音頻和嘴唇動(dòng)作之間的精確同步、表情和情感的面部動(dòng)態(tài),以及自然的頭部姿勢(shì)。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)

模型在生成過(guò)程可以接受一組可選的控制信號(hào)來(lái)指導(dǎo)生成,包括主眼凝視方向、頭部到相機(jī)的距離和情緒偏移等。


整體框架


VASA模型并不是直接生成視頻幀,而是在音頻和其他信號(hào)的條件下,在潛空間中生成整體的面部動(dòng)態(tài)和頭部運(yùn)動(dòng)。


給定運(yùn)動(dòng)潛碼后,VASA使用面部編碼器從輸入圖像中提取的外觀和身份特征作為輸入,然后生成視頻幀。


研究人員首先構(gòu)建了一個(gè)人臉潛空間,并使用現(xiàn)實(shí)生活中的人臉視頻對(duì)人臉編碼器和解碼器進(jìn)行訓(xùn)練;然后再訓(xùn)練一個(gè)簡(jiǎn)單的擴(kuò)散Transformer對(duì)運(yùn)動(dòng)分布進(jìn)行建模,針對(duì)測(cè)試期間的音頻和其他條件下,生成運(yùn)動(dòng)潛碼。


1. 表情和解耦面部潛空間構(gòu)建(Expressive and Disentangled Face Latent Space Construction)


給定一組未標(biāo)注的說(shuō)話(huà)人臉視頻,研究人員的目標(biāo)是建立一個(gè)具有高度解耦和表現(xiàn)力的人臉潛空間。


在主體身份改變的情況下,解耦可以對(duì)視頻中的人臉和整體面部行為進(jìn)行高效的生成建模,還可以實(shí)現(xiàn)對(duì)輸出的解耦因子控制,相比之下,現(xiàn)有方法要么缺乏表現(xiàn)力,要么缺乏解耦。


另一方面,面部外觀和動(dòng)態(tài)運(yùn)動(dòng)的表情可以確保解碼器能夠輸出具有豐富面部細(xì)節(jié)的高質(zhì)量視頻,潛生成器能夠捕捉細(xì)微的面部動(dòng)態(tài)。


為了實(shí)現(xiàn)這一點(diǎn),VASA模型建立在3D輔助人臉再現(xiàn)(3D-aid face reenactment)框架的基礎(chǔ)上,與2D特征圖相比,3D外觀特征體積可以更好地表征3D中的外觀細(xì)節(jié),其在建模3D頭部和面部運(yùn)動(dòng)方面也很強(qiáng)大。


具體來(lái)說(shuō),研究人員將面部圖像分解為規(guī)范的3D外觀體積、身份編碼、3D頭部姿勢(shì)和面部動(dòng)態(tài)編碼,每個(gè)特征都由獨(dú)立的編碼器從人臉圖像中進(jìn)行提取,其中外觀體積需要先通過(guò)提取姿勢(shì)三維體積,再將剛性和非剛性三維扭曲到規(guī)范體積來(lái)構(gòu)建得到。


解碼器將上述潛變量作為輸入,并重建面部圖像。


學(xué)習(xí)解耦潛空間的核心思想是,通過(guò)在視頻中不同圖像之間交換潛變量來(lái)構(gòu)建圖像重建損失,但原版模型中的損失函數(shù)無(wú)法很好地區(qū)分「面部動(dòng)態(tài)」和「頭部姿勢(shì)」,也無(wú)法識(shí)別「身體」和「運(yùn)動(dòng)」之間的關(guān)聯(lián)性。


研究人員額外添加了成對(duì)的頭部姿勢(shì)和面部動(dòng)態(tài)來(lái)傳遞損失,以改善解耦效果。


為了提升身份和運(yùn)動(dòng)之間的糾纏,損失函數(shù)中引入了面部身份相似性損失。


2. 基于擴(kuò)散Transformer的整體人臉動(dòng)態(tài)生成(Holistic Facial Dynamics Generation with Diffusion Transformer)


給定構(gòu)建的人臉潛空間和訓(xùn)練的編碼器,就可以從現(xiàn)實(shí)生活中的人臉視頻中提取人臉動(dòng)態(tài)和頭部運(yùn)動(dòng),并訓(xùn)練生成模型。


最關(guān)鍵的是,研究人員考慮了身份不可知的整體面部動(dòng)態(tài)生成(HFDG),學(xué)習(xí)到的潛編碼代表所有面部運(yùn)動(dòng),如嘴唇運(yùn)動(dòng)、(非嘴唇)表情、眼睛凝視和眨眼,與現(xiàn)有方法中「使用交錯(cuò)回歸和生成公式對(duì)不同因素應(yīng)用單獨(dú)的模型」形成了鮮明的對(duì)比。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


此外,之前的方法通常基于有限的身份進(jìn)行訓(xùn)練,不能對(duì)不同人類(lèi)的廣泛運(yùn)動(dòng)模式進(jìn)行建模,特別是在具有表現(xiàn)力的運(yùn)動(dòng)潛空間的情況下。


在這項(xiàng)工作中,研究人員利用音頻條件下的HFDG的擴(kuò)散模型,在來(lái)自大量身份的大量談話(huà)人臉視頻上進(jìn)行訓(xùn)練,并將Transformer架構(gòu)應(yīng)用于序列生成任務(wù)。


3. Talking Face視頻生成


在推斷時(shí),給定任意的人臉圖像和音頻片段,首先使用訓(xùn)練的人臉編碼器提取3D外觀體積和身份編碼;然后提取音頻特征,將其分割成相同長(zhǎng)度的片段,并使用訓(xùn)練的擴(kuò)散Transformer以滑動(dòng)窗口的方式逐個(gè)生成頭部和面部運(yùn)動(dòng)序列;最后使用訓(xùn)練后的解碼器生成最終視頻。

實(shí)驗(yàn)結(jié)果

研究人員使用公開(kāi)的VoxCeleb2數(shù)據(jù)集,包含大約6000名受試者的談話(huà)面部視頻,并重新處理數(shù)據(jù)集并丟棄「包含多個(gè)人物的片段」和低質(zhì)量的片段。


對(duì)于motion latent生成任務(wù),使用embedding尺寸為512、頭編號(hào)為8的8層Transformer編碼器作為擴(kuò)散網(wǎng)絡(luò)。


模型在VoxCeleb2和收集的另一個(gè)高分辨率談話(huà)視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含約3500個(gè)受試者。


定性評(píng)估


可視化結(jié)果


通過(guò)視覺(jué)檢查,我們的方法可以生成具有生動(dòng)面部情緒的高質(zhì)量視頻幀。此外,它可以產(chǎn)生類(lèi)似人類(lèi)的對(duì)話(huà)行為,包括在演講和沉思過(guò)程中眼睛凝視的偶爾變化,以及眨眼的自然和可變節(jié)奏,以及其他細(xì)微差別。我們強(qiáng)烈建議讀者在線(xiàn)查看我們的視頻結(jié)果,以充分了解我們方法的功能和輸出質(zhì)量。


生成可控性


在不同控制信號(hào)下生成的結(jié)果,包括主眼凝視、頭部距離和情緒偏移,生成模型可以很好地解釋這些信號(hào),并產(chǎn)生與這些特定參數(shù)密切相關(guān)的人臉結(jié)果。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


解耦face latents


當(dāng)將相同的運(yùn)動(dòng)潛在序列應(yīng)用于不同的受試者時(shí),方法有效地保持了不同的面部運(yùn)動(dòng)和獨(dú)特的面部特征,表明了該方法在解耦身份和運(yùn)動(dòng)方面的有效性。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


下圖進(jìn)一步說(shuō)明了頭部姿勢(shì)和面部動(dòng)態(tài)之間的有效解耦,通過(guò)保持一個(gè)方面不變并改變另一個(gè)方面,得到的圖像忠實(shí)地反映了預(yù)期的頭部和面部運(yùn)動(dòng),而不會(huì)受到干擾,展示了處理訓(xùn)練分布之外的照片和音頻輸入的能力。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


模型還可以處理藝術(shù)照片、歌唱音頻片段(前兩行)和非英語(yǔ)演講(最后一行),并且這些數(shù)據(jù)變體不存在于訓(xùn)練數(shù)據(jù)集中。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


定量評(píng)估


下表給出了VoxCeleb2和OneMin-32基準(zhǔn)測(cè)試的結(jié)果。


一張照片+音頻=超逼真數(shù)字人視頻!VASA-1模型拉開(kāi)「實(shí)時(shí)交互」大幕-AI.x社區(qū)


在這兩個(gè)基準(zhǔn)測(cè)試中,該方法在所有評(píng)估指標(biāo)上都取得了所有方法中最好的結(jié)果。


在音頻嘴唇同步分?jǐn)?shù)(SC和SD)方面,該方法遠(yuǎn)遠(yuǎn)優(yōu)于其他方法,比真實(shí)視頻產(chǎn)生更好的分?jǐn)?shù),是由于音頻CFG的影響。


從CAPP分?jǐn)?shù)上反映的結(jié)果來(lái)看,模型生成的姿勢(shì)與音頻的匹配效果更一致,尤其是在OneMin-32基準(zhǔn)上。


根據(jù)?P,頭部運(yùn)動(dòng)也表現(xiàn)出最高的強(qiáng)度,但仍然與真實(shí)視頻的強(qiáng)度仍有差距;并且FVD得分明顯低于其他模型,表明該結(jié)果具有更高的視頻質(zhì)量和真實(shí)性。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/7F6UzcGrR-1PrhvU-rd-QA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦