一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!
文章鏈接:https://arxiv.org/pdf/2504.04842
開源地址:https://fantasy-amap.github.io/fantasy-talking/
亮點直擊
- 設(shè)計了一種雙階段視聽對齊訓(xùn)練策略,以適配預(yù)訓(xùn)練的視頻生成模型:首先在片段級別建立與輸入音頻對應(yīng)的、包含背景和上下文對象(而不僅限于肖像本身)的連貫全局運動,隨后構(gòu)建精確對齊的唇部運動以進(jìn)一步提升生成視頻的質(zhì)量。
- 摒棄了傳統(tǒng)的參考網(wǎng)絡(luò)用于身份保持的方法,轉(zhuǎn)而設(shè)計了一個專注于面部的交叉注意力模塊,該模塊集中建模面部區(qū)域,并以一致的身份指導(dǎo)視頻生成,從而簡化流程。
- 引入了運動強度調(diào)制模塊,顯式控制面部表情和身體運動的強度,從而實現(xiàn)對肖像運動的可控操縱,而不僅限于唇部運動。
- 大量實驗表明,FantasyTalking在視頻質(zhì)量、時間一致性和運動多樣性方面達(dá)到了新SOTA。
總結(jié)速覽
解決的問題
- 靜態(tài)肖像動畫化的挑戰(zhàn):從單張靜態(tài)肖像生成可動畫化的虛擬形象,難以捕捉細(xì)微的面部表情、全身動作和動態(tài)背景。
- 現(xiàn)有方法的不足:
- 依賴3D中間表示(如3DMM、FLAME)的方法難以準(zhǔn)確捕捉細(xì)微表情和真實動作。
- 基于擴散模型的方法生成的內(nèi)容真實性不足,通常僅關(guān)注唇部運動,忽略面部表情和身體動作的協(xié)調(diào)性。
- 背景和上下文對象通常是靜態(tài)的,導(dǎo)致場景不夠自然。
- 身份保持與動態(tài)靈活性的矛盾:現(xiàn)有方法在保持身份一致性和動態(tài)靈活性之間存在權(quán)衡問題。
提出的方案
- 雙階段音頻-視覺對齊策略:
- 第一階段(片段級訓(xùn)練):利用視頻擴散Transformer模型的時空建模能力,建立音頻與全局視覺動態(tài)(包括肖像、背景和上下文對象)的隱式關(guān)聯(lián),實現(xiàn)整體場景運動的連貫性。
- 第二階段(幀級細(xì)化):通過唇部追蹤掩碼和音頻映射的視覺token注意力機制,精確對齊唇部運動與音頻信號。
- 身份保持優(yōu)化:
- 摒棄傳統(tǒng)的參考網(wǎng)絡(luò)(易限制動態(tài)效果),改用專注于面部建模的交叉注意力模塊,確保視頻中身份一致性。
- 運動強度控制模塊:
- 顯式解耦角色表情和身體動作,通過強度調(diào)節(jié)實現(xiàn)動態(tài)肖像的可控生成(如增強表情或身體動作幅度)。
應(yīng)用的技術(shù)
- 基于DiT的視頻擴散模型:利用預(yù)訓(xùn)練的視頻擴散Transformer(DiT)生成高保真、連貫的動態(tài)肖像。
- 多模態(tài)對齊框架:
- 音頻驅(qū)動動態(tài)建模(片段級和幀級)。
- 唇部掩碼引導(dǎo)的局部細(xì)化。
- 交叉注意力機制:替代參考網(wǎng)絡(luò),通過面部聚焦的交叉注意力模塊保持身份一致性。
- 運動強度調(diào)制:通過額外條件輸入控制表情和身體動作的強度。
達(dá)到的效果
- 更高真實性與連貫性:
- 生成動態(tài)肖像的面部表情、唇部運動和身體動作更自然,背景和上下文對象動態(tài)協(xié)調(diào)。
- 精確的音頻同步:
- 幀級唇部細(xì)化確保唇動與音頻信號高度同步。
- 身份保持與動態(tài)靈活性的平衡:
- 交叉注意力模塊在保持面部一致性的同時,允許全身靈活運動。
- 可控運動強度:
- 用戶可調(diào)節(jié)表情和身體動作的強度,超越傳統(tǒng)僅唇部運動的限制。
- 實驗驗證:
- 在質(zhì)量、真實性、連貫性、運動強度和身份保持方面優(yōu)于現(xiàn)有方法。
方法
給定單張參考圖像、驅(qū)動音頻和提示文本,F(xiàn)antasyTalking 被設(shè)計用于生成與音頻同步的視頻,同時確保人物在動作過程中的身份特征得以保持。圖2展示了FantasyTalking的總體框架。研究了雙階段方法以在注入音頻信號時保持視聽對齊。采用身份學(xué)習(xí)方法保持視頻中的身份特征,并通過運動網(wǎng)絡(luò)控制表情和運動強度。
雙階段視聽對齊
傳統(tǒng)的說話頭視頻生成通常關(guān)注唇部運動的幀級對齊。然而,自然說話頭生成不僅需要關(guān)注與音頻直接相關(guān)的唇部運動,還需關(guān)注與音頻特征弱相關(guān)的其他面部組件和身體部位的運動(如眉毛、眼睛和肩膀)。這些運動并不與音頻嚴(yán)格時間對齊。為此,我們提出雙階段視聽對齊方法:在第一訓(xùn)練階段學(xué)習(xí)片段級與音頻相關(guān)的視覺特征;在第二訓(xùn)練階段專注于幀級與音頻高度相關(guān)的視覺特征。
片段級訓(xùn)練。如圖3(a)所示,第一階段在片段級別計算全長視聽token序列的3D全注意力相關(guān)性,建立全局視聽依賴關(guān)系并實現(xiàn)整體特征融合。雖然該階段能聯(lián)合學(xué)習(xí)弱音頻相關(guān)的非語言線索(如眉毛運動、肩膀動作)和強音頻同步的唇部動態(tài),但模型難以學(xué)習(xí)精確的唇部運動。這是因為唇部僅占據(jù)整個視場的小部分,而視頻序列在每幀中都與音頻高度相關(guān)。
身份保持
雖然音頻條件能有效建立聲學(xué)輸入與角色動作間的關(guān)聯(lián),但長時間視頻序列和劇烈運動常導(dǎo)致合成結(jié)果中身份特征快速退化?,F(xiàn)有方法通常采用從主干模型初始化的參考網(wǎng)絡(luò)來保持身份特征,但這些方法存在兩個關(guān)鍵缺陷:首先,參考網(wǎng)絡(luò)處理全幀圖像而非面部感興趣區(qū)域,導(dǎo)致模型偏向生成靜態(tài)背景和表現(xiàn)力受限的運動;其次,參考網(wǎng)絡(luò)通常采用與主干模型相似的結(jié)構(gòu),造成特征表示能力高度冗余,并增加模型計算負(fù)載和復(fù)雜度。
運動強度調(diào)制網(wǎng)絡(luò)
個體的說話風(fēng)格在面部表情和身體運動幅度上表現(xiàn)出顯著差異,這些差異無法僅通過音頻和身份條件進(jìn)行顯式控制。特別是在自然說話頭場景中,與拘束說話頭場景相比,角色的表情和身體運動更加多樣且動態(tài)。因此,引入了一個運動強度調(diào)制網(wǎng)絡(luò)來調(diào)控這些動態(tài)特征。
本文利用Mediapipe提取面部關(guān)鍵點序列的方差,記為面部表情運動系數(shù)ω,并使用DWPose計算身體關(guān)節(jié)序列的方差,記為身體運動系數(shù)ω。ω和ω都被歸一化到[0,1]的范圍,分別代表面部表情和身體運動的強度。
如下圖2所示,運動強度調(diào)制網(wǎng)絡(luò)由MLP層、ResNet層和平均池化層組成。得到的運動嵌入會與時間步相加。在推理階段,允許用戶自定義輸入系數(shù)ω_l和ω_b來控制面部和身體運動的幅度。
實驗
實驗設(shè)置
實現(xiàn)細(xì)節(jié): 本文采用Wan2.1-I2V-14B作為基礎(chǔ)模型。在片段級訓(xùn)練階段,訓(xùn)練約80,000步;在幀級訓(xùn)練階段,訓(xùn)練約20,000步。在所有訓(xùn)練階段,身份網(wǎng)絡(luò)和運動網(wǎng)絡(luò)都參與端到端訓(xùn)練。使用Flow Matching來訓(xùn)練模型,整個訓(xùn)練在64塊A100 GPU上進(jìn)行。學(xué)習(xí)率設(shè)置為1e-4。設(shè)為1,設(shè)為0.5,η設(shè)為0.2。為增強視頻生成的多樣性,參考圖像、引導(dǎo)音頻和提示文本各自以0.1的概率被獨立丟棄。在推理階段,采用30個采樣步數(shù),運動強度參數(shù)ω和ω設(shè)為中性值0.5,音頻的CFG設(shè)為4.5。
數(shù)據(jù)集:本文使用的訓(xùn)練數(shù)據(jù)集由三部分組成:Hallo3、Celebv-HQ以及從互聯(lián)網(wǎng)收集的數(shù)據(jù)。本文使用InsightFace排除面部置信度得分低于0.9的視頻,并移除語音和嘴部運動不同步的片段。這一篩選過程最終得到約150,000個片段。本文使用HDTF中的50個片段來評估拘束說話頭生成。此外,還在包含80個不同個體的自然說話數(shù)據(jù)集上評估我們的模型。
評估指標(biāo)與基線: 本文采用八個指標(biāo)進(jìn)行評估。Frechet Inception Distance(FID)和Fréchet Video Distance(FVD)用于評估生成數(shù)據(jù)的質(zhì)量。Sync-C和Sync-D用于測量音頻和唇部運動之間的同步性。Expression Similarity(ES)方法提取視頻幀之間的面部特征,并通過計算這些特征之間的相似度來評估身份特征的保持情況。Identity Consistency(IDC)通過提取面部區(qū)域并計算幀間的DINO相似度度量來衡量角色身份特征的一致性。本文使用SAM將幀分割為前景和背景,并分別測量前景和背景的光流得分來評估主體動態(tài)(SD)和背景動態(tài)(BD)。使用LAION審美預(yù)測器評估視頻的藝術(shù)和審美價值。
本文選擇了幾種最先進(jìn)的方法來評估本文的方法,這些方法都有公開可用的代碼或?qū)崿F(xiàn)。這些方法包括基于UNet的Aniportrait、EchoMimic和Sonic,以及基于DiT的Hallo3。為公平比較,本文的方法在推理時將提示設(shè)為空。
結(jié)果與分析
拘束數(shù)據(jù)集對比實驗: 拘束說話頭數(shù)據(jù)集的背景和角色姿態(tài)變化有限,主要關(guān)注唇部同步和面部表情準(zhǔn)確性。下表1和圖4展示了評估結(jié)果。本方法在FID、FVD、IDC、ES和美學(xué)評分上均取得最優(yōu)成績,這主要歸功于模型能生成最具表現(xiàn)力的自然面部表情,從而產(chǎn)生最高質(zhì)量的視覺效果。在Sync-C和Sync-D指標(biāo)上,本方法取得第一或第二的成績,表明DAVA方法使模型能準(zhǔn)確學(xué)習(xí)音頻同步特征。
自然數(shù)據(jù)集對比實驗: 上表1和下圖5展示了包含顯著前景/背景變化的自然說話頭數(shù)據(jù)集評估結(jié)果?,F(xiàn)有方法過度依賴參考圖像,限制了生成的面部表情、頭部運動和背景動態(tài)的自然度。相比之下,本方法在所有指標(biāo)上均取得最優(yōu)結(jié)果,其輸出具有更自然的前后景變化、更好的唇部同步和更高的視頻質(zhì)量。這主要得益于:1)DAVA方法強化了音頻理解能力;2)面向面部特征的身份保持方法。這些技術(shù)使模型在保持角色身份特征的同時,能生成更復(fù)雜的自然頭部和背景運動。
可視化效果與Hallo3對比: 下圖7展示了與基于DiT的Hallo3方法的可視化對比。Hallo3的輸出存在明顯缺陷:上圖出現(xiàn)面部/唇部畸變和虛假背景運動,下圖則呈現(xiàn)僵硬的頭部運動。相比之下,本方法生成的表情、頭部運動和背景動態(tài)都更加真實自然,這得益于:1)面部知識學(xué)習(xí)增強身份特征;2)DAVA方法強化唇部同步學(xué)習(xí)。
用戶調(diào)研: 本文在自然說話頭數(shù)據(jù)集上進(jìn)行了包含24名參與者的主觀評估,從唇部同步(LS)、視頻質(zhì)量(VQ)、身份保持(IP)和運動多樣性(MD)四個維度進(jìn)行0-10分評分。如下表3所示,F(xiàn)antasyTalking在所有評估維度上均超越基線方法,尤其在運動多樣性方面提升顯著。這驗證了本方法在生成真實多樣說話頭動畫的同時,能保持身份一致性和視覺保真度的優(yōu)勢。
消融實驗與討論
DAVA方法消融實驗: 為驗證DAVA方法的有效性,我們分別測試了僅使用片段級對齊和僅使用幀級對齊的訓(xùn)練方案。下表4和圖8顯示:僅采用片段級對齊會導(dǎo)致Sync-C指標(biāo)顯著下降,表明其無法學(xué)習(xí)精確的唇音對應(yīng)關(guān)系;而僅使用幀級對齊雖具備強唇同步能力,但會限制表情和主體運動的動態(tài)性。相比之下,DAVA方法通過結(jié)合兩級對齊的優(yōu)勢,在實現(xiàn)精確唇音同步的同時,增強了角色動畫和背景動態(tài)的生動性。
身份保持模塊消融實驗: 上表4結(jié)果表明身份保持模塊的重要性。移除該模塊會導(dǎo)致IDC指標(biāo)顯著降低,表明模型保持角色身份特征的能力大幅減弱。如下圖9所示,缺乏身份保持會導(dǎo)致面部特征出現(xiàn)偽影和畸變。我們提出的面部聚焦身份保持方法,在保持唇部同步和豐富運動能力的同時,顯著提升了身份特征的一致性,從而改善視頻整體質(zhì)量。
局限性與未來工作: 盡管本方法在自然說話頭視頻生成方面取得顯著進(jìn)展,但擴散模型推理所需的迭代采樣過程導(dǎo)致整體運行速度較慢。研究加速策略將有助于其在直播、實時交互等場景的應(yīng)用。此外,基于音頻驅(qū)動說話頭生成技術(shù)探索具有實時反饋的交互式肖像對話解決方案,可拓展數(shù)字人avatar在現(xiàn)實場景中的應(yīng)用廣度。
結(jié)論
本文提出了FantasyTalking,一種新穎的音頻驅(qū)動肖像動畫技術(shù)。通過采用雙階段視聽對齊訓(xùn)練流程,本文的方法有效捕捉了音頻信號與唇部運動、面部表情以及身體動作之間的關(guān)聯(lián)關(guān)系。為增強生成視頻中的身份一致性,提出了一種面部聚焦的身份保持方法以精準(zhǔn)保留面部特征。此外,通過運動網(wǎng)絡(luò)控制表情和身體運動的幅度,確保生成動畫的自然性與多樣性。定性與定量實驗表明,F(xiàn)antasyTalking在視頻質(zhì)量、運動多樣性和身份一致性等關(guān)鍵指標(biāo)上均優(yōu)于現(xiàn)有SOTA方法。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
