自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!

發(fā)布于 2025-4-11 10:21
瀏覽
0收藏

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.04842 
開源地址:https://fantasy-amap.github.io/fantasy-talking/

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

亮點直擊

  • 設(shè)計了一種雙階段視聽對齊訓(xùn)練策略,以適配預(yù)訓(xùn)練的視頻生成模型:首先在片段級別建立與輸入音頻對應(yīng)的、包含背景和上下文對象(而不僅限于肖像本身)的連貫全局運動,隨后構(gòu)建精確對齊的唇部運動以進(jìn)一步提升生成視頻的質(zhì)量。
  • 摒棄了傳統(tǒng)的參考網(wǎng)絡(luò)用于身份保持的方法,轉(zhuǎn)而設(shè)計了一個專注于面部的交叉注意力模塊,該模塊集中建模面部區(qū)域,并以一致的身份指導(dǎo)視頻生成,從而簡化流程。
  • 引入了運動強度調(diào)制模塊,顯式控制面部表情和身體運動的強度,從而實現(xiàn)對肖像運動的可控操縱,而不僅限于唇部運動。
  • 大量實驗表明,FantasyTalking在視頻質(zhì)量、時間一致性和運動多樣性方面達(dá)到了新SOTA。

總結(jié)速覽

解決的問題

  • 靜態(tài)肖像動畫化的挑戰(zhàn):從單張靜態(tài)肖像生成可動畫化的虛擬形象,難以捕捉細(xì)微的面部表情、全身動作和動態(tài)背景。
  • 現(xiàn)有方法的不足
  • 依賴3D中間表示(如3DMM、FLAME)的方法難以準(zhǔn)確捕捉細(xì)微表情和真實動作。
  • 基于擴散模型的方法生成的內(nèi)容真實性不足,通常僅關(guān)注唇部運動,忽略面部表情和身體動作的協(xié)調(diào)性。
  • 背景和上下文對象通常是靜態(tài)的,導(dǎo)致場景不夠自然。
  • 身份保持與動態(tài)靈活性的矛盾:現(xiàn)有方法在保持身份一致性和動態(tài)靈活性之間存在權(quán)衡問題。

提出的方案

  • 雙階段音頻-視覺對齊策略
  • 第一階段(片段級訓(xùn)練):利用視頻擴散Transformer模型的時空建模能力,建立音頻與全局視覺動態(tài)(包括肖像、背景和上下文對象)的隱式關(guān)聯(lián),實現(xiàn)整體場景運動的連貫性。
  • 第二階段(幀級細(xì)化):通過唇部追蹤掩碼和音頻映射的視覺token注意力機制,精確對齊唇部運動與音頻信號。
  • 身份保持優(yōu)化
  • 摒棄傳統(tǒng)的參考網(wǎng)絡(luò)(易限制動態(tài)效果),改用專注于面部建模的交叉注意力模塊,確保視頻中身份一致性。
  • 運動強度控制模塊
  • 顯式解耦角色表情和身體動作,通過強度調(diào)節(jié)實現(xiàn)動態(tài)肖像的可控生成(如增強表情或身體動作幅度)。

應(yīng)用的技術(shù)

  • 基于DiT的視頻擴散模型:利用預(yù)訓(xùn)練的視頻擴散Transformer(DiT)生成高保真、連貫的動態(tài)肖像。
  • 多模態(tài)對齊框架
  • 音頻驅(qū)動動態(tài)建模(片段級和幀級)。
  • 唇部掩碼引導(dǎo)的局部細(xì)化。
  • 交叉注意力機制:替代參考網(wǎng)絡(luò),通過面部聚焦的交叉注意力模塊保持身份一致性。
  • 運動強度調(diào)制:通過額外條件輸入控制表情和身體動作的強度。

達(dá)到的效果

  • 更高真實性與連貫性
  • 生成動態(tài)肖像的面部表情、唇部運動和身體動作更自然,背景和上下文對象動態(tài)協(xié)調(diào)。
  • 精確的音頻同步
  • 幀級唇部細(xì)化確保唇動與音頻信號高度同步。
  • 身份保持與動態(tài)靈活性的平衡
  • 交叉注意力模塊在保持面部一致性的同時,允許全身靈活運動。
  • 可控運動強度
  • 用戶可調(diào)節(jié)表情和身體動作的強度,超越傳統(tǒng)僅唇部運動的限制。
  • 實驗驗證
  • 在質(zhì)量、真實性、連貫性、運動強度和身份保持方面優(yōu)于現(xiàn)有方法。

方法

給定單張參考圖像、驅(qū)動音頻和提示文本,F(xiàn)antasyTalking 被設(shè)計用于生成與音頻同步的視頻,同時確保人物在動作過程中的身份特征得以保持。圖2展示了FantasyTalking的總體框架。研究了雙階段方法以在注入音頻信號時保持視聽對齊。采用身份學(xué)習(xí)方法保持視頻中的身份特征,并通過運動網(wǎng)絡(luò)控制表情和運動強度。

雙階段視聽對齊

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

傳統(tǒng)的說話頭視頻生成通常關(guān)注唇部運動的幀級對齊。然而,自然說話頭生成不僅需要關(guān)注與音頻直接相關(guān)的唇部運動,還需關(guān)注與音頻特征弱相關(guān)的其他面部組件和身體部位的運動(如眉毛、眼睛和肩膀)。這些運動并不與音頻嚴(yán)格時間對齊。為此,我們提出雙階段視聽對齊方法:在第一訓(xùn)練階段學(xué)習(xí)片段級與音頻相關(guān)的視覺特征;在第二訓(xùn)練階段專注于幀級與音頻高度相關(guān)的視覺特征。


片段級訓(xùn)練。如圖3(a)所示,第一階段在片段級別計算全長視聽token序列的3D全注意力相關(guān)性,建立全局視聽依賴關(guān)系并實現(xiàn)整體特征融合。雖然該階段能聯(lián)合學(xué)習(xí)弱音頻相關(guān)的非語言線索(如眉毛運動、肩膀動作)和強音頻同步的唇部動態(tài),但模型難以學(xué)習(xí)精確的唇部運動。這是因為唇部僅占據(jù)整個視場的小部分,而視頻序列在每幀中都與音頻高度相關(guān)。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

身份保持

雖然音頻條件能有效建立聲學(xué)輸入與角色動作間的關(guān)聯(lián),但長時間視頻序列和劇烈運動常導(dǎo)致合成結(jié)果中身份特征快速退化?,F(xiàn)有方法通常采用從主干模型初始化的參考網(wǎng)絡(luò)來保持身份特征,但這些方法存在兩個關(guān)鍵缺陷:首先,參考網(wǎng)絡(luò)處理全幀圖像而非面部感興趣區(qū)域,導(dǎo)致模型偏向生成靜態(tài)背景和表現(xiàn)力受限的運動;其次,參考網(wǎng)絡(luò)通常采用與主干模型相似的結(jié)構(gòu),造成特征表示能力高度冗余,并增加模型計算負(fù)載和復(fù)雜度。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

運動強度調(diào)制網(wǎng)絡(luò)

個體的說話風(fēng)格在面部表情和身體運動幅度上表現(xiàn)出顯著差異,這些差異無法僅通過音頻和身份條件進(jìn)行顯式控制。特別是在自然說話頭場景中,與拘束說話頭場景相比,角色的表情和身體運動更加多樣且動態(tài)。因此,引入了一個運動強度調(diào)制網(wǎng)絡(luò)來調(diào)控這些動態(tài)特征。


本文利用Mediapipe提取面部關(guān)鍵點序列的方差,記為面部表情運動系數(shù)ω,并使用DWPose計算身體關(guān)節(jié)序列的方差,記為身體運動系數(shù)ω。ω和ω都被歸一化到[0,1]的范圍,分別代表面部表情和身體運動的強度。


如下圖2所示,運動強度調(diào)制網(wǎng)絡(luò)由MLP層、ResNet層和平均池化層組成。得到的運動嵌入會與時間步相加。在推理階段,允許用戶自定義輸入系數(shù)ω_l和ω_b來控制面部和身體運動的幅度。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

實驗

實驗設(shè)置

實現(xiàn)細(xì)節(jié): 本文采用Wan2.1-I2V-14B作為基礎(chǔ)模型。在片段級訓(xùn)練階段,訓(xùn)練約80,000步;在幀級訓(xùn)練階段,訓(xùn)練約20,000步。在所有訓(xùn)練階段,身份網(wǎng)絡(luò)和運動網(wǎng)絡(luò)都參與端到端訓(xùn)練。使用Flow Matching來訓(xùn)練模型,整個訓(xùn)練在64塊A100 GPU上進(jìn)行。學(xué)習(xí)率設(shè)置為1e-4。設(shè)為1,設(shè)為0.5,η設(shè)為0.2。為增強視頻生成的多樣性,參考圖像、引導(dǎo)音頻和提示文本各自以0.1的概率被獨立丟棄。在推理階段,采用30個采樣步數(shù),運動強度參數(shù)ω和ω設(shè)為中性值0.5,音頻的CFG設(shè)為4.5。


數(shù)據(jù)集:本文使用的訓(xùn)練數(shù)據(jù)集由三部分組成:Hallo3、Celebv-HQ以及從互聯(lián)網(wǎng)收集的數(shù)據(jù)。本文使用InsightFace排除面部置信度得分低于0.9的視頻,并移除語音和嘴部運動不同步的片段。這一篩選過程最終得到約150,000個片段。本文使用HDTF中的50個片段來評估拘束說話頭生成。此外,還在包含80個不同個體的自然說話數(shù)據(jù)集上評估我們的模型。


評估指標(biāo)與基線: 本文采用八個指標(biāo)進(jìn)行評估。Frechet Inception Distance(FID)和Fréchet Video Distance(FVD)用于評估生成數(shù)據(jù)的質(zhì)量。Sync-C和Sync-D用于測量音頻和唇部運動之間的同步性。Expression Similarity(ES)方法提取視頻幀之間的面部特征,并通過計算這些特征之間的相似度來評估身份特征的保持情況。Identity Consistency(IDC)通過提取面部區(qū)域并計算幀間的DINO相似度度量來衡量角色身份特征的一致性。本文使用SAM將幀分割為前景和背景,并分別測量前景和背景的光流得分來評估主體動態(tài)(SD)和背景動態(tài)(BD)。使用LAION審美預(yù)測器評估視頻的藝術(shù)和審美價值。


本文選擇了幾種最先進(jìn)的方法來評估本文的方法,這些方法都有公開可用的代碼或?qū)崿F(xiàn)。這些方法包括基于UNet的Aniportrait、EchoMimic和Sonic,以及基于DiT的Hallo3。為公平比較,本文的方法在推理時將提示設(shè)為空。

結(jié)果與分析

拘束數(shù)據(jù)集對比實驗: 拘束說話頭數(shù)據(jù)集的背景和角色姿態(tài)變化有限,主要關(guān)注唇部同步和面部表情準(zhǔn)確性。下表1和圖4展示了評估結(jié)果。本方法在FID、FVD、IDC、ES和美學(xué)評分上均取得最優(yōu)成績,這主要歸功于模型能生成最具表現(xiàn)力的自然面部表情,從而產(chǎn)生最高質(zhì)量的視覺效果。在Sync-C和Sync-D指標(biāo)上,本方法取得第一或第二的成績,表明DAVA方法使模型能準(zhǔn)確學(xué)習(xí)音頻同步特征。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

自然數(shù)據(jù)集對比實驗: 上表1和下圖5展示了包含顯著前景/背景變化的自然說話頭數(shù)據(jù)集評估結(jié)果?,F(xiàn)有方法過度依賴參考圖像,限制了生成的面部表情、頭部運動和背景動態(tài)的自然度。相比之下,本方法在所有指標(biāo)上均取得最優(yōu)結(jié)果,其輸出具有更自然的前后景變化、更好的唇部同步和更高的視頻質(zhì)量。這主要得益于:1)DAVA方法強化了音頻理解能力;2)面向面部特征的身份保持方法。這些技術(shù)使模型在保持角色身份特征的同時,能生成更復(fù)雜的自然頭部和背景運動。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

可視化效果與Hallo3對比: 下圖7展示了與基于DiT的Hallo3方法的可視化對比。Hallo3的輸出存在明顯缺陷:上圖出現(xiàn)面部/唇部畸變和虛假背景運動,下圖則呈現(xiàn)僵硬的頭部運動。相比之下,本方法生成的表情、頭部運動和背景動態(tài)都更加真實自然,這得益于:1)面部知識學(xué)習(xí)增強身份特征;2)DAVA方法強化唇部同步學(xué)習(xí)。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

用戶調(diào)研: 本文在自然說話頭數(shù)據(jù)集上進(jìn)行了包含24名參與者的主觀評估,從唇部同步(LS)、視頻質(zhì)量(VQ)、身份保持(IP)和運動多樣性(MD)四個維度進(jìn)行0-10分評分。如下表3所示,F(xiàn)antasyTalking在所有評估維度上均超越基線方法,尤其在運動多樣性方面提升顯著。這驗證了本方法在生成真實多樣說話頭動畫的同時,能保持身份一致性和視覺保真度的優(yōu)勢。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

消融實驗與討論

DAVA方法消融實驗: 為驗證DAVA方法的有效性,我們分別測試了僅使用片段級對齊和僅使用幀級對齊的訓(xùn)練方案。下表4和圖8顯示:僅采用片段級對齊會導(dǎo)致Sync-C指標(biāo)顯著下降,表明其無法學(xué)習(xí)精確的唇音對應(yīng)關(guān)系;而僅使用幀級對齊雖具備強唇同步能力,但會限制表情和主體運動的動態(tài)性。相比之下,DAVA方法通過結(jié)合兩級對齊的優(yōu)勢,在實現(xiàn)精確唇音同步的同時,增強了角色動畫和背景動態(tài)的生動性。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

身份保持模塊消融實驗: 上表4結(jié)果表明身份保持模塊的重要性。移除該模塊會導(dǎo)致IDC指標(biāo)顯著降低,表明模型保持角色身份特征的能力大幅減弱。如下圖9所示,缺乏身份保持會導(dǎo)致面部特征出現(xiàn)偽影和畸變。我們提出的面部聚焦身份保持方法,在保持唇部同步和豐富運動能力的同時,顯著提升了身份特征的一致性,從而改善視頻整體質(zhì)量。

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

一張照片,開口說話!阿里等最新音視頻對齊技術(shù)FantasyTalking:打造超寫實可控數(shù)字人!-AI.x社區(qū)

局限性與未來工作: 盡管本方法在自然說話頭視頻生成方面取得顯著進(jìn)展,但擴散模型推理所需的迭代采樣過程導(dǎo)致整體運行速度較慢。研究加速策略將有助于其在直播、實時交互等場景的應(yīng)用。此外,基于音頻驅(qū)動說話頭生成技術(shù)探索具有實時反饋的交互式肖像對話解決方案,可拓展數(shù)字人avatar在現(xiàn)實場景中的應(yīng)用廣度。

結(jié)論

本文提出了FantasyTalking,一種新穎的音頻驅(qū)動肖像動畫技術(shù)。通過采用雙階段視聽對齊訓(xùn)練流程,本文的方法有效捕捉了音頻信號與唇部運動、面部表情以及身體動作之間的關(guān)聯(lián)關(guān)系。為增強生成視頻中的身份一致性,提出了一種面部聚焦的身份保持方法以精準(zhǔn)保留面部特征。此外,通過運動網(wǎng)絡(luò)控制表情和身體運動的幅度,確保生成動畫的自然性與多樣性。定性與定量實驗表明,F(xiàn)antasyTalking在視頻質(zhì)量、運動多樣性和身份一致性等關(guān)鍵指標(biāo)上均優(yōu)于現(xiàn)有SOTA方法。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/KAhddrJpvIsh_Wtpnbr0Zw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦