開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型 精華
論文鏈接:https://arxiv.org/abs/2502.10841 項目鏈接:https://skyworkai.github.io/skyreels-a1.github.io/ Demo鏈接:https://www.skyreels.ai/ 開源地址:https://github.com/SkyworkAI/SkyReels-A1 、 https://github.com/SkyworkAI/SkyReels-V1
昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國首個SOTA級別基于視頻基座模型的表情動作可控算法SkyReels-A1。
亮點直擊
- 提出了SkyReels-A1,一種用于肖像動畫的全新框架,采用DiT(擴(kuò)散Transformer)架構(gòu),以提升運動傳遞精度、身份保留和時間一致性的保真度。該框架結(jié)合了基于表情標(biāo)志點的動態(tài)條件模塊,以及連接視覺-文本語義空間的跨模態(tài)對齊機制。
- 分階段的訓(xùn)練方法被設(shè)計用于逐步優(yōu)化運動-表情相關(guān)性以及主體特定特征的不變性。
- 通過一系列全面的實驗評估了SkyReels-A1的性能,結(jié)果表明其能夠生成高效的結(jié)果,并展現(xiàn)出對各種組合變化的無縫適應(yīng)性。最后,為了支持進(jìn)一步的研究和行業(yè)應(yīng)用,代碼和演示材料均已公開提供。
總結(jié)速覽
解決的問題
- 身份失真:現(xiàn)有方法在動畫生成過程中難以保持人物身份的穩(wěn)定性,導(dǎo)致身份信息泄露或扭曲。
- 背景不穩(wěn)定:動畫生成時背景容易出現(xiàn)抖動或不一致的現(xiàn)象。
- 面部表情不真實:特別是在僅頭部動畫的場景中,面部表情缺乏真實感。
- 全身動畫的挑戰(zhàn):當(dāng)動畫擴(kuò)展到全身時,現(xiàn)有方法容易產(chǎn)生視覺偽影或不自然的動作。
- 身份與運動融合的困難:現(xiàn)有方法難以在保持身份一致性的同時,實現(xiàn)細(xì)膩的表情和動作生成。
提出的方案
- 基于視頻擴(kuò)散Transformer(DiT)的框架:利用DiT的強大生成能力,提升面部運動傳遞的精度、身份保留和時間一致性。
- 表情感知條件模塊:通過表情引導(dǎo)的標(biāo)志點輸入驅(qū)動連續(xù)視頻生成,增強表情與動作的關(guān)聯(lián)性。
- 面部圖像-文本對齊模塊:深度融合面部特征與運動軌跡,強化身份一致性。
- 多階段訓(xùn)練策略:逐步優(yōu)化表情與運動的相關(guān)性,同時確保身份穩(wěn)定再現(xiàn)。
- 統(tǒng)一潛在空間建模:在單一潛在空間中聯(lián)合建模面部細(xì)節(jié)和全身動態(tài),解決身份漂移和背景不一致問題。
應(yīng)用的技術(shù)
- 視頻擴(kuò)散Transformer(DiT):利用其強大的生成能力和時間一致性建模能力。
- 表情感知標(biāo)志點序列:作為條件輸入,驅(qū)動細(xì)膩的表情生成。
- 圖像-文本對齊技術(shù):增強面部特征與運動軌跡的融合。
- 多階段訓(xùn)練范式:分階段優(yōu)化姿勢準(zhǔn)確性、身份穩(wěn)定性和運動真實性。
- 模塊化設(shè)計:便于集成到實時視頻編輯系統(tǒng)和個性化虛擬化身平臺。
達(dá)到的效果
- 高質(zhì)量動畫生成:生成高保真、富有表現(xiàn)力的肖像動畫,適應(yīng)多樣化的身體比例。
- 身份一致性:在動畫過程中保持人物身份的完整性,避免身份失真。
- 自然的表情與動作:實現(xiàn)細(xì)膩的面部表情和自然的全身動作,提升動畫的真實感。
- 廣泛的適用性:適用于虛擬化身、遠(yuǎn)程通信、數(shù)字媒體生成等多種應(yīng)用場景。
- 優(yōu)于現(xiàn)有方法:在定量評估和用戶研究中表現(xiàn)優(yōu)異,特別是在處理復(fù)雜解剖結(jié)構(gòu)和微表情方面。
- 模塊化與易集成性:便于集成到下游應(yīng)用中,如實時視頻編輯和個性化虛擬化身平臺。
方法
SkyReels-A1框架概述
給定輸入視頻序列和參考肖像圖像,從視頻中提取表情感知的面部標(biāo)志點,這些標(biāo)志點作為運動描述符,用于將表情傳遞到肖像上。本文的方法基于DiT(擴(kuò)散Transformer)的條件視頻生成框架,將這些表情感知的面部標(biāo)志點直接集成到輸入潛在空間中。與先前的研究一致,采用了在VAE(變分自編碼器)架構(gòu)中構(gòu)建的姿態(tài)引導(dǎo)機制。該組件將表情感知的面部標(biāo)志點編碼為DiT框架的條件輸入,從而使模型能夠捕捉關(guān)鍵的低維視覺屬性,同時保持面部特征的語義完整性。
表情感知關(guān)鍵點
本文為肖像動畫引入了一種類似的基于面部關(guān)鍵點的運動條件輸入。精準(zhǔn)的面部表情運動表征是實現(xiàn)富有表現(xiàn)力的肖像動畫的基礎(chǔ),它能夠捕捉人類情感和微表情的細(xì)微變化,從而顯著提升動畫頭像的真實感和情感共鳴。目前的擴(kuò)散模型方法主要在訓(xùn)練過程中使用 2D 面部關(guān)鍵點 作為運動表征,但這類方法存在關(guān)鍵限制:
- 2D 關(guān)鍵點的推理依賴性—— 由于推理階段仍然依賴 2D 關(guān)鍵點,目標(biāo)表情與參考肖像之間容易出現(xiàn)錯位,導(dǎo)致表情不匹配和身份泄漏偽影。
- 3D 關(guān)鍵點提取的精度不足—— 現(xiàn)有方法使用MediaPipe等第三方工具從視頻序列中提取 3D 關(guān)鍵點,但這些方法往往缺乏捕捉細(xì)粒度表情細(xì)節(jié)和復(fù)雜面部動態(tài)的精度,尤其是在非正面視角和極端表情情況下。
為了解決上述問題,本文提出了 3D Facial Expressions,一個集成神經(jīng)渲染模塊的框架,以提升重建面部表情的精度與真實感。不同于依賴可微分渲染(differentiable rendering)的傳統(tǒng)方法,我們用 神經(jīng)渲染機制 取代這一組件,使得模型能夠更高效地學(xué)習(xí),并具備更強的泛化能力,適應(yīng)多樣的面部表情。該架構(gòu)能夠提取 高精度 3D 關(guān)鍵點,以更高的保真度捕捉復(fù)雜的運動細(xì)節(jié)和面部動態(tài)。借助這一優(yōu)化的運動表征,本文的方法顯著增強了肖像動畫的真實感,同時確保 更精準(zhǔn)的表情匹配、身份一致性和多場景適應(yīng)性。
3D 關(guān)鍵點引導(dǎo)模塊
為了確保驅(qū)動信號與輸入視頻潛在表示(latent representations) 之間的時空一致性,我們提出 時空對齊關(guān)鍵點引導(dǎo)模塊(Spatio-temporal Alignment Landmark Guide Module)。該模塊的核心組件是 3D 因果編碼器(3D causal encoder),通過精細(xì)調(diào)優(yōu),該編碼器能夠更有效地捕捉驅(qū)動信號的運動表征,確保運動信號與輸入視頻潛在特征之間的精準(zhǔn)對齊。
該模塊通過 3D 因果編碼器 直接投影 驅(qū)動信號,使其與視頻潛在特征共享同一個潛在空間。這種共享表征 彌合了運動信號與生成視頻幀之間的鴻溝,確保時空動態(tài)的同步性。此外,進(jìn)一步的 精細(xì)調(diào)優(yōu) 強化了編碼器對復(fù)雜運動模式的捕捉能力,從而提升運動遷移的真實性和細(xì)節(jié)還原度。
這一方法不僅確保 精準(zhǔn)的運動對齊,還能在生成的視頻中保持 身份一致性和運動穩(wěn)定性,從而實現(xiàn)高質(zhì)量、時序穩(wěn)定的肖像動畫。
面部圖像-文本對齊
在現(xiàn)有的肖像動畫方法中,在改變面部表情的同時保持身份一致性仍然是一個亟待深入研究的挑戰(zhàn)。早期的方法主要通過 跨注意力機制(cross-attention) 和 身份保持適配器(identity-preserving adapters) 來增強身份一致性。然而,我們發(fā)現(xiàn)此類方法不僅 訓(xùn)練難度較大,還 引入了大量額外參數(shù),增加了計算開銷。
受CogVideoX架構(gòu)的啟發(fā),我們在表情生成過程中,通過在輸入階段拼接面部圖像和視頻的嵌入(embeddings)來提升身份一致性。這種方法不僅能夠增強身份保持能力,還可以無縫繼承預(yù)訓(xùn)練基礎(chǔ)模型的能力。
為此,本文引入了一個 輕量級的可學(xué)習(xí)映射模塊,該模塊采用 多層感知機(MLP)P,用于將面部特征映射到文本特征空間。
實驗
本節(jié)首先概述了實驗的實施細(xì)節(jié),包括數(shù)據(jù)來源、數(shù)據(jù)過濾過程、基線模型以及實驗中使用的基準(zhǔn)。然后展示了與選定基線模型的對比實驗結(jié)果,以驗證所提出模塊的有效性。
實驗設(shè)置
實施細(xì)節(jié):基于先進(jìn)的視頻擴(kuò)散Transformer模型CogVideoX-5B進(jìn)行訓(xùn)練,使用收集的數(shù)據(jù)集與公開數(shù)據(jù)集的組合。在多階段訓(xùn)練過程中,第一階段訓(xùn)練2K步,第二階段訓(xùn)練2K步,最后階段訓(xùn)練1K步,批量大小為512。前兩個階段的學(xué)習(xí)率設(shè)置為1e-5,最后階段降至1e-6,使用AdamW優(yōu)化器。實驗在32臺NVIDIA A800 GPU上進(jìn)行。在推理過程中,使用DDIM采樣器,并將無分類器引導(dǎo)的尺度設(shè)置為3。實驗中使用的靜態(tài)參考圖像由Flux生成,并來源于Pexels。
數(shù)據(jù)集來源:訓(xùn)練視頻片段來源于NeRSemble數(shù)據(jù)集、HDTF、DFEW、RAVDESS、Panda70M以及從互聯(lián)網(wǎng)上收集的約1W個角色視頻片段。
數(shù)據(jù)過濾:在數(shù)據(jù)預(yù)處理階段,實施了一系列細(xì)致的過濾步驟,以確保視頻-文本數(shù)據(jù)集的質(zhì)量和適用性。工作流程包括三個階段:單角色提取、運動過濾和后處理。首先,選擇單角色視頻,并使用現(xiàn)有工具清理視頻內(nèi)容,解決相機捕捉偽影和背景噪聲等問題。然后使用MediaPipe檢測的面部關(guān)鍵點提取頭部姿態(tài)信息和嘴部標(biāo)志點。通過計算頭部角度和嘴部變化,篩選出具有顯著面部表情和頭部運動的樣本。最后,基于前幾步檢測到的面部位置,我們將視頻裁剪或填充至固定分辨率480×720,以滿足模型的輸入要求。從每個視頻中隨機選擇一幀,并使用clip編碼器將面部編碼為嵌入向量,為模型提供必要的面部特征信息。
基線模型:為了全面評估SkyReels-A1在不同場景下的性能,將其與多個肖像動畫基線模型進(jìn)行比較,包括開源解決方案LivePortrait、Follow-Your-Emoji以及閉源商業(yè)產(chǎn)品Runway Act One。
評估指標(biāo)
為了衡量肖像動畫結(jié)果的泛化質(zhì)量和運動準(zhǔn)確性,本文采用了三個指標(biāo)分別評估身份相似性、圖像質(zhì)量以及表情和頭部姿態(tài)的準(zhǔn)確性。具體來說:
- 身份保留:使用FaceSim-Arc和FaceSim-Cur分?jǐn)?shù),計算源圖像與生成圖像之間的余弦相似度。
- 圖像質(zhì)量:使用預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)合FID(Fréchet Inception Distance)進(jìn)行評估。
- 運動準(zhǔn)確性:通過比較驅(qū)動幀和生成幀之間提取的面部混合形狀(blendshapes)和頭部姿態(tài)的L1差異,使用FaceAnalysis3和OpenPose4工具進(jìn)行評估。
與基線模型的比較
定量結(jié)果:本文進(jìn)行了跨身份運動傳遞的實驗,其中參考肖像從100張野外圖像中隨機選擇,驅(qū)動序列則來自我們的測試數(shù)據(jù)集。下表1展示了定量評估結(jié)果。本文提出的模型在生成保真度和運動精度方面均優(yōu)于基于擴(kuò)散和非擴(kuò)散的方法。通過引入視頻擴(kuò)散Transformer作為先驗,SkyReels-A1在圖像質(zhì)量上取得了顯著提升,超越了現(xiàn)有方法(閉源商業(yè)模型Act-One除外)。
定性結(jié)果:下圖4展示了肖像動畫的定性比較,補充了自動化評估指標(biāo)的結(jié)果。前兩個示例突出了模型在驅(qū)動或源肖像存在顯著姿態(tài)變化時仍能準(zhǔn)確傳遞運動的魯棒性。第三和第四個案例中,模型有效地捕捉并傳遞了細(xì)膩的面部表情(如嘴唇運動和眼神),同時保持了原始肖像的視覺一致性。此外,最后一個案例表明,通過集成拼接技術(shù),模型在動畫全身圖像時表現(xiàn)出更高的穩(wěn)定性,即使參考肖像的面部區(qū)域較小。
用戶研究
為了進(jìn)一步驗證SkyReels-A1模型在運動準(zhǔn)確性和表現(xiàn)力方面的優(yōu)越性,進(jìn)行了用戶研究,招募了來自不同地理區(qū)域的20名參與者對合成視頻進(jìn)行評估。每位參與者回答了一系列比較問題,評估兩個關(guān)鍵方面:運動準(zhǔn)確性和人類相似性。評估過程中明確告知模型名稱,參與者被要求選擇最能準(zhǔn)確復(fù)制驅(qū)動序列表情和運動的視頻。在收集的100份反饋中,63%的參與者更傾向于選擇SkyReels-A1,證實了其在保留面部表情和姿態(tài)保真度方面的增強能力優(yōu)于現(xiàn)有基線模型。
使用
clone代碼&準(zhǔn)備環(huán)境:
git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1
# create env using conda
conda create -n skyreels-a1 pythnotallow=3.10
conda activate skyreels-a1
下載依賴:
pip install -r requirements.txt
下載預(yù)訓(xùn)練weights
# !pip install -U "huggingface_hub[cli]"
huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"
推理
執(zhí)行腳本
python inference.py
如果腳本運行成功,可以得到一個輸出 mp4 文件。該文件包含以下結(jié)果:視頻、輸入圖像或視頻以及生成的結(jié)果。
結(jié)論
本研究提出了 SkyReels-A1,一種基于視頻擴(kuò)散Transformer的創(chuàng)新肖像動畫框架。通過融合運動與身份表征,本文的方法在細(xì)微和夸張的面部表情生成方面均實現(xiàn)了高保真度。通過廣泛的自動評估和用戶評測,我們驗證了模型在不同定制場景下的魯棒性和適應(yīng)性。我們期待這些具有前景的結(jié)果能夠推動肖像動畫應(yīng)用的發(fā)展。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
