自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包 精華

發(fā)布于 2024-6-26 12:28
瀏覽
0收藏

日前,曠視科技發(fā)布了一項(xiàng)新的開源 AI 人像視頻生成框架 ——MegActor。基于該框架,用戶只需輸入一張靜態(tài)的肖像圖片,以及一段視頻(演講、表情包、rap)文件,即可生成一段表情豐富、動(dòng)作一致的 AI 人像視頻。MegActor 所生成的視頻長(zhǎng)度,取決于給定的驅(qū)動(dòng)視頻的長(zhǎng)度。與阿里 EMO、微軟 VASA 等最新涌現(xiàn)的 AI 視頻模型不同,曠視 MegActor 將采用開源的方式,提供給開發(fā)者社區(qū)使用。MegActor 能夠呈現(xiàn)出絲毫畢現(xiàn)的效果,面部細(xì)節(jié)更加豐富自然,畫質(zhì)更出色。

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

為了進(jìn)一步展示其泛化性,MegActor 甚至可以讓 VASA 里面的人物肖像和它們的視頻彼此組合生成,得到表情生動(dòng)的視頻生成結(jié)果。

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

即使是對(duì)比阿里 EMO 的官方 Case,MegActor 也能生成近似的結(jié)果。

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)

總的來說,不管是讓肖像開口說話,讓肖像進(jìn)行唱歌 Rap,還是讓肖像模仿各種搞怪的表情包,MegActor 都可以得到非常逼真的生成效果。


曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)


  • 論文:https://arxiv.org/abs/2405.20851
  • 代碼地址:https://github.com/megvii-research/megactor
  • 項(xiàng)目地址:https://megactor.github.io/

MegActor 是曠視研究院的最新研究成果。曠視研究院,是曠視打造的公司級(jí)研究機(jī)構(gòu)。曠視研究院旨在通過基礎(chǔ)創(chuàng)新突破 AI 技術(shù)邊界,以工程創(chuàng)新實(shí)現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。經(jīng)過多年發(fā)展,曠視研究院已成為全球規(guī)模領(lǐng)先的人工智能研究院。


在目前的人像視頻生成領(lǐng)域,許多工作通常使用高質(zhì)量的閉源自采數(shù)據(jù)進(jìn)行訓(xùn)練,以追求更好的效果。而曠視研究院始終堅(jiān)持全面開源,確保實(shí)際效果的可復(fù)現(xiàn)性。MegActor 的訓(xùn)練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集,配合開源代碼,使得感興趣的從業(yè)者可以從頭開始完整復(fù)現(xiàn)這些令人驚艷的效果。


為了完全復(fù)刻原始視頻的表情和動(dòng)作,MegActor 采用了原始圖像進(jìn)行驅(qū)動(dòng),這與多數(shù)廠商使用 sketch、pose、landmark 的中間表示皆然不同,能夠捕捉到細(xì)致的表情和運(yùn)動(dòng)信息。

曠視開源的AI人像視頻生成太炸了!輸入照片即可模仿任意表情包-AI.x社區(qū)


曠視科技研究總經(jīng)理范浩強(qiáng)表示,在 AI 視頻生成領(lǐng)域,我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點(diǎn)控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號(hào),同時(shí)生成視頻相較于原肖像的保真程度也不盡如人意。通過一系列研究發(fā)現(xiàn),使用原視頻進(jìn)行驅(qū)動(dòng),不僅將幫助用戶降低控制信號(hào)的門檻,更能生成更加保真且動(dòng)作一致的視頻。


具體來說,MegActor 主要由兩個(gè)階段構(gòu)成:


  • 使用了一個(gè) ReferenceNet 對(duì)參考圖像進(jìn)行特征提取,負(fù)責(zé)得到參考圖像的外觀和背景等信息;
  • 使用了一個(gè) PoseGuider,對(duì)輸入的視頻進(jìn)行運(yùn)動(dòng)和表情信息提取,負(fù)責(zé)將運(yùn)動(dòng)和表情信息遷移到參考圖像上。


盡管相較于使用音頻或 landmark 等表示方式,使用原始視頻進(jìn)行驅(qū)動(dòng)能帶來更加豐富的表情細(xì)節(jié)和運(yùn)動(dòng)信息。然而,使用原始視頻進(jìn)行驅(qū)動(dòng)依然存在兩大核心技術(shù)挑戰(zhàn):一是 ID 泄露問題;二是原始視頻中的背景和人物皺紋等無關(guān)信息會(huì)干擾影響合成表現(xiàn)。


為此,MegActor 開創(chuàng)性地采用了條件擴(kuò)散模型。首先,它引入了一個(gè)合成數(shù)據(jù)生成框架,用于創(chuàng)建具有一致動(dòng)作和表情但不一致身份 ID 的視頻,以減輕身份泄露的問題。其次,MegActor 分割了參考圖像的前景和背景,并使用 CLIP 對(duì)背景細(xì)節(jié)進(jìn)行編碼。這些編碼的信息隨后通過文本嵌入模塊集成到網(wǎng)絡(luò)中,從而確保了背景的穩(wěn)定性。


在數(shù)據(jù)訓(xùn)練方面,曠視研究院團(tuán)隊(duì)僅使用公開的數(shù)據(jù)集進(jìn)行訓(xùn)練,處理了 VFHQ 和 CeleV 數(shù)據(jù)集進(jìn)行訓(xùn)練,總時(shí)長(zhǎng)超過 700 小時(shí)。同時(shí),為了避免 ID 泄露問題,MegActor 還使用換臉和風(fēng)格化方法 1:1 生成合成數(shù)據(jù),實(shí)現(xiàn)表情和動(dòng)作一致、但 ID 不一致的數(shù)據(jù)。此外,為了提高對(duì)大范圍動(dòng)作和夸張表情的模仿能力,團(tuán)隊(duì)使用注視檢測(cè)模型對(duì)數(shù)據(jù)進(jìn)行處理,獲取大約 5% 的高質(zhì)量數(shù)據(jù)進(jìn)行 Finetune 訓(xùn)練。


通過采用一系列新的模型框架和訓(xùn)練方法,曠視研究院團(tuán)隊(duì)僅使用了不到 200 塊 V100 顯卡小時(shí)的訓(xùn)練時(shí)長(zhǎng),最終實(shí)現(xiàn)的具體特性包括:


  • 可以根據(jù)輸入的視頻生成任意持續(xù)時(shí)間的模仿視頻,同時(shí)保證角色身份的一致性
  • 支持各種驅(qū)動(dòng)視頻,如演講、唱歌、表情包等
  • 支持不同的畫風(fēng)(照片、傳統(tǒng)繪畫、漫畫、AI 數(shù)字人等)


與音頻生成的方法相比,MegActor 生成的視頻,不僅能確保表情和動(dòng)作一致,更能達(dá)到同樣的自然程度。


目前,MegActor 已經(jīng)完全開源,供廣大開發(fā)者和用戶即開即用。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/xRsi-jyigd8XuykNoA4h3Q??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦