自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="4ylxj"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包精華

輕薄滴假象

發(fā)布于 2024-6-26 12:28

瀏覽

0收藏

日前，曠視科技發(fā)布了一項(xiàng)新的開源 AI 人像視頻生成框架 ——MegActor。基于該框架，用戶只需輸入一張靜態(tài)的肖像圖片，以及一段視頻（演講、表情包、rap）文件，即可生成一段表情豐富、動(dòng)作一致的 AI 人像視頻。MegActor 所生成的視頻長(zhǎng)度，取決于給定的驅(qū)動(dòng)視頻的長(zhǎng)度。與阿里 EMO、微軟 VASA 等最新涌現(xiàn)的 AI 視頻模型不同，曠視 MegActor 將采用開源的方式，提供給開發(fā)者社區(qū)使用。MegActor 能夠呈現(xiàn)出絲毫畢現(xiàn)的效果，面部細(xì)節(jié)更加豐富自然，畫質(zhì)更出色。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

為了進(jìn)一步展示其泛化性，MegActor 甚至可以讓 VASA 里面的人物肖像和它們的視頻彼此組合生成，得到表情生動(dòng)的視頻生成結(jié)果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

即使是對(duì)比阿里 EMO 的官方 Case，MegActor 也能生成近似的結(jié)果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

總的來說，不管是讓肖像開口說話，讓肖像進(jìn)行唱歌 Rap，還是讓肖像模仿各種搞怪的表情包，MegActor 都可以得到非常逼真的生成效果。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

論文：https://arxiv.org/abs/2405.20851
代碼地址：https://github.com/megvii-research/megactor
項(xiàng)目地址：https://megactor.github.io/

MegActor 是曠視研究院的最新研究成果。曠視研究院，是曠視打造的公司級(jí)研究機(jī)構(gòu)。曠視研究院旨在通過基礎(chǔ)創(chuàng)新突破 AI 技術(shù)邊界，以工程創(chuàng)新實(shí)現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。經(jīng)過多年發(fā)展，曠視研究院已成為全球規(guī)模領(lǐng)先的人工智能研究院。

在目前的人像視頻生成領(lǐng)域，許多工作通常使用高質(zhì)量的閉源自采數(shù)據(jù)進(jìn)行訓(xùn)練，以追求更好的效果。而曠視研究院始終堅(jiān)持全面開源，確保實(shí)際效果的可復(fù)現(xiàn)性。MegActor 的訓(xùn)練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集，配合開源代碼，使得感興趣的從業(yè)者可以從頭開始完整復(fù)現(xiàn)這些令人驚艷的效果。

為了完全復(fù)刻原始視頻的表情和動(dòng)作，MegActor 采用了原始圖像進(jìn)行驅(qū)動(dòng)，這與多數(shù)廠商使用 sketch、pose、landmark 的中間表示皆然不同，能夠捕捉到細(xì)致的表情和運(yùn)動(dòng)信息。

曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包-AI.x社區(qū)

曠視科技研究總經(jīng)理范浩強(qiáng)表示，在 AI 視頻生成領(lǐng)域，我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點(diǎn)控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號(hào)，同時(shí)生成視頻相較于原肖像的保真程度也不盡如人意。通過一系列研究發(fā)現(xiàn)，使用原視頻進(jìn)行驅(qū)動(dòng)，不僅將幫助用戶降低控制信號(hào)的門檻，更能生成更加保真且動(dòng)作一致的視頻。

具體來說，MegActor 主要由兩個(gè)階段構(gòu)成：

使用了一個(gè) ReferenceNet 對(duì)參考圖像進(jìn)行特征提取，負(fù)責(zé)得到參考圖像的外觀和背景等信息；
使用了一個(gè) PoseGuider，對(duì)輸入的視頻進(jìn)行運(yùn)動(dòng)和表情信息提取，負(fù)責(zé)將運(yùn)動(dòng)和表情信息遷移到參考圖像上。

盡管相較于使用音頻或 landmark 等表示方式，使用原始視頻進(jìn)行驅(qū)動(dòng)能帶來更加豐富的表情細(xì)節(jié)和運(yùn)動(dòng)信息。然而，使用原始視頻進(jìn)行驅(qū)動(dòng)依然存在兩大核心技術(shù)挑戰(zhàn)：一是 ID 泄露問題；二是原始視頻中的背景和人物皺紋等無關(guān)信息會(huì)干擾影響合成表現(xiàn)。

為此，MegActor 開創(chuàng)性地采用了條件擴(kuò)散模型。首先，它引入了一個(gè)合成數(shù)據(jù)生成框架，用于創(chuàng)建具有一致動(dòng)作和表情但不一致身份 ID 的視頻，以減輕身份泄露的問題。其次，MegActor 分割了參考圖像的前景和背景，并使用 CLIP 對(duì)背景細(xì)節(jié)進(jìn)行編碼。這些編碼的信息隨后通過文本嵌入模塊集成到網(wǎng)絡(luò)中，從而確保了背景的穩(wěn)定性。

在數(shù)據(jù)訓(xùn)練方面，曠視研究院團(tuán)隊(duì)僅使用公開的數(shù)據(jù)集進(jìn)行訓(xùn)練，處理了 VFHQ 和 CeleV 數(shù)據(jù)集進(jìn)行訓(xùn)練，總時(shí)長(zhǎng)超過 700 小時(shí)。同時(shí)，為了避免 ID 泄露問題，MegActor 還使用換臉和風(fēng)格化方法 1:1 生成合成數(shù)據(jù)，實(shí)現(xiàn)表情和動(dòng)作一致、但 ID 不一致的數(shù)據(jù)。此外，為了提高對(duì)大范圍動(dòng)作和夸張表情的模仿能力，團(tuán)隊(duì)使用注視檢測(cè)模型對(duì)數(shù)據(jù)進(jìn)行處理，獲取大約 5% 的高質(zhì)量數(shù)據(jù)進(jìn)行 Finetune 訓(xùn)練。

通過采用一系列新的模型框架和訓(xùn)練方法，曠視研究院團(tuán)隊(duì)僅使用了不到 200 塊 V100 顯卡小時(shí)的訓(xùn)練時(shí)長(zhǎng)，最終實(shí)現(xiàn)的具體特性包括：

可以根據(jù)輸入的視頻生成任意持續(xù)時(shí)間的模仿視頻，同時(shí)保證角色身份的一致性
支持各種驅(qū)動(dòng)視頻，如演講、唱歌、表情包等
支持不同的畫風(fēng)（照片、傳統(tǒng)繪畫、漫畫、AI 數(shù)字人等）

與音頻生成的方法相比，MegActor 生成的視頻，不僅能確保表情和動(dòng)作一致，更能達(dá)到同樣的自然程度。

目前，MegActor 已經(jīng)完全開源，供廣大開發(fā)者和用戶即開即用。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/xRsi-jyigd8XuykNoA4h3Q??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3173瀏覽 ? 0回復(fù)
一張照片+音頻即可生成數(shù)字人

duhorse ? 2138瀏覽 ? 0回復(fù)
人物照片+文字 = 定制化視頻，騰訊光子開源ID-Animator

輕薄滴假象 ? 3083瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成

Syrupup ? 3840瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2910瀏覽 ? 0回復(fù)
北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場(chǎng)景編輯新范式！

angel ? 2337瀏覽 ? 0回復(fù)
視頻生成要有自己的系統(tǒng)！尤洋團(tuán)隊(duì)歷時(shí)半年開源VideoSys

輕薄滴假象 ? 2189瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

angel ? 8599瀏覽 ? 0回復(fù)
Open-Sora 1.1 解讀：完全開源的高效復(fù)現(xiàn)類Sora視頻生成方案！

angel ? 2360瀏覽 ? 0回復(fù)
阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2426瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1883瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 2862瀏覽 ? 0回復(fù)
Google 發(fā)布了用于視頻生成的最先進(jìn)的“Veo 2”和用于圖像創(chuàng)建的“Improved Imagen 3”

Halo咯咯 ? 2055瀏覽 ? 0回復(fù)
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開源與商業(yè)模型

AIPaperDaily ? 2040瀏覽 ? 0回復(fù)
開啟AI短劇新紀(jì)元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個(gè)面向AI短劇的視頻生成模型

angel ? 3380瀏覽 ? 0回復(fù)
DeepSeek太給力了！自家的大模型秘方開源到底！國(guó)產(chǎn)大模型雄起

51CTO技術(shù)棧 ? 2432瀏覽 ? 0回復(fù)
今天的智譜，燃炸了！

51CTO技術(shù)棧 ? 1173瀏覽 ? 0回復(fù)
全球首個(gè)開源「無限時(shí)長(zhǎng)」電影生成模型炸場(chǎng)：昆侖萬維把視頻生成卷到新時(shí)代

angel ? 875瀏覽 ? 0回復(fù)
AI語音革命新紀(jì)元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?

51CTO內(nèi)容精選 ? 655瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：耳朵沒錯(cuò)，是聲音太真了，字節(jié)豆包語音合成成果Seed-TTS技術(shù)揭秘

下一篇：史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍

社區(qū)精華內(nèi)容

目錄