央視點贊國產(chǎn)AI復(fù)活召喚術(shù),兵馬俑竟與寶石老舅對唱Rap?
沉睡了兩千多年的兵馬俑,蘇醒了?
一句秦腔開場,將我們帶到了黃土高原。如果不是親眼所見,很多觀眾可能難以想象,有生之年還能看到兵馬俑和寶石 Gem 同臺對唱《從軍行》。
「青海長云暗雪山,孤城遙望玉門關(guān)?!构耪{(diào)雖存音樂變,聲音依舊動人情:
這場表演背后的「AI 復(fù)活召喚術(shù)」,叫做 EMO,來自阿里巴巴通義實驗室。僅僅一張照片、一個音頻,EMO 就能讓靜止形象變?yōu)槲┟钗┬さ某菀曨l,且精準卡點音頻中的跌宕起伏、抑揚頓挫。
?
在央視《2024 中國?AI 盛典》中,同樣基于 EMO 技術(shù),北宋文學(xué)家蘇軾被「復(fù)活」,與李玉剛同臺合唱了一曲《水調(diào)歌頭》?!窤I 蘇軾」動作古樸自然,仿佛穿越時空而來:
在 EMO 等 AI 領(lǐng)域前沿技術(shù)的激發(fā)下,首個以人工智能為核心的國家級科技盛宴《2024 中國?AI 盛典》盛大開幕,以「媒體 + 科技 + 藝術(shù)」的融合形式將最前沿的國產(chǎn) AI 技術(shù)力量傳遞給節(jié)目前的每一位觀眾:
這不是 EMO 第一次「出圈」。曾在社交媒體爆火的「高啟強化身羅翔普法」,也是出自 EMO 之手:
登陸通義 APP 之后,借助玩家各種腦洞大開的試玩,EMO 火熱程度至今不減。還沒有嘗試的小伙伴可以前去下載這款應(yīng)用,進入「頻道」選擇「全民舞臺」,就可以絲滑體驗了。
實際上,早在今年 2 月,通義實驗室就公開了 EMO(Emote Portrait Alive) 相關(guān)論文。這篇論文上線之初就好評如潮,更是有人稱贊:「EMO 是一項革命性的研究?!?/strong>
- 論文地址:https://arxiv.org/pdf/2402.17485
- 項目主頁:https://humanaigc.github.io/emote-portrait-alive/
為什么它能獲得如此高度的評價?這還要從當前視頻生成技術(shù)的發(fā)展現(xiàn)狀和 EMO 的底層技術(shù)創(chuàng)新說起。
如此出圈,EMO 憑什么?
過去幾年,AI 在圖像生成方面的成功是有目共睹的。當前,AI 領(lǐng)域的研究熱點是攻克一個更困難的任務(wù):視頻生成。
EMO 面對的恰好是其中非常難的一項任務(wù):基于音頻驅(qū)動的人物視頻生成。
不同于常見的文生視頻和圖生視頻玩法,基于音頻驅(qū)動的人物視頻生成是一個從音頻直接跨越到視頻模態(tài)的過程。這類視頻的生成往往涉及頭部運動、凝視、眨眼、唇部運動等多個要素,且要保持視頻內(nèi)容的一致性和流暢度。
在此前的方法中,模型大多先針對人臉、人頭或者身體部分做 3D 建?;蛉四橁P(guān)鍵點標記,以此作為中間表達再生成最終的視頻。但借助中間表達的方法可能會導(dǎo)致音頻中的信息被過度壓縮,影響最終生成視頻中的情緒表達效果。
通義實驗室應(yīng)用視覺團隊負責人薄列峰表示,EMO 的關(guān)鍵創(chuàng)新點「弱控制設(shè)計」很好地解決了上述問題,不僅降低視頻生成成本,還大幅提升了視頻生成質(zhì)量。
「弱控制」體現(xiàn)在兩個方面:首先,EMO 無需建模,直接從音頻中提取信息來生成表情動態(tài)和嘴唇同步的視頻,從而在不需要復(fù)雜預(yù)處理的情況下,端到端地創(chuàng)造出自然流暢且表情豐富的人像視頻。其次,EMO 對生成表情和身體動作不做過多「控制」,最終生成結(jié)果的自然和流暢,都是源于模型本身對高質(zhì)量數(shù)據(jù)的學(xué)習(xí)而訓(xùn)練出的泛化能力。
拿兵馬俑和寶石 Gem 同框?qū)Τ稄能娦小穪碚f,歌聲中所要傳達的情緒(如激揚)在其面部得到了很好的展現(xiàn),不會給人違和感:
基于弱控制的理念,研究團隊為 EMO 模型構(gòu)建了一個龐大而多樣的音視頻數(shù)據(jù)集,總計超過 250 小時的錄影和超過 1.5 億張圖像,涵蓋各種內(nèi)容,包括演講、電影和電視片段以及歌唱表演,包括中文和英文在內(nèi)的多種語言,視頻的豐富多樣性確保了訓(xùn)練材料捕捉了廣泛的人類表達和聲音風格。
學(xué)界有一種觀點是,對于一個數(shù)據(jù)集最好的無損壓縮,就是對于數(shù)據(jù)集之外的數(shù)據(jù)最佳泛化。能夠?qū)崿F(xiàn)高效壓縮的算法往往能夠揭示數(shù)據(jù)的深層規(guī)律,這也是智能的一個重要表現(xiàn)。
因此,團隊在訓(xùn)練過程中設(shè)計了高保真數(shù)據(jù)編碼算法,保證了在壓縮或處理數(shù)據(jù)的過程中,盡可能保持原始信息的豐富細節(jié)和動態(tài)范圍。具體到 EMO 的訓(xùn)練上,只有音頻信息完整,人物情緒才能很好的展現(xiàn)。
視頻生成賽道風起云涌
通義實驗室如何躋身全球第一梯隊?
今年 2 月初,Sora 的發(fā)布點燃了視頻生成賽道,背后的多項技術(shù)隨之受到關(guān)注,其中就包括 DiT(Diffusion Transformer )。
我們知道,擴散模型中的 U-Net 能模擬信號從噪聲中逐漸恢復(fù)的過程,理論上能夠逼近任意復(fù)雜的數(shù)據(jù)分布,在圖像質(zhì)量方面優(yōu)于生成對抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE),生成具有更自然紋理和更準確細節(jié)的現(xiàn)實世界圖像。但 DiT 論文表明,U-Net 歸納偏置對擴散模型的性能并非不可或缺,可以很容易地用標準設(shè)計(如 Transformer)取代,這就是該論文提出的基于 Transformer 架構(gòu)的新型擴散模型 DiT。
最重要的是,以 DiT 為核心的 Sora 驗證了視頻生成模型中仍存在 Scaling Law ,研究者們可以通過增加更多的參數(shù)和數(shù)據(jù)來擴大模型規(guī)模實現(xiàn)更好的結(jié)果。
DiT 模型在生成真實視頻方面的成功,讓 AI 社區(qū)看到了這一方法的潛力,促使視頻生成領(lǐng)域從經(jīng)典 U-Net 架構(gòu)轉(zhuǎn)變到基于 Transformer 的擴散主干架構(gòu)的范式?;?Transformer 注意力機制的時序預(yù)測、大規(guī)模的高質(zhì)量視頻數(shù)據(jù)都是推動這一轉(zhuǎn)變的關(guān)鍵力量。
但縱觀當前的視頻生成領(lǐng)域,尚未出現(xiàn)一個「大一統(tǒng)」架構(gòu)。
EMO 并不是建立在類似 DiT 架構(gòu)的基礎(chǔ)上,也就是沒有用 Transformer 去替代傳統(tǒng) U-Net,同樣能夠很好地模擬真實物理世界,這給整個研究領(lǐng)域帶來了啟發(fā)。
未來,視頻生成領(lǐng)域會出現(xiàn)哪些技術(shù)路線?不管是理論研究者還是從業(yè)者,都可以保持「相對開放的期待」。
薄列峰表示,本質(zhì)上,當前的語言模型、圖像 / 視頻生成模型都沒有超越統(tǒng)計機器學(xué)習(xí)的框架。即使是 Scaling Law ,也有自身的限制。盡管各個模型對強關(guān)系和中等關(guān)系的生成把握比較精準,但對弱關(guān)系的學(xué)習(xí)仍然不足。如果研究者們不能持續(xù)提供足夠多的高質(zhì)量數(shù)據(jù),模型的能力就難以有質(zhì)的提升。
換個角度來看,即使視頻生成領(lǐng)域會出現(xiàn)一種「占據(jù)半壁江山」的大一統(tǒng)架構(gòu),也并不意味其具備絕對的優(yōu)越性。就像是自然語言領(lǐng)域,一直穩(wěn)居 C 位的 Transformer 也會面臨被 Mamba 超越的情況。
具體到視頻生成領(lǐng)域,每種技術(shù)路線都有適合自身的應(yīng)用場景。比如關(guān)鍵點驅(qū)動、視頻驅(qū)動更適合表情遷移的場景,音頻驅(qū)動更適合人物講話、唱演的場景。從條件控制的程度來說,弱控制的方法很適合創(chuàng)意類任務(wù),同時很多專業(yè)、具體的任務(wù)更能受益于強控制的方法。
通義實驗室是國內(nèi)最早布局視頻生成技術(shù)的機構(gòu)之一,目前已有文生視頻、圖生視頻等多個方向的研發(fā)積累,特別是在人物視頻生成方面,已經(jīng)形成了包括人物動作視頻生成框架 Animate Anyone、人物換裝視頻生成框架 Outfit Anyone、人物視頻角色替換框架 Motionshop、人物唱演視頻生成框架 Emote Portrait Alive 在內(nèi)的完整研究矩陣。
更多項目請關(guān)注:https://github.com/HumanAIGC
比如在 EMO 之前,Animate Anyone 一度霸屏社交媒體和朋友圈。該模型解決了人物運動視頻生成中保持人物外觀短時連續(xù)性和長時一致性的問題,隨后上線通義 App「全民舞王」功能,掀起了一波全民熱舞小高潮。
從技術(shù)到現(xiàn)實世界
過去兩年,語言模型展現(xiàn)了強大的對話、理解、總結(jié)、推理等文本方面的能力,圖像生成模型展現(xiàn)了強大的自然生成、娛樂和藝術(shù)能力,兩大賽道都誕生了很多爆款產(chǎn)品。這些模型的成功至少告訴我們一點:想在這個時代取得影響力的技術(shù)團隊,需要學(xué)會「基礎(chǔ)模型」和「超級應(yīng)用」兩條腿走路。
目前,視頻內(nèi)容呈現(xiàn)爆發(fā)式增長的趨勢,人們都在期待能夠出現(xiàn)一個人人「可用」且「實用」的 AI 視頻生成平臺。EMO 可能是打破這一局面的重要技術(shù)突破,通義 App 則提供了一個技術(shù)落地的廣闊平臺。
視頻生成技術(shù)的下一個挑戰(zhàn),是如何攻克專業(yè)級的內(nèi)容。
科技公司們希望將 AI 技術(shù)轉(zhuǎn)化為真正的生產(chǎn)力工具,去服務(wù)短視頻博主、影視制作人、廣告和游戲創(chuàng)意人。這也是為什么視頻生成應(yīng)用不能只停留在「通用內(nèi)容」的水準。
環(huán)顧目前大部分的視頻生成應(yīng)用,大多是基于 3 到 5 秒的視頻生成模型,在應(yīng)用和體驗上的限制比較明顯。但 EMO 技術(shù)對于音頻時長的包容度很高,而且生成內(nèi)容質(zhì)量可以達到演播標準。比如登陸央視的這段「兵馬俑唱演」,全程四分鐘的兵馬俑部分表演視頻無一秒需要人工后期針對性「微調(diào)」。
如今看來,以 EMO 為代表的人物視頻生成技術(shù)是最接近「專業(yè)級生成水準」的落地方向之一。相比于文生視頻技術(shù)中用戶 Prompt 存在的諸多不確定性,EMO 技術(shù)高度符合人物視頻創(chuàng)作對內(nèi)容連貫性和一致性的核心需求,展示了極具潛力的應(yīng)用空間。
EMO 之所以「出圈」,人們看到的不光是研發(fā)團隊的技術(shù)實力,更重要的是看到了視頻生成技術(shù)落地的加速度。
「人均專業(yè)創(chuàng)作者」的時代,或許不遠了。
本文轉(zhuǎn)自 機器之心 ,作者:機器之心
