2D頭像生成3D虛擬人開(kāi)視頻會(huì),谷歌新作讓人難繃 精華
開(kāi)視頻遠(yuǎn)程會(huì)議的時(shí)候,很多人都不喜歡打開(kāi)攝像頭。即使開(kāi)了,在界面上大家也都被框在不同的窗口里。雖然這種形式操作起來(lái)很方便,但總是缺乏點(diǎn)臨場(chǎng)感。
最近,谷歌提出了一項(xiàng)研究旨在解決這個(gè)問(wèn)題,這個(gè)名叫 ChatDirector 的技術(shù)可以使用靜態(tài)的 2D 頭像生成 3D 虛擬人,讓大家一同「坐在會(huì)議室里」開(kāi)會(huì),只是看起來(lái)樣子有點(diǎn)夸張:
ChatDirector 通過(guò)空間化視頻頭像、虛擬環(huán)境和自動(dòng)布局轉(zhuǎn)換,構(gòu)建了一個(gè)擬真的虛擬環(huán)境。
雖說(shuō)只是早期研究,虛擬人物口型也能準(zhǔn)確對(duì)上,但總覺(jué)得有一點(diǎn)喜劇效果。對(duì)此大片評(píng)論表示繃不住了:這或許能給在線會(huì)議創(chuàng)造出輕松的氣氛。
ChatDirector 是一個(gè)研究原型,它將傳統(tǒng)的視頻會(huì)議轉(zhuǎn)變?yōu)槭褂?3D 視頻頭像、共享 3D 場(chǎng)景和自動(dòng)布局轉(zhuǎn)換。
此前,谷歌展示的 Visual Captions 和開(kāi)源的 ARChat,以促進(jìn)實(shí)時(shí)視覺(jué)效果的口頭交流為目標(biāo)。在 CHI 2024 上展示的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中,谷歌介紹了一種新原型,通過(guò)在空間感知共享會(huì)議環(huán)境中為所有參與者提供語(yǔ)音驅(qū)動(dòng)的視覺(jué)輔助,增強(qiáng)了傳統(tǒng)的基于 2D 屏幕的視頻會(huì)議體驗(yàn)。
設(shè)計(jì)思考
谷歌研究人員邀請(qǐng)了來(lái)自公司內(nèi)部不同崗位的十位參與者,包括軟件工程師、研究人員和 UX 設(shè)計(jì)師,共同討論影響虛擬會(huì)議質(zhì)量的因素,分析視頻會(huì)議系統(tǒng)和面對(duì)面互動(dòng)的特點(diǎn),最后將建議提煉為原型系統(tǒng)的五個(gè)基本考慮因素:
- DC1、通過(guò)空間感知可視化增強(qiáng)虛擬會(huì)議環(huán)境。處于同一個(gè)空間對(duì)于改善視頻會(huì)議體驗(yàn)來(lái)說(shuō)至關(guān)重要。好用的系統(tǒng)應(yīng)采用典型的面對(duì)面會(huì)議形式,將與會(huì)者安排在指定座位的桌子周圍,構(gòu)建切實(shí)的共同存在感和空間定位感。
- DC2、不能簡(jiǎn)單復(fù)制現(xiàn)實(shí)會(huì)議,而需要提供語(yǔ)音驅(qū)動(dòng)的協(xié)助。鑒于小組對(duì)話中發(fā)言人頻繁更換、話題快速轉(zhuǎn)換,系統(tǒng)應(yīng)提供額外的數(shù)字功能,讓參與者跟進(jìn)對(duì)話流程并積極參與會(huì)議。
- DC3、重現(xiàn)面對(duì)面互動(dòng)的視覺(jué)效果。在開(kāi)虛擬會(huì)議時(shí),參與者通常在電腦前保持靜止。系統(tǒng)應(yīng)增強(qiáng)他們?cè)谄聊簧系膭?dòng)作,以模仿頭部轉(zhuǎn)動(dòng)和眼神接觸等動(dòng)態(tài)身體動(dòng)作,這些動(dòng)作可作為更有效地跟進(jìn)對(duì)話的提示。
- DC4、盡量減少認(rèn)知負(fù)荷。系統(tǒng)應(yīng)避免同時(shí)顯示過(guò)多信息,或要求用戶頻繁操作。這種方法有助于防止分心,并允許參與者更有效地專注于傾聽(tīng)和說(shuō)話。
- DC5、確保兼容性和可擴(kuò)展性。系統(tǒng)應(yīng)與標(biāo)準(zhǔn)視頻會(huì)議設(shè)備(如帶攝像頭的筆記本電腦)兼容,以促進(jìn)廣泛采用。這種兼容性還將促進(jìn)其他生產(chǎn)力功能和工具(如屏幕共享和其他應(yīng)用程序)的無(wú)縫集成,以增強(qiáng)系統(tǒng)的整體效用。
空間感知的場(chǎng)景渲染 pipeline
為了解決 DC1(通過(guò)空間感知可視化增強(qiáng)虛擬會(huì)議環(huán)境)和 DC5(確保兼容性和可擴(kuò)展性),谷歌首先設(shè)計(jì)了一個(gè)渲染 pipeline,以將人的視覺(jué)呈現(xiàn)重建為 3D 肖像頭像。
谷歌在輕量級(jí)深度推理神經(jīng)網(wǎng)絡(luò) U-Net 上構(gòu)建了此 pipeline,并結(jié)合了自定義渲染方法,該方法將 RGB 和深度圖像作為輸入并輸出 3D 肖像頭像網(wǎng)格。
該 pipeline 從深度學(xué)習(xí) (DL) 網(wǎng)絡(luò)開(kāi)始,利用該網(wǎng)絡(luò)從實(shí)時(shí) RGB 網(wǎng)絡(luò)攝像頭視頻中推斷深度。接著使用 MediaPipe 自拍分割模型分割前景,并將處理后的圖像饋送到 U-Net 神經(jīng)網(wǎng)絡(luò)。
其中,編碼器逐漸縮小圖像,而解碼器將特征分辨率提高回原始分辨率。來(lái)自編碼器的 DL 特征連接到具有相同分辨率的相應(yīng)層,以幫助恢復(fù)幾何細(xì)節(jié),例如深度邊界和薄結(jié)構(gòu)。
下圖所示的自定義渲染方法將 RGB 和深度圖像作為輸入,并重建 3D 肖像頭像。
研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)空間感知的視頻會(huì)議環(huán)境,可以在 3D 會(huì)議環(huán)境中顯示遠(yuǎn)程參與者的 3D 肖像化身。
在每個(gè)本地用戶的設(shè)備上,ChatDirector 會(huì)產(chǎn)生:
- 附帶由 Web Speech API 識(shí)別的語(yǔ)音文本的音頻輸入
- 由 U-Net 神經(jīng)網(wǎng)絡(luò)推斷的 RGB 圖像和深度圖像。
同時(shí),當(dāng)系統(tǒng)接收到每個(gè)遠(yuǎn)程用戶的數(shù)據(jù)后,會(huì)重建 3D 肖像化身,并在本地用戶的屏幕上顯示出來(lái)。
為了實(shí)現(xiàn)視差效果,該團(tuán)隊(duì)根據(jù)使用 MediaPipe 人臉檢測(cè)所檢測(cè)到的本地用戶的頭部移動(dòng)來(lái)調(diào)整虛擬渲染攝像機(jī)。音頻會(huì)被用作輸入到下一節(jié)中將要解釋的語(yǔ)音驅(qū)動(dòng)布局轉(zhuǎn)換算法。
數(shù)據(jù)通信則通過(guò) WebRTC 實(shí)現(xiàn)。
ChatDirector 的系統(tǒng)架構(gòu)。
一個(gè)本地用戶對(duì)具有 3D 肖像頭像的空間感知視頻會(huì)議環(huán)境的視角。
語(yǔ)音驅(qū)動(dòng)的布局轉(zhuǎn)換算法
為了解決 DC2(提供超越簡(jiǎn)單復(fù)制現(xiàn)實(shí)世界聚會(huì)的語(yǔ)音驅(qū)動(dòng)輔助)和 DC3(重現(xiàn)面對(duì)面互動(dòng)的視覺(jué)線索),研究者開(kāi)發(fā)了一個(gè)決策樹(shù)算法。
該算法根據(jù)正在進(jìn)行的對(duì)話調(diào)整渲染場(chǎng)景的布局和化身的行為,允許用戶通過(guò)接收自動(dòng)視覺(jué)輔助來(lái)跟隨這些對(duì)話,從而不需要在 DC4(最小化認(rèn)知負(fù)荷)上額外浪費(fèi)精力。
對(duì)于算法的輸入,他們將群組聊天建模為一系列語(yǔ)音輪轉(zhuǎn)。
在每個(gè)時(shí)刻,每個(gè)與會(huì)者都將處于三種語(yǔ)音狀態(tài)之一:
- 靜默:與會(huì)者正在聽(tīng)取他人發(fā)言;
- 與某人交談(Talk-to):與會(huì)者正在與特定人交談;具體來(lái)說(shuō),通過(guò)偵測(cè)參與者的姓名(當(dāng)他們加入會(huì)議室時(shí)所輸入的結(jié)果)來(lái)檢測(cè)使用是否在與某人交談。
- 宣布(Announce):與會(huì)者正在向所有人發(fā)言。通過(guò)使用關(guān)鍵詞檢測(cè)(如「everybody」、「ok, everybody」),Web 語(yǔ)音 API 來(lái)進(jìn)行識(shí)別此種類型的語(yǔ)音狀態(tài)。
該算法產(chǎn)生了兩個(gè)增強(qiáng)視覺(jué)輔助的關(guān)鍵輸出(DC3)。第一個(gè)組件是布局狀態(tài),它決定了會(huì)議場(chǎng)景的整體可視化。
這包括幾種模式:
- 「一對(duì)一(One-on-One」,僅顯示一個(gè)遠(yuǎn)程參與者,以便與本地用戶進(jìn)行直接互動(dòng);
- 「兩兩對(duì)話(Pairwise)」,將兩個(gè)遠(yuǎn)程參與者并排排列,表示他們的一對(duì)一對(duì)話;
- 「全景(Full-view)」,默認(rèn)設(shè)置顯示所有參與者,表示一般討論。
ChatDirector 的布局轉(zhuǎn)換算法。
算法輸出:布局狀態(tài)。從左至右分別為:一對(duì)一(One-on-One)語(yǔ)音狀態(tài),兩兩對(duì)話(Pairwise)語(yǔ)音狀態(tài),全景(Full-view)語(yǔ)音狀態(tài)。
網(wǎng)絡(luò)視頻開(kāi)會(huì)這下更逼真了,領(lǐng)導(dǎo)和你可以交換眼神了。
研究團(tuán)隊(duì)基于 3D 肖像化化身渲染能力,通過(guò)操縱遠(yuǎn)程化身的行為來(lái)模擬類似于面對(duì)面會(huì)議中的眼神交流。
他們通過(guò)將化身狀態(tài)(Avatar State)設(shè)立為算法的附加輸出,以控制每個(gè)化身的方向。
在這種設(shè)置中,每個(gè)化身可以處于兩種狀態(tài)之一:「本地」?fàn)顟B(tài),其中化身旋轉(zhuǎn)面向本地用戶,和「遠(yuǎn)程」?fàn)顟B(tài),其中化身旋轉(zhuǎn)與另一個(gè)遠(yuǎn)程參與者互動(dòng)。
算法輸出:化身(聊天室中代表使用者的形象)狀態(tài)。當(dāng)左側(cè)用戶與右側(cè)用戶交談時(shí),化身狀態(tài)從「本地」?fàn)顟B(tài)轉(zhuǎn)變?yōu)椤高h(yuǎn)程」?fàn)顟B(tài),此時(shí)左側(cè)化身會(huì)轉(zhuǎn)向右側(cè)化身。
定性表現(xiàn)評(píng)估:用戶研究
?
為了評(píng)估基于語(yǔ)音的布局轉(zhuǎn)換算法的性能以及空間感知會(huì)議場(chǎng)景的整體有效性,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)實(shí)驗(yàn)室研究,涉及 16 名參與者,分成四個(gè)團(tuán)隊(duì)。
與作為基準(zhǔn)的傳統(tǒng)視頻會(huì)議相比,研究發(fā)現(xiàn) ChatDirector 顯著改善了與語(yǔ)音處理相關(guān)的問(wèn)題,這表現(xiàn)在用戶對(duì)注意力轉(zhuǎn)移輔助的積極評(píng)價(jià)上。
此外,該團(tuán)隊(duì)對(duì)調(diào)查結(jié)果還進(jìn)行了威爾科克森符號(hào)秩檢驗(yàn)(Wilcoxon Signed-Rank Test )。
會(huì)議環(huán)境的空間感知和語(yǔ)音驅(qū)動(dòng)布局轉(zhuǎn)換算法的用戶研究結(jié)果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
此外,根據(jù) Temple Presence Inventory(TPI)評(píng)分,與標(biāo)準(zhǔn)的基于 2D 的視頻會(huì)議系統(tǒng)相比,它提升了共存感和參與度。
Temple Presence Inventory(TPI)結(jié)果顯示了 ChatDirector 系統(tǒng)的社交存在評(píng)級(jí)(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
由于 ChatDirector 基于視頻會(huì)議室使用者的肖像化身,肖像安全的問(wèn)題將成為未來(lái)研究發(fā)展的重中之重。
研究團(tuán)隊(duì)在最后表示,希望 ChatDirector 能夠激發(fā)在利用先進(jìn)的感知和交互技術(shù)來(lái)增加共同在場(chǎng)的感受和參與度日常計(jì)算平臺(tái)上的持續(xù)創(chuàng)新。
研究人員同時(shí)指出,解決負(fù)責(zé)任的 AI 考慮及其數(shù)字相似性的含義是極其重要的。因?yàn)橐赃@種方式轉(zhuǎn)換「用戶的視頻」可能會(huì)引發(fā)關(guān)于他們對(duì)自身肖像控制的問(wèn)題,所以需要進(jìn)一步的研究和仔細(xì)考慮。
當(dāng)這類工具部署時(shí),至關(guān)重要的是需要基于用戶的同意并遵守相關(guān)道德準(zhǔn)則。
該團(tuán)隊(duì)還提供了一個(gè) ChatDirector 的交互技術(shù)演示,在視頻內(nèi)容里展示了更多的 3D 視頻示例。
視頻鏈接:https://youtu.be/mO2rZL48C1Y
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
