自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="gfd0y"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃精華

輕薄滴假象

發(fā)布于 2024-6-3 09:53

瀏覽

0收藏

開(kāi)視頻遠(yuǎn)程會(huì)議的時(shí)候，很多人都不喜歡打開(kāi)攝像頭。即使開(kāi)了，在界面上大家也都被框在不同的窗口里。雖然這種形式操作起來(lái)很方便，但總是缺乏點(diǎn)臨場(chǎng)感。

最近，谷歌提出了一項(xiàng)研究旨在解決這個(gè)問(wèn)題，這個(gè)名叫 ChatDirector 的技術(shù)可以使用靜態(tài)的 2D 頭像生成 3D 虛擬人，讓大家一同「坐在會(huì)議室里」開(kāi)會(huì)，只是看起來(lái)樣子有點(diǎn)夸張：

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

ChatDirector 通過(guò)空間化視頻頭像、虛擬環(huán)境和自動(dòng)布局轉(zhuǎn)換，構(gòu)建了一個(gè)擬真的虛擬環(huán)境。

雖說(shuō)只是早期研究，虛擬人物口型也能準(zhǔn)確對(duì)上，但總覺(jué)得有一點(diǎn)喜劇效果。對(duì)此大片評(píng)論表示繃不住了：這或許能給在線會(huì)議創(chuàng)造出輕松的氣氛。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

ChatDirector 是一個(gè)研究原型，它將傳統(tǒng)的視頻會(huì)議轉(zhuǎn)變?yōu)槭褂?3D 視頻頭像、共享 3D 場(chǎng)景和自動(dòng)布局轉(zhuǎn)換。

此前，谷歌展示的 Visual Captions 和開(kāi)源的 ARChat，以促進(jìn)實(shí)時(shí)視覺(jué)效果的口頭交流為目標(biāo)。在 CHI 2024 上展示的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中，谷歌介紹了一種新原型，通過(guò)在空間感知共享會(huì)議環(huán)境中為所有參與者提供語(yǔ)音驅(qū)動(dòng)的視覺(jué)輔助，增強(qiáng)了傳統(tǒng)的基于 2D 屏幕的視頻會(huì)議體驗(yàn)。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

設(shè)計(jì)思考

谷歌研究人員邀請(qǐng)了來(lái)自公司內(nèi)部不同崗位的十位參與者，包括軟件工程師、研究人員和 UX 設(shè)計(jì)師，共同討論影響虛擬會(huì)議質(zhì)量的因素，分析視頻會(huì)議系統(tǒng)和面對(duì)面互動(dòng)的特點(diǎn)，最后將建議提煉為原型系統(tǒng)的五個(gè)基本考慮因素：

DC1、通過(guò)空間感知可視化增強(qiáng)虛擬會(huì)議環(huán)境。處于同一個(gè)空間對(duì)于改善視頻會(huì)議體驗(yàn)來(lái)說(shuō)至關(guān)重要。好用的系統(tǒng)應(yīng)采用典型的面對(duì)面會(huì)議形式，將與會(huì)者安排在指定座位的桌子周圍，構(gòu)建切實(shí)的共同存在感和空間定位感。
DC2、不能簡(jiǎn)單復(fù)制現(xiàn)實(shí)會(huì)議，而需要提供語(yǔ)音驅(qū)動(dòng)的協(xié)助。鑒于小組對(duì)話中發(fā)言人頻繁更換、話題快速轉(zhuǎn)換，系統(tǒng)應(yīng)提供額外的數(shù)字功能，讓參與者跟進(jìn)對(duì)話流程并積極參與會(huì)議。
DC3、重現(xiàn)面對(duì)面互動(dòng)的視覺(jué)效果。在開(kāi)虛擬會(huì)議時(shí)，參與者通常在電腦前保持靜止。系統(tǒng)應(yīng)增強(qiáng)他們?cè)谄聊簧系膭?dòng)作，以模仿頭部轉(zhuǎn)動(dòng)和眼神接觸等動(dòng)態(tài)身體動(dòng)作，這些動(dòng)作可作為更有效地跟進(jìn)對(duì)話的提示。
DC4、盡量減少認(rèn)知負(fù)荷。系統(tǒng)應(yīng)避免同時(shí)顯示過(guò)多信息，或要求用戶頻繁操作。這種方法有助于防止分心，并允許參與者更有效地專注于傾聽(tīng)和說(shuō)話。
DC5、確保兼容性和可擴(kuò)展性。系統(tǒng)應(yīng)與標(biāo)準(zhǔn)視頻會(huì)議設(shè)備（如帶攝像頭的筆記本電腦）兼容，以促進(jìn)廣泛采用。這種兼容性還將促進(jìn)其他生產(chǎn)力功能和工具（如屏幕共享和其他應(yīng)用程序）的無(wú)縫集成，以增強(qiáng)系統(tǒng)的整體效用。

空間感知的場(chǎng)景渲染 pipeline

為了解決 DC1（通過(guò)空間感知可視化增強(qiáng)虛擬會(huì)議環(huán)境）和 DC5（確保兼容性和可擴(kuò)展性），谷歌首先設(shè)計(jì)了一個(gè)渲染 pipeline，以將人的視覺(jué)呈現(xiàn)重建為 3D 肖像頭像。

谷歌在輕量級(jí)深度推理神經(jīng)網(wǎng)絡(luò) U-Net 上構(gòu)建了此 pipeline，并結(jié)合了自定義渲染方法，該方法將 RGB 和深度圖像作為輸入并輸出 3D 肖像頭像網(wǎng)格。

該 pipeline 從深度學(xué)習(xí) (DL) 網(wǎng)絡(luò)開(kāi)始，利用該網(wǎng)絡(luò)從實(shí)時(shí) RGB 網(wǎng)絡(luò)攝像頭視頻中推斷深度。接著使用 MediaPipe 自拍分割模型分割前景，并將處理后的圖像饋送到 U-Net 神經(jīng)網(wǎng)絡(luò)。

其中，編碼器逐漸縮小圖像，而解碼器將特征分辨率提高回原始分辨率。來(lái)自編碼器的 DL 特征連接到具有相同分辨率的相應(yīng)層，以幫助恢復(fù)幾何細(xì)節(jié)，例如深度邊界和薄結(jié)構(gòu)。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

下圖所示的自定義渲染方法將 RGB 和深度圖像作為輸入，并重建 3D 肖像頭像。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)空間感知的視頻會(huì)議環(huán)境，可以在 3D 會(huì)議環(huán)境中顯示遠(yuǎn)程參與者的 3D 肖像化身。

在每個(gè)本地用戶的設(shè)備上，ChatDirector 會(huì)產(chǎn)生：

附帶由 Web Speech API 識(shí)別的語(yǔ)音文本的音頻輸入
由 U-Net 神經(jīng)網(wǎng)絡(luò)推斷的 RGB 圖像和深度圖像。

同時(shí)，當(dāng)系統(tǒng)接收到每個(gè)遠(yuǎn)程用戶的數(shù)據(jù)后，會(huì)重建 3D 肖像化身，并在本地用戶的屏幕上顯示出來(lái)。

為了實(shí)現(xiàn)視差效果，該團(tuán)隊(duì)根據(jù)使用 MediaPipe 人臉檢測(cè)所檢測(cè)到的本地用戶的頭部移動(dòng)來(lái)調(diào)整虛擬渲染攝像機(jī)。音頻會(huì)被用作輸入到下一節(jié)中將要解釋的語(yǔ)音驅(qū)動(dòng)布局轉(zhuǎn)換算法。

數(shù)據(jù)通信則通過(guò) WebRTC 實(shí)現(xiàn)。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

ChatDirector 的系統(tǒng)架構(gòu)。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

一個(gè)本地用戶對(duì)具有 3D 肖像頭像的空間感知視頻會(huì)議環(huán)境的視角。

語(yǔ)音驅(qū)動(dòng)的布局轉(zhuǎn)換算法

為了解決 DC2（提供超越簡(jiǎn)單復(fù)制現(xiàn)實(shí)世界聚會(huì)的語(yǔ)音驅(qū)動(dòng)輔助）和 DC3（重現(xiàn)面對(duì)面互動(dòng)的視覺(jué)線索），研究者開(kāi)發(fā)了一個(gè)決策樹(shù)算法。

該算法根據(jù)正在進(jìn)行的對(duì)話調(diào)整渲染場(chǎng)景的布局和化身的行為，允許用戶通過(guò)接收自動(dòng)視覺(jué)輔助來(lái)跟隨這些對(duì)話，從而不需要在 DC4（最小化認(rèn)知負(fù)荷）上額外浪費(fèi)精力。

對(duì)于算法的輸入，他們將群組聊天建模為一系列語(yǔ)音輪轉(zhuǎn)。

在每個(gè)時(shí)刻，每個(gè)與會(huì)者都將處于三種語(yǔ)音狀態(tài)之一：

靜默：與會(huì)者正在聽(tīng)取他人發(fā)言；
與某人交談（Talk-to）：與會(huì)者正在與特定人交談；具體來(lái)說(shuō)，通過(guò)偵測(cè)參與者的姓名（當(dāng)他們加入會(huì)議室時(shí)所輸入的結(jié)果）來(lái)檢測(cè)使用是否在與某人交談。
宣布（Announce）：與會(huì)者正在向所有人發(fā)言。通過(guò)使用關(guān)鍵詞檢測(cè)（如「everybody」、「ok, everybody」），Web 語(yǔ)音 API 來(lái)進(jìn)行識(shí)別此種類型的語(yǔ)音狀態(tài)。

該算法產(chǎn)生了兩個(gè)增強(qiáng)視覺(jué)輔助的關(guān)鍵輸出（DC3）。第一個(gè)組件是布局狀態(tài)，它決定了會(huì)議場(chǎng)景的整體可視化。

這包括幾種模式：

「一對(duì)一（One-on-One」，僅顯示一個(gè)遠(yuǎn)程參與者，以便與本地用戶進(jìn)行直接互動(dòng)；
「兩兩對(duì)話（Pairwise）」，將兩個(gè)遠(yuǎn)程參與者并排排列，表示他們的一對(duì)一對(duì)話；
「全景（Full-view）」，默認(rèn)設(shè)置顯示所有參與者，表示一般討論。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

ChatDirector 的布局轉(zhuǎn)換算法。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

算法輸出：布局狀態(tài)。從左至右分別為：一對(duì)一（One-on-One）語(yǔ)音狀態(tài)，兩兩對(duì)話（Pairwise）語(yǔ)音狀態(tài)，全景（Full-view）語(yǔ)音狀態(tài)。

網(wǎng)絡(luò)視頻開(kāi)會(huì)這下更逼真了，領(lǐng)導(dǎo)和你可以交換眼神了。

研究團(tuán)隊(duì)基于 3D 肖像化化身渲染能力，通過(guò)操縱遠(yuǎn)程化身的行為來(lái)模擬類似于面對(duì)面會(huì)議中的眼神交流。

他們通過(guò)將化身狀態(tài)（Avatar State）設(shè)立為算法的附加輸出，以控制每個(gè)化身的方向。

在這種設(shè)置中，每個(gè)化身可以處于兩種狀態(tài)之一：「本地」?fàn)顟B(tài)，其中化身旋轉(zhuǎn)面向本地用戶，和「遠(yuǎn)程」?fàn)顟B(tài)，其中化身旋轉(zhuǎn)與另一個(gè)遠(yuǎn)程參與者互動(dòng)。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

算法輸出：化身（聊天室中代表使用者的形象）狀態(tài)。當(dāng)左側(cè)用戶與右側(cè)用戶交談時(shí)，化身狀態(tài)從「本地」?fàn)顟B(tài)轉(zhuǎn)變?yōu)椤高h(yuǎn)程」?fàn)顟B(tài)，此時(shí)左側(cè)化身會(huì)轉(zhuǎn)向右側(cè)化身。

定性表現(xiàn)評(píng)估：用戶研究

?

為了評(píng)估基于語(yǔ)音的布局轉(zhuǎn)換算法的性能以及空間感知會(huì)議場(chǎng)景的整體有效性，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)實(shí)驗(yàn)室研究，涉及 16 名參與者，分成四個(gè)團(tuán)隊(duì)。

與作為基準(zhǔn)的傳統(tǒng)視頻會(huì)議相比，研究發(fā)現(xiàn) ChatDirector 顯著改善了與語(yǔ)音處理相關(guān)的問(wèn)題，這表現(xiàn)在用戶對(duì)注意力轉(zhuǎn)移輔助的積極評(píng)價(jià)上。

此外，該團(tuán)隊(duì)對(duì)調(diào)查結(jié)果還進(jìn)行了威爾科克森符號(hào)秩檢驗(yàn)（Wilcoxon Signed-Rank Test ）。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

會(huì)議環(huán)境的空間感知和語(yǔ)音驅(qū)動(dòng)布局轉(zhuǎn)換算法的用戶研究結(jié)果（N=16）。（ *：p<.05, **: p<.01, *** ：p< .001）

此外，根據(jù) Temple Presence Inventory（TPI）評(píng)分，與標(biāo)準(zhǔn)的基于 2D 的視頻會(huì)議系統(tǒng)相比，它提升了共存感和參與度。

2D頭像生成3D虛擬人開(kāi)視頻會(huì)，谷歌新作讓人難繃-AI.x社區(qū)

Temple Presence Inventory（TPI）結(jié)果顯示了 ChatDirector 系統(tǒng)的社交存在評(píng)級(jí)（N=16）。（ *：p<.05, **: p<.01, *** ：p< .001）

由于 ChatDirector 基于視頻會(huì)議室使用者的肖像化身，肖像安全的問(wèn)題將成為未來(lái)研究發(fā)展的重中之重。

研究團(tuán)隊(duì)在最后表示，希望 ChatDirector 能夠激發(fā)在利用先進(jìn)的感知和交互技術(shù)來(lái)增加共同在場(chǎng)的感受和參與度日常計(jì)算平臺(tái)上的持續(xù)創(chuàng)新。

研究人員同時(shí)指出，解決負(fù)責(zé)任的 AI 考慮及其數(shù)字相似性的含義是極其重要的。因?yàn)橐赃@種方式轉(zhuǎn)換「用戶的視頻」可能會(huì)引發(fā)關(guān)于他們對(duì)自身肖像控制的問(wèn)題，所以需要進(jìn)一步的研究和仔細(xì)考慮。

當(dāng)這類工具部署時(shí)，至關(guān)重要的是需要基于用戶的同意并遵守相關(guān)道德準(zhǔn)則。

該團(tuán)隊(duì)還提供了一個(gè) ChatDirector 的交互技術(shù)演示，在視頻內(nèi)容里展示了更多的 3D 視頻示例。

視頻鏈接：https://youtu.be/mO2rZL48C1Y

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/Z0P_f7DureBhviMSYvLNMw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何在淘寶人生2一鍵定制你的專屬3D數(shù)字人

pangguiyu ? 4975瀏覽 ? 0回復(fù)
TELA: 最先進(jìn)文本描述生成3D穿衣人體方案！支持虛擬試衣，上海AI Lab&網(wǎng)易等聯(lián)合發(fā)布

angel ? 5283瀏覽 ? 0回復(fù)
3D生成競(jìng)技場(chǎng)來(lái)了！比拼360°環(huán)繞視頻，最強(qiáng)模型由你pick

Crystalcxt ? 2608瀏覽 ? 0回復(fù)
無(wú)需3D數(shù)據(jù)也能訓(xùn)練，港科&港中文聯(lián)手華為推出3D自動(dòng)駕駛場(chǎng)景生成模型

Crystalcxt ? 2795瀏覽 ? 0回復(fù)
3D語(yǔ)言模型的新突破：解鎖虛擬現(xiàn)實(shí)中的'幻覺(jué)'問(wèn)題

AI論文解讀 ? 2711瀏覽 ? 0回復(fù)
DreamTech聯(lián)合南大和牛津發(fā)布最強(qiáng)3D內(nèi)容生成大模型——Direct3D

angel ? 2958瀏覽 ? 0回復(fù)
3D版"裁縫"開(kāi)源來(lái)襲！Tailor3D:自定義3D編輯和資產(chǎn)生成（港大&上海AI-Lab&港中文）

angel ? 2458瀏覽 ? 0回復(fù)
北航&谷歌&曠視等開(kāi)源Chat-Edit-3D: 3D 場(chǎng)景編輯新范式！

angel ? 2341瀏覽 ? 0回復(fù)
開(kāi)源視頻模型SV4D，一鍵創(chuàng)建8角度動(dòng)態(tài)3D視頻

Aceryt ? 2841瀏覽 ? 0回復(fù)
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴(kuò)散模型

sword_hero ? 2711瀏覽 ? 0回復(fù)
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D場(chǎng)景、任意提示！

angel ? 2361瀏覽 ? 0回復(fù)
麻省理工創(chuàng)新模型：用2D視頻擴(kuò)散，生成 3D 視頻

Aceryt ? 2791瀏覽 ? 0回復(fù)
一文詳解3D內(nèi)容生成算法（樸素/2D先驗(yàn)/混合型）

angel ? 4069瀏覽 ? 0回復(fù)
3D語(yǔ)言模型的新突破：解鎖虛擬現(xiàn)實(shí)中的'幻覺(jué)'問(wèn)題

AI論文解讀 ? 2269瀏覽 ? 0回復(fù)
生成任意3D和4D場(chǎng)景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國(guó)立&微軟

angel ? 2113瀏覽 ? 0回復(fù)
革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 2578瀏覽 ? 0回復(fù)
從2D到3D：北大等開(kāi)源Lift3D，助力精準(zhǔn)具身智能操作！

angel ? 2587瀏覽 ? 0回復(fù)
彌補(bǔ)2D拖拽缺陷！南大&螞蟻等重磅開(kāi)源LeviTor：首次引入3D目標(biāo)軌跡控制，效果驚艷

angel ? 1934瀏覽 ? 0回復(fù)
首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)

angel ? 1773瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來(lái)了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇： 3D資產(chǎn)生成領(lǐng)域福音：自動(dòng)化所、北郵團(tuán)隊(duì)聯(lián)合打造材質(zhì)生成新范式

下一篇：單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率

社區(qū)精華內(nèi)容

目錄

<sub id="zvgdm"></sub>

<sub id="zvgdm"></sub>

<s id="zvgdm"><abbr id="zvgdm"></abbr></s>