自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<acronym id="9hhtp"><p id="9hhtp"></p></acronym>

<cite id="9hhtp"></cite>

<sub id="9hhtp"><p id="9hhtp"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Meta開發(fā)新虛擬背景處理AI，讓元宇宙中人像不再虛糊

作者：新智元 2022-02-15 16:01:24

為了讓廣大視頻通話用戶體驗更佳，也讓更多AR、VR用戶青睞元宇宙，Meta的AI研發(fā)團隊最近開發(fā)了能更好處理虛擬背景的AI模型。

自新冠疫情開始以來，大部分人都已經(jīng)習慣了在和朋友、同事和家人遠程視頻通話。視頻聊天的時候都使用過虛擬背景。用戶在視頻時變換背景，能賦予其在虛擬影像中掌控身邊環(huán)境的權利，減少因環(huán)境帶來的分心，還能保護隱私，甚至還能讓用戶在視頻里看起來更有精氣神。

但有些時候虛擬背景呈現(xiàn)出來的效果可能和用戶需求的不一樣。大部分人都經(jīng)歷過在移動的時候虛擬背景把人臉擋住了，或者是虛擬背景無法識別手和桌子之間的邊界。最近，Meta利用強化的AI模型來分割圖像，優(yōu)化了背景模糊功能，虛擬背景功能和其它Meta產(chǎn)品服務的AR效果。這樣可以更好的分辨照片和視頻中的不同部分。來自Meta AI、現(xiàn)實實驗室和Meta其它部門的研究人員和工程師，組成了一個跨部門小組，最近開發(fā)了新的圖像分割模型，已用在Portal、Messenger和Instagram等很多平臺的實時視頻通話和Spark AR的增強現(xiàn)實應用中。該小組還優(yōu)化了雙人圖像分割模型，已經(jīng)在Instagram和Messenger上應用了。

如何讓AI改進虛擬背景

該小組在推進圖像分割的優(yōu)化過程中，主要有以下三大挑戰(zhàn)： 1.要讓AI學會在不同的環(huán)境下也能正常識別。比如說環(huán)境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體態(tài)（比方說彎腰系鞋帶，或者伸懶腰）、人物被遮擋、人物在移動等等。 2.要讓邊緣的位置看起來更加的流暢、穩(wěn)定、連貫。這些特征在目前的研究中討論較少，但是用戶反饋研究表明，這些因素極大影響人們在使用各類背景效果時的體驗。 3.要確保模型能夠在全世界幾十億部智能手機中都能靈活、高效的運作。只在一小部分最先進的手機中才能使用是不行的，這類手機往往搭載最新款的處理器。

而且，該模型必須能支持各種長寬比的手機，這樣才可以在筆記本電腦、Meta的便攜式視頻通話設備和人們的手機的肖像模式、橫向模式中都保證模型的正常使用。

用Meta的AI模型處理后的虛擬背景示例，左為頭身像，右為全身像。

真實世界個人圖像分割模型的挑戰(zhàn)

圖像分割的概念不難理解，但獲得高精確度的個人圖像分割結(jié)果卻很困難。要有好結(jié)果的話，處理圖像的模型必須一致性極高、延遲度極低。

不正確的分割圖像輸出，會導致各種讓使用虛擬背景的視訊用戶走神的效果。更重要的是，圖像分割錯誤會導致用戶的真實物理環(huán)境發(fā)生不必要的暴露。因為這些，圖像分割模型的精度必須達到交并比90%以上，才能進入實際的市場產(chǎn)品應用。交并比是衡量圖像分割預測值與基底真實值重疊部分比值的常用標準度量。由于使用場景與實例復雜度之海量，Meta的圖像分割模型要達到的交并比，最后10%完成起來遠比之前的所有部分都更難。

Meta的軟件工程師們發(fā)現(xiàn)，當交并比已達到90%時，圖像的可衡量指標趨于飽和，在時間一致性與空間穩(wěn)定性上難有更好提升。為了克服此障礙，Meta開發(fā)了一個基于視頻的衡量系統(tǒng)，與其他幾個指標一起來解決這額外的難度。

為真實世界應用開發(fā)AI訓練與衡量策略

AI模型只能從已交付的數(shù)據(jù)集里學習。所以想要訓練出高精度的圖像分割模型，光是簡單錄入一大堆視頻用戶在明亮室內(nèi)正襟危坐的視頻樣本是不行的。樣本類型得盡可能貼近真實世界地豐富。 Meta AI實驗室用了自家的ClusterFit模型，來從不同性別、膚色、年齡、身體姿勢、動作、復雜背景、多人數(shù)的海量樣本中提取可用數(shù)據(jù)。靜態(tài)圖像的度量值并不準確反映模型實時處理動態(tài)視頻的質(zhì)量，因為實時模型通常要有依賴時間信息的追蹤模式。為了測量模型的實時質(zhì)量，Meta AI實驗室設計了當模型預測出畫面時、計算每幀畫面的各指標的定量性視頻評估架構(gòu)。與論文中的理想狀況不同，Meta的個人圖像分割模型是被日常的海量用戶評判性能。

如果有鋸齒、扭曲、或其他不滿意的效果出現(xiàn)，其他性能比基準值好出再多也沒用。所以Meta AI實驗室直接詢問自家產(chǎn)品用戶對圖像分割效果的評價。結(jié)果是邊緣不平滑和模糊對用戶體驗影響最大。針對此需求，Meta AI實驗室在視頻評估架構(gòu)中，另添加了「邊緣交并比」這一新指標。當畫面的普通交并比超過90%、幾近飽和時，邊緣交并比就是更需注意的指標了。而且，畫面時間一致性不夠，會帶來圖形邊緣的混雜效果，這也會影響用戶體驗。Meta AI實驗室用兩種方法來測量畫面的時間一致性。

首先，Meta研究人員假設時點緊鄰的兩幀畫面，圖像基本一致。所以任何模型上的預測差異都代表最終畫面會有時間不一致。其次，Meta研究人員從時點緊鄰的兩幀畫面的前景動作入手。前景里的光流能讓模型從第N幀的預測值推進到第N+1幀。然后研究者就將此預測值與真實的N+1幀數(shù)值對照。這兩種方法中測算出的差異度都以交并比這一度量來體現(xiàn)。 Meta AI實驗室使用了來自30種的100余類人群的1100個視頻樣本來輸入AI模型，分類包括所有人類表征性別與菲茨帕特里克量表上的膚色色調(diào)。分析結(jié)果是，Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準確性，交并比與置信度都在95%以上，各分類間交并比差異基本都在0.5個百分點左右，性能優(yōu)異可靠。

不同膚色與性別人群的視頻，Meta的AI模型處理后的交并比數(shù)據(jù)

優(yōu)化模型

架構(gòu) Meta研究人員使用FBNet V3作為優(yōu)化模型的主干。這是一種由多層混合形成的解編碼結(jié)構(gòu)，每一層都有相同的空間分辨率。

研究人員設計了一種配備輕量級解碼器加重量級編碼器的架構(gòu)，這樣可以擁有比全對稱設計的架構(gòu)更好的性能。生成的架構(gòu)由神經(jīng)架構(gòu)搜索支撐，并對設備上運行的速度進行了高度優(yōu)化。

語義分割模型架構(gòu)。綠色的長方形代表卷積層，黑色的圓圈代表各層融合點。數(shù)據(jù)學習研究人員使用離線大容量的PointRend模型為未注釋的數(shù)據(jù)生成地一個偽標準實值標簽，以此來增加訓練的數(shù)據(jù)量。同樣地，研究者使用師-生半監(jiān)督模型來消除偽標簽中的偏差。長寬比相關的重新采樣傳統(tǒng)的深度學習模型會將圖像重新采樣成一個小正方形，輸入到神經(jīng)網(wǎng)絡里。由于重新采樣，圖像會出現(xiàn)畸變。并且由于每幀圖像具有不同的長寬比，因此畸變的幅度也會不相同。畸變的存在、畸變程度的不同，會導致神經(jīng)網(wǎng)絡AI學習到不穩(wěn)健的低層次特征。這種畸變引起的限制在圖像分割應用中會被放大。如此一來，如果大多數(shù)訓練圖像都是肖像比例，那么該模型在實景圖像和視頻上的表現(xiàn)要差得多。

為了解決這個問題，研究團隊采用了 Detectron 2 的長寬比相關的二次采樣方法，該方法將具有相似長寬比的圖像分組，并將它們第二次采樣到相同的大小。

左為長寬比不調(diào)帶來畸變的基線圖像，右為AI模型處理后的改進圖像自定義補邊框長寬比相關的二次采樣法需要將具有相似長寬比的圖像補邊框，但常用的零補框方法會產(chǎn)生偽影（artifact）。更糟糕的是，當網(wǎng)絡的深度不斷增加的時候，該偽影會擴散到其他區(qū)域。過去的辦法是，使用復用邊框的手段來移除這些偽影。

最新的一項研究中顯示，卷積層中的反射邊框可以通過最小化偽影傳播的方式來進一步提高模型的質(zhì)量，但相對應地，時延成本也會增加。偽影的案例，和如何移除偽影的示例如下。

追蹤時間不一致，會讓AI處理圖形時在幀到幀之間存在預測性差異，帶來閃爍（flicker），它的出現(xiàn)會極大損害用戶的體驗。為了提高時間一致性，研究人員設計了一個名為「面具偵測」的檢測過程。它從當前幀圖像（YUV）中獲取三個通道，并且還存在第四通道。對于第一幀圖像，第四通道只是一個空矩陣，而對于隨后的幀數(shù)，第四通道則是對上一幀的預測。

研究人員發(fā)現(xiàn)，這種利用第四通道跟蹤的策略顯著提高了時間一致性。同時，他們還采用了最先進的跟蹤模型中的一些想法，例如CRVOS和變換不變性CNN等建模策略，來獲得時間上較為穩(wěn)定的分割模型。

「面具偵測」法流程圖邊界交叉熵構(gòu)建平滑、清晰的邊界，對于AR圖像分割的應用至關重要。除了在分割圖像的時候會有的標準交叉熵損失之外，研究人員還必須考慮邊界加權損失。研究人員發(fā)現(xiàn)，對象的內(nèi)部是更容易被分割的，所以Unet模型與其之后大多數(shù)變體的作者都建議使用三元圖加權損失來提升模型的質(zhì)量。然而，三元圖加權損失有一個限制，就是三元圖只會根據(jù)標準實值來計算邊界區(qū)域，因此它對所有的誤判都不敏感，是一種非對稱的加權損失。受「邊界交并比」的啟發(fā)，研究人員采用交并比的方法為標準實值和各種預測提取邊界區(qū)域，并在這些區(qū)域中建立交叉熵損失。在邊界交叉熵上訓練的模型，很明顯是優(yōu)于基準的。如此除了能使最終掩碼輸出中的邊界區(qū)域更清晰之外，應用新方法后，新模型的誤報率更低。

Meta虛擬背景處理器應用的新AI模型，其新功能效率更高、更穩(wěn)定，也更多樣化。這些優(yōu)化都會提高背景濾鏡的質(zhì)量和連貫性，從而提高在產(chǎn)品中的應用效果。舉例來說，優(yōu)化過的分割模型可以被用來識別多人場景和人物的全身，也可以識別被沙發(fā)、書桌或餐桌遮擋的全身人像。除去應用在視頻通話以外，通過虛擬環(huán)境和和現(xiàn)實世界中的人、物結(jié)合，這項技術還可以給AR和VR技術增添新的維度。在建設元宇宙、營造沉浸式體驗時，這項應用會尤其重要。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="y6cvc"></kbd>