智駕中的VLA方案總結(jié) 原創(chuàng)
智駕中的VLA方案總結(jié)。
相對(duì)于VLM,最近智駕中開(kāi)始流行VLA,VLM關(guān)注的重點(diǎn)在于環(huán)境建模,VLA除了考慮環(huán)境建模,還需要關(guān)注規(guī)劃和控制問(wèn)題。
總得來(lái)說(shuō),這些VLA方案中都包含兩個(gè)核心組件:
- Pretrained VLM,側(cè)重思考和慢推理
- Action Model,側(cè)重動(dòng)作預(yù)測(cè)
那么本篇整合具身智能中主要的四種VLA方案,并聯(lián)合智駕領(lǐng)域進(jìn)行總結(jié)。下面是一個(gè)快捷目錄。
1. Pretrained VLM/LLM + action prediction
2. Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder
3. Diffusion model / LLM + Diffusion
4. Video generation + Inverse Kinematics (有點(diǎn)類似于world model的思路)
一、Pretrained VLM/LLM + action prediction
顧名思義,這種方案直接基于預(yù)訓(xùn)練的VLM或LLM,action直接以token的形式預(yù)測(cè)出來(lái);這種方案下微調(diào)的時(shí)候pretrained model也需要跟著進(jìn)行微調(diào)。
這種方案比較典型的例子是openVLA。
可以明顯得看到,openVLA輸出的不是文本,而是Action Token,類似于MotionLM的柵格法,把連續(xù)的動(dòng)作分到一些柵格中,每個(gè)箱子是一個(gè)token。然后拿機(jī)器人未來(lái)的行為微調(diào)VLM。
另外論文也證實(shí)了,微調(diào)時(shí)如果不調(diào)vision backbone,效果會(huì)很差。
這種方案的好處是借鑒成熟的語(yǔ)言模型,預(yù)訓(xùn)練和scale的經(jīng)驗(yàn)成本更小。
在智駕中,這種方案容易遇到的問(wèn)題是:出問(wèn)題追溯的時(shí)候,很難區(qū)分是Pretrained VLM部分的問(wèn)題還是Action部分的問(wèn)題;所以單獨(dú)地訓(xùn)練Action Token Prediction,或者去考慮兩部分的融合設(shè)計(jì)很有必要。
二、Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder
這種方案也算是經(jīng)典方案了,從頭開(kāi)始訓(xùn)練一個(gè)encoder-decoder型Transformer,把狀態(tài)和視覺(jué)觀測(cè)當(dāng)成latent condition,然后用action query-based Transformer decoder解碼出action。
這種方案比較典型的例子是Act。
網(wǎng)絡(luò)主要是一個(gè)Conditional VAE。
一般自回歸的方案會(huì)有一個(gè)問(wèn)題,每次推理都可能有誤差,而且這個(gè)誤差會(huì)隨著自回歸過(guò)程累積,越來(lái)越大(第一種方案中也存在這樣的問(wèn)題);即使是連續(xù)空間的自回歸,也存在一些因果混淆等因素會(huì)導(dǎo)致偶現(xiàn)一些幀出現(xiàn)一些錯(cuò)誤,這時(shí)自回歸的方案會(huì)放大這種誤差。
因此這篇論文的核心是提出了Action Chunking方法,來(lái)防止誤差隨著自回歸過(guò)程越來(lái)越大(componding error),特別是中間哪步比較大的錯(cuò)誤會(huì)導(dǎo)致后續(xù)嚴(yán)重問(wèn)題,并可以一定程度解決因果混淆問(wèn)題。
方案如上圖所示,每次推理輸出k個(gè)step作為一個(gè)action chunk,然后最終每步forward時(shí),越舊的結(jié)果權(quán)重越大,加權(quán)后作為最終的結(jié)果。
目前大多論文都采用了這種Action Chunking來(lái)輸出動(dòng)作序列;在智駕中,也有一些相關(guān)的研究與探索。
三、Diffusion model / LLM + Diffusion
這種方案主要基于Diffusion model,通過(guò)多步降噪對(duì)于更精細(xì)粒度的任務(wù)更有優(yōu)勢(shì)。
另外,也可以引入LLM,LLM用來(lái)壓縮多模態(tài)表征,Diffusion作為action expert精細(xì)化輸出action trajectories,diffusion本身也是可以作為L(zhǎng)LM的一個(gè)輕量head或者類MoE的expert,所以使用Diffusion并不影響結(jié)合pre-trained LLM。
這種方案比較典型的例子是Diffusion Policy。
這種方法在開(kāi)始嘗試解決action multi-modal的問(wèn)題。
現(xiàn)實(shí)世界中解決某一特定任務(wù)的方式是多樣的,而不是唯一的。但神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)只能給出單一的方式,無(wú)法應(yīng)對(duì)可能有多種方式的任務(wù)情況。
下面具體說(shuō)一下action multi-modal的問(wèn)題,這里引用遲宬的解釋:
假設(shè)我現(xiàn)在在開(kāi)車,前面有一棵樹(shù)。比如說(shuō),我雇傭了100個(gè)司機(jī)來(lái)解決這個(gè)問(wèn)題。在這種情況下,有可能有50個(gè)司機(jī)選擇往左拐,繞過(guò)樹(shù)的左邊,還有50個(gè)司機(jī)選擇從樹(shù)的右邊繞過(guò)去。在這種情況下,往左繞和往右繞都是完全合理的。然而,當(dāng)我們將所有這些解決方案合并為一個(gè)時(shí),問(wèn)題就變成了一個(gè)多模態(tài)分布,即我看到的相同場(chǎng)景有兩種不同的選擇。這對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)來(lái)說(shuō)并不友好,因?yàn)樗ǔJ褂镁秸`差(MSE)損失進(jìn)行訓(xùn)練,而這無(wú)法有效處理Multi-Modal情況。
想解決上述問(wèn)題有兩大難點(diǎn):
1)對(duì)未來(lái)動(dòng)作的預(yù)測(cè)不應(yīng)該只局限于眼前的一步兩步動(dòng)作,而應(yīng)該更有前瞻性,可以往前預(yù)測(cè)數(shù)十步動(dòng)作;但是預(yù)測(cè)高維空間的成本非常高,因?yàn)樗鼈冎荒茴A(yù)測(cè)一步,接下來(lái)的步驟是什么。如果再加上更多的步驟,維度就會(huì)變得越來(lái)越高
2)訓(xùn)練過(guò)程極易不穩(wěn)定
那么Diffusion Policy就是去解決這兩大難題。
Diffusion Policy是一種新型機(jī)器人行為生成方法(Robot Action Generation),將機(jī)器人的視覺(jué)動(dòng)作策略(Visuomotor Policy)表示為條件去噪擴(kuò)散過(guò)程(Conditional Denoising Diffusion Process)。
Diffusion Policy訓(xùn)練過(guò)程非常穩(wěn)定。基本上,可以隨便調(diào)整參數(shù),生成器就能夠輸出結(jié)果,可能效果不是最優(yōu)的,但基本上都能work。
目前這種方案最大的問(wèn)題不是Policy本身,而是數(shù)據(jù)。
這塊由于智駕領(lǐng)域?qū)τ趧?dòng)態(tài)障礙物的響應(yīng)需求是遠(yuǎn)高于機(jī)器人,所以目前來(lái)說(shuō)這種方案很難遷移過(guò)去。
四、Video generation + Inverse Kinematics
這種方案先根據(jù)首幀和指令生成運(yùn)動(dòng)視頻,然后逆運(yùn)動(dòng)學(xué)得到對(duì)應(yīng)的動(dòng)作;可解釋性很強(qiáng),但是非常受到視頻生成質(zhì)量和instruction-following的能力的影響。
這種方案比較典型的例子是GR2。
論文基本上就是WorldModel的思路,直接拿大規(guī)模的帶文本描述的視頻來(lái)學(xué)習(xí)視頻生成任務(wù),然后拿機(jī)器人的數(shù)據(jù)接入機(jī)器人的額外傳感器輸入來(lái)完成Fine Tuning出Action。
這種方案的通用思路是基于一個(gè)通用的視頻生成模型來(lái)做圖像和視頻場(chǎng)景理解,然后接專用網(wǎng)絡(luò)、專用數(shù)據(jù)出action;上限是最高的,但訓(xùn)的時(shí)候需要資源量也大。
寫在最后,self-reasoning / inference time scale 這塊在未來(lái)應(yīng)該也是能帶來(lái)收益的研究,下次再著重分享下這塊內(nèi)容。
參考文獻(xiàn)
[1] 具身智能Vision-Language-Action的思考?? - 知乎(https://zhuanlan.zhihu.com/p/9880769870?utm_campaign=shareopn&utm_medium=social&utm_psn=1895892562612557674)
[2] 近幾年VLA方案調(diào)研(截止25.03.14) - 知乎(https://zhuanlan.zhihu.com/p/30182000493?utm_campaign=shareopn&utm_medium=social&utm_psn=1895893794794218922)
[3]OpenVLA: AnOpen-Source Vision-Language-Action Model [2406.09246](https://arxiv.org/pdf/2406.09246)
[4] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware [2304.13705](https://arxiv.org/pdf/2304.13705)
[5] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion https://arxiv.org/pdf/2303.04137
[6] GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation [2410.06158](https://arxiv.org/pdf/2410.06158)
本文轉(zhuǎn)載自??瓦力算法學(xué)研所??,作者:喜歡瓦力的卷卷
