自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

智駕中的VLA方案總結(jié) 原創(chuàng)

發(fā)布于 2025-5-13 06:41

瀏覽

0收藏

智駕中的VLA方案總結(jié)。

相對(duì)于VLM，最近智駕中開(kāi)始流行VLA，VLM關(guān)注的重點(diǎn)在于環(huán)境建模，VLA除了考慮環(huán)境建模，還需要關(guān)注規(guī)劃和控制問(wèn)題。

總得來(lái)說(shuō)，這些VLA方案中都包含兩個(gè)核心組件：

Pretrained VLM，側(cè)重思考和慢推理
Action Model，側(cè)重動(dòng)作預(yù)測(cè)

那么本篇整合具身智能中主要的四種VLA方案，并聯(lián)合智駕領(lǐng)域進(jìn)行總結(jié)。下面是一個(gè)快捷目錄。

1. Pretrained VLM/LLM + action prediction

2. Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

3. Diffusion model / LLM + Diffusion

4. Video generation + Inverse Kinematics (有點(diǎn)類似于world model的思路)

一、Pretrained VLM/LLM + action prediction

顧名思義，這種方案直接基于預(yù)訓(xùn)練的VLM或LLM，action直接以token的形式預(yù)測(cè)出來(lái)；這種方案下微調(diào)的時(shí)候pretrained model也需要跟著進(jìn)行微調(diào)。

這種方案比較典型的例子是openVLA。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

智駕中的VLA方案總結(jié)-AI.x社區(qū)

可以明顯得看到，openVLA輸出的不是文本，而是Action Token，類似于MotionLM的柵格法，把連續(xù)的動(dòng)作分到一些柵格中，每個(gè)箱子是一個(gè)token。然后拿機(jī)器人未來(lái)的行為微調(diào)VLM。

另外論文也證實(shí)了，微調(diào)時(shí)如果不調(diào)vision backbone，效果會(huì)很差。

這種方案的好處是借鑒成熟的語(yǔ)言模型，預(yù)訓(xùn)練和scale的經(jīng)驗(yàn)成本更小。

在智駕中，這種方案容易遇到的問(wèn)題是：出問(wèn)題追溯的時(shí)候，很難區(qū)分是Pretrained VLM部分的問(wèn)題還是Action部分的問(wèn)題；所以單獨(dú)地訓(xùn)練Action Token Prediction，或者去考慮兩部分的融合設(shè)計(jì)很有必要。

二、Vision/ state encoder-decoder transformer (from scratch) + action query-based transformer decoder

這種方案也算是經(jīng)典方案了，從頭開(kāi)始訓(xùn)練一個(gè)encoder-decoder型Transformer，把狀態(tài)和視覺(jué)觀測(cè)當(dāng)成latent condition，然后用action query-based Transformer decoder解碼出action。

這種方案比較典型的例子是Act。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

網(wǎng)絡(luò)主要是一個(gè)Conditional VAE。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

一般自回歸的方案會(huì)有一個(gè)問(wèn)題，每次推理都可能有誤差，而且這個(gè)誤差會(huì)隨著自回歸過(guò)程累積，越來(lái)越大(第一種方案中也存在這樣的問(wèn)題)；即使是連續(xù)空間的自回歸，也存在一些因果混淆等因素會(huì)導(dǎo)致偶現(xiàn)一些幀出現(xiàn)一些錯(cuò)誤，這時(shí)自回歸的方案會(huì)放大這種誤差。

因此這篇論文的核心是提出了Action Chunking方法，來(lái)防止誤差隨著自回歸過(guò)程越來(lái)越大(componding error)，特別是中間哪步比較大的錯(cuò)誤會(huì)導(dǎo)致后續(xù)嚴(yán)重問(wèn)題，并可以一定程度解決因果混淆問(wèn)題。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

方案如上圖所示，每次推理輸出k個(gè)step作為一個(gè)action chunk，然后最終每步forward時(shí)，越舊的結(jié)果權(quán)重越大，加權(quán)后作為最終的結(jié)果。

目前大多論文都采用了這種Action Chunking來(lái)輸出動(dòng)作序列；在智駕中，也有一些相關(guān)的研究與探索。

三、Diffusion model / LLM + Diffusion

這種方案主要基于Diffusion model，通過(guò)多步降噪對(duì)于更精細(xì)粒度的任務(wù)更有優(yōu)勢(shì)。

另外，也可以引入LLM，LLM用來(lái)壓縮多模態(tài)表征，Diffusion作為action expert精細(xì)化輸出action trajectories，diffusion本身也是可以作為L(zhǎng)LM的一個(gè)輕量head或者類MoE的expert，所以使用Diffusion并不影響結(jié)合pre-trained LLM。

這種方案比較典型的例子是Diffusion Policy。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

這種方法在開(kāi)始嘗試解決action multi-modal的問(wèn)題。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

現(xiàn)實(shí)世界中解決某一特定任務(wù)的方式是多樣的，而不是唯一的。但神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)只能給出單一的方式，無(wú)法應(yīng)對(duì)可能有多種方式的任務(wù)情況。

下面具體說(shuō)一下action multi-modal的問(wèn)題，這里引用遲宬的解釋：

假設(shè)我現(xiàn)在在開(kāi)車，前面有一棵樹(shù)。比如說(shuō)，我雇傭了100個(gè)司機(jī)來(lái)解決這個(gè)問(wèn)題。在這種情況下，有可能有50個(gè)司機(jī)選擇往左拐，繞過(guò)樹(shù)的左邊，還有50個(gè)司機(jī)選擇從樹(shù)的右邊繞過(guò)去。在這種情況下，往左繞和往右繞都是完全合理的。然而，當(dāng)我們將所有這些解決方案合并為一個(gè)時(shí)，問(wèn)題就變成了一個(gè)多模態(tài)分布，即我看到的相同場(chǎng)景有兩種不同的選擇。這對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)來(lái)說(shuō)并不友好，因?yàn)樗ǔＪ褂镁秸`差（MSE）損失進(jìn)行訓(xùn)練，而這無(wú)法有效處理Multi-Modal情況。

??https://zhuanlan.zhihu.com/p/670555655??

想解決上述問(wèn)題有兩大難點(diǎn)：

1）對(duì)未來(lái)動(dòng)作的預(yù)測(cè)不應(yīng)該只局限于眼前的一步兩步動(dòng)作，而應(yīng)該更有前瞻性，可以往前預(yù)測(cè)數(shù)十步動(dòng)作；但是預(yù)測(cè)高維空間的成本非常高，因?yàn)樗鼈冎荒茴A(yù)測(cè)一步，接下來(lái)的步驟是什么。如果再加上更多的步驟，維度就會(huì)變得越來(lái)越高

2）訓(xùn)練過(guò)程極易不穩(wěn)定

那么Diffusion Policy就是去解決這兩大難題。

Diffusion Policy是一種新型機(jī)器人行為生成方法（Robot Action Generation），將機(jī)器人的視覺(jué)動(dòng)作策略（Visuomotor Policy）表示為條件去噪擴(kuò)散過(guò)程（Conditional Denoising Diffusion Process）。

Diffusion Policy訓(xùn)練過(guò)程非常穩(wěn)定。基本上，可以隨便調(diào)整參數(shù)，生成器就能夠輸出結(jié)果，可能效果不是最優(yōu)的，但基本上都能work。

目前這種方案最大的問(wèn)題不是Policy本身，而是數(shù)據(jù)。

這塊由于智駕領(lǐng)域?qū)τ趧?dòng)態(tài)障礙物的響應(yīng)需求是遠(yuǎn)高于機(jī)器人，所以目前來(lái)說(shuō)這種方案很難遷移過(guò)去。

四、Video generation + Inverse Kinematics

這種方案先根據(jù)首幀和指令生成運(yùn)動(dòng)視頻，然后逆運(yùn)動(dòng)學(xué)得到對(duì)應(yīng)的動(dòng)作；可解釋性很強(qiáng)，但是非常受到視頻生成質(zhì)量和instruction-following的能力的影響。

這種方案比較典型的例子是GR2。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

論文基本上就是WorldModel的思路，直接拿大規(guī)模的帶文本描述的視頻來(lái)學(xué)習(xí)視頻生成任務(wù)，然后拿機(jī)器人的數(shù)據(jù)接入機(jī)器人的額外傳感器輸入來(lái)完成Fine Tuning出Action。

智駕中的VLA方案總結(jié)-AI.x社區(qū)

這種方案的通用思路是基于一個(gè)通用的視頻生成模型來(lái)做圖像和視頻場(chǎng)景理解，然后接專用網(wǎng)絡(luò)、專用數(shù)據(jù)出action；上限是最高的，但訓(xùn)的時(shí)候需要資源量也大。

寫在最后，self-reasoning / inference time scale 這塊在未來(lái)應(yīng)該也是能帶來(lái)收益的研究，下次再著重分享下這塊內(nèi)容。

參考文獻(xiàn)

[1] 具身智能Vision-Language-Action的思考?? - 知乎(https://zhuanlan.zhihu.com/p/9880769870?utm_campaign=shareopn&utm_medium=social&utm_psn=1895892562612557674)

[2] 近幾年VLA方案調(diào)研（截止25.03.14） - 知乎(https://zhuanlan.zhihu.com/p/30182000493?utm_campaign=shareopn&utm_medium=social&utm_psn=1895893794794218922)

[3]OpenVLA: AnOpen-Source Vision-Language-Action Model [2406.09246](https://arxiv.org/pdf/2406.09246)

[4] Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware [2304.13705](https://arxiv.org/pdf/2304.13705)

[5] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion https://arxiv.org/pdf/2303.04137

[6] GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation [2410.06158](https://arxiv.org/pdf/2410.06158)

本文轉(zhuǎn)載自??瓦力算法學(xué)研所??，作者：喜歡瓦力的卷卷

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-5-13 06:41:08修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

GPT-4（o）免費(fèi)試用體驗(yàn)，看看它的設(shè)計(jì)方案能力—關(guān)于ROCE網(wǎng)卡方案

parson2000 ? 2946瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長(zhǎng)方案總結(jié)

amei2000go ? 4351瀏覽 ? 0回復(fù)
一文總結(jié)擴(kuò)散模型（Diffusion Model）在時(shí)間序列中的應(yīng)用

海因斯DK ? 9709瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)中的多類型模型組合建模方案

海因斯DK ? 2952瀏覽 ? 0回復(fù)
一文總結(jié)特征增強(qiáng)&個(gè)性化在CTR預(yù)估中的經(jīng)典方法和效果對(duì)比

海因斯DK ? 2252瀏覽 ? 0回復(fù)
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2185瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開(kāi)發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
Google 最新推出的RAG替代方案--RIP

玄姐聊AGI ? 3179瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問(wèn)答的方案

大模型自然語(yǔ)言處理 ? 2225瀏覽 ? 0回復(fù)
NLP范式總結(jié) | 擁抱新范式

zhcs333 ? 1937瀏覽 ? 0回復(fù)
Kaggle大模型競(jìng)賽優(yōu)勝方案總結(jié)與思考

arnoldzhw ? 3166瀏覽 ? 0回復(fù)
文生圖擊敗所有擴(kuò)散SOTA方案！智源研究院等提出NOVA：邁向統(tǒng)一的多任務(wù)大模型

angel ? 1997瀏覽 ? 0回復(fù)
長(zhǎng)文 | 大模型Post-Training總結(jié)

NLP工作站 ? 2581瀏覽 ? 0回復(fù)
RAG范式演進(jìn)及Agentic-RAG總結(jié)綜述

大模型自然語(yǔ)言處理 ? 3052瀏覽 ? 0回復(fù)
12張圖清晰總結(jié) MCP、RAG、Agent 架構(gòu)設(shè)計(jì)間的關(guān)系

玄姐聊AGI ? 2184瀏覽 ? 0回復(fù)
萬(wàn)字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 1372瀏覽 ? 0回復(fù)
今天的智譜，燃炸了！

51CTO技術(shù)棧 ? 1179瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 822瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時(shí)代 ? 1148瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI Infra—如何從 LLM training 轉(zhuǎn) Inference 6天前發(fā)布
大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

下一篇： AI Infra—如何從 LLM training 轉(zhuǎn) Inference

社區(qū)精華內(nèi)容

目錄