GR-2登場(chǎng)!ByteDance Research提出機(jī)器人大模型,具備世界建模和強(qiáng)大泛化能力
最近,ByteDance Research 的第二代機(jī)器人大模型 —— GR-2,終于放出了官宣視頻和技術(shù)報(bào)告。GR-2 以其卓越的泛化能力和多任務(wù)通用性,預(yù)示著機(jī)器人大模型技術(shù)將爆發(fā)出巨大潛力和無(wú)限可能。
GR-2 官方項(xiàng)目頁(yè)面:
https://gr2-manipulation.github.io
初識(shí) GR-2:百煉出真金
和許多大模型一樣,GR-2 的訓(xùn)練包括預(yù)訓(xùn)練和微調(diào)兩個(gè)過(guò)程。
如果把機(jī)器人和人做比較,預(yù)訓(xùn)練過(guò)程就好像是人類(lèi)的 “嬰兒期”。而 GR-2 的嬰兒期與其他機(jī)器人截然不同。
在預(yù)訓(xùn)練的過(guò)程中,GR-2 在互聯(lián)網(wǎng)的海洋中遨游。
它在 3800 萬(wàn)個(gè)互聯(lián)網(wǎng)視頻片段上進(jìn)行生成式訓(xùn)練,也因此得名 GR-2(Generative Robot 2.0)。這些視頻來(lái)自學(xué)術(shù)公開(kāi)數(shù)據(jù)集,涵蓋了人類(lèi)在不同場(chǎng)景下(家庭、戶(hù)外、辦公室等)的各種日常活動(dòng)。
這個(gè)過(guò)程,就像是它在經(jīng)歷一個(gè)快速的 “生長(zhǎng)痛”,迅速學(xué)會(huì)了人類(lèi)日常生活中的各種動(dòng)態(tài)和行為模式。
該圖展示了 GR-2 預(yù)訓(xùn)練數(shù)據(jù)中的樣本視頻和動(dòng)詞分布。下圖中的 y 軸是最熱門(mén)單詞的對(duì)數(shù)頻率。
這種預(yù)訓(xùn)練方式使 GR-2 具備了學(xué)習(xí)多種操作任務(wù)和在多種環(huán)境中泛化的潛能。龐大的知識(shí)儲(chǔ)備,讓 GR-2 擁有了對(duì)世界的深刻理解,仿佛它已經(jīng)環(huán)游世界無(wú)數(shù)次。
微調(diào)的藝術(shù):視頻生成能力拔高動(dòng)作準(zhǔn)確率
據(jù)悉,GR-2 的開(kāi)發(fā)團(tuán)隊(duì)采用了一種創(chuàng)新的微調(diào)方法。
在經(jīng)歷大規(guī)模預(yù)訓(xùn)練后,通過(guò)在機(jī)器人軌跡數(shù)據(jù)上進(jìn)行微調(diào),GR-2 能夠預(yù)測(cè)動(dòng)作軌跡并生成視頻。
GR-2 的視頻生成能力,讓它在動(dòng)作預(yù)測(cè)方面有著天然的優(yōu)勢(shì)。它能夠通過(guò)輸入一幀圖片和一句語(yǔ)言指令,預(yù)測(cè)未來(lái)的視頻,進(jìn)而生成相應(yīng)的動(dòng)作軌跡。
如下圖所示,只需要輸入一句語(yǔ)言指令:“pick up the fork from the left of the white plate”,就可以讓 GR-2 生成動(dòng)作和視頻??梢钥吹?,機(jī)械臂從白盤(pán)子旁邊抓起了叉子。右圖中預(yù)測(cè)的視頻和真機(jī)的實(shí)際運(yùn)行也相差無(wú)幾。
以下是幾個(gè)進(jìn)一步展示 GR-2 視頻生成能力的示例,包括把物品放進(jìn)烤箱、將物品置于咖啡壺嘴下方等任務(wù)。
這種能力,不僅提升了 GR-2 動(dòng)作預(yù)測(cè)的準(zhǔn)確性,也為機(jī)器人的智能決策提供了新的方向。
Scaling Law:機(jī)器人 + 大模型的要訣
在人工智能領(lǐng)域,Scaling Law 是一個(gè)備受矚目的概念。它描述了模型性能與其規(guī)模之間的關(guān)系。對(duì)于 GR-2 這樣的機(jī)器人模型來(lái)說(shuō),這一法則尤為關(guān)鍵。
隨著模型規(guī)模的增加,GR-2 的性能呈現(xiàn)出顯著的提升。
(a)(b)(c) 分別展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三個(gè)數(shù)據(jù)集的驗(yàn)證集上的視頻生成損失。(d) 展示了不同尺寸 GR-2 在真機(jī)實(shí)驗(yàn)中的成功率。
在 7 億參數(shù)規(guī)模的驗(yàn)證中,團(tuán)隊(duì)看到了令人鼓舞的結(jié)果:更大的模型不僅能夠處理更多復(fù)雜的任務(wù),而且在泛化到未見(jiàn)過(guò)的任務(wù)和場(chǎng)景時(shí)也表現(xiàn)得更加出色。
這表明,通過(guò)擴(kuò)大模型規(guī)模,我們可以解鎖機(jī)器人更多的潛能,使其在多任務(wù)學(xué)習(xí)和適應(yīng)新環(huán)境方面更加得心應(yīng)手。
多任務(wù)學(xué)習(xí)與泛化:未知場(chǎng)景的挑戰(zhàn)者
在多任務(wù)學(xué)習(xí)測(cè)試中,GR-2 能夠完成 105 項(xiàng)不同的桌面任務(wù),平均成功率高達(dá) 97.7%。
GR-2 的強(qiáng)大之處不僅在于它能夠處理已知任務(wù),更在于其面對(duì)未知場(chǎng)景和物體時(shí)的泛化能力。無(wú)論是全新的環(huán)境、物體還是任務(wù),GR-2 都能夠迅速適應(yīng)并找到解決問(wèn)題的方法。
我開(kāi)、我放……我眼里有活兒
更讓人驚艷的是,GR-2 還能夠與大語(yǔ)言模型相結(jié)合,完成復(fù)雜的長(zhǎng)任務(wù),并與人類(lèi)進(jìn)行互動(dòng)。
比如,我們想要喝一杯咖啡。GR-2 會(huì)先從托盤(pán)里拿起杯子,并將其放在咖啡壺嘴下方。接著,它會(huì)按下咖啡機(jī)上的按鈕來(lái)煮一杯咖啡。最后,當(dāng)咖啡煮好了,機(jī)器人會(huì)把杯子放回托盤(pán)上。整個(gè)過(guò)程無(wú)需人類(lèi)干預(yù)。
又如,我們?cè)绮拖胍渣c(diǎn)東西。根據(jù)場(chǎng)景中的物體,機(jī)器人決定為我們制作一份烤面包。機(jī)器人首先按下烤面包機(jī)上的開(kāi)關(guān)來(lái)烤制面包。然后它拿起烤好的面包,并將其放入紅色的碗中。
認(rèn)真工作中,勿擾
ByteDance Research 還想強(qiáng)調(diào),GR-2 能夠魯棒地處理環(huán)境中的干擾,并通過(guò)適應(yīng)變化的環(huán)境成功完成任務(wù)。
以果蔬分類(lèi)任務(wù)為例:桌子上放置著水果和蔬菜,我們需要機(jī)器人幫忙將水果和蔬菜分裝到不同的盤(pán)子里。機(jī)器人能夠自主識(shí)別物體的類(lèi)別,并自動(dòng)將它們放入正確的盤(pán)子中。
當(dāng)在機(jī)器人移動(dòng)的過(guò)程中移動(dòng)盤(pán)子,GR-2 依然能回過(guò)神來(lái),準(zhǔn)確找回它要放的目標(biāo)盤(pán)子。
穿越“果”群,仍能找到你
工業(yè)應(yīng)用中的突破:端到端的絲滑物體揀選
在實(shí)際應(yīng)用中,GR-2 相比前一代的一個(gè)重大突破在于能夠端到端地完成兩個(gè)貨箱之間的物體揀選。
這個(gè)任務(wù)要求機(jī)器人從一個(gè)貨箱中逐個(gè)拿起物體,并將其放入旁邊的貨箱。看似簡(jiǎn)單,但在實(shí)際應(yīng)用中,能夠?qū)崿F(xiàn)這個(gè)需求的多模態(tài)端到端模型卻難得一見(jiàn)。
端到端揀選任務(wù)場(chǎng)景
如下圖所示,GR-2 可以實(shí)現(xiàn)貨箱之間絲滑且連續(xù)的物體揀選。
真 · 無(wú)情的揀選機(jī)器人
無(wú)論是透明物體、反光物體、柔軟物體還是其他具有挑戰(zhàn)性的物體,GR-2 均能準(zhǔn)確抓取。這展現(xiàn)了其在工業(yè)領(lǐng)域和真實(shí)倉(cāng)儲(chǔ)場(chǎng)景的巨大潛力。
除了能夠處理多達(dá) 100 余種不同的物體,例如螺絲刀、橡膠玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2 在未曾見(jiàn)過(guò)的場(chǎng)景和物體上也有著出的表現(xiàn)。
揀選任務(wù)中的 122 個(gè)測(cè)試物品,其中只有 55 個(gè)物體參與訓(xùn)練。
GR-2 可以識(shí)別透明的、可變形的或反光的物體。
話分兩頭,盡管 GR-2 在互聯(lián)網(wǎng)視頻上接受了大規(guī)模的預(yù)訓(xùn)練,但也存在一些進(jìn)步空間。例如,真實(shí)世界動(dòng)作數(shù)據(jù)的規(guī)模和多樣性仍然有限。
GR-2 的故事,是關(guān)于 AI 如何推動(dòng)機(jī)器人發(fā)展的故事。它不僅僅是一個(gè)機(jī)器人大模型,更是一個(gè)能夠?qū)W習(xí)和適應(yīng)各種任務(wù)的智能體。我們有理由相信,GR-2 在實(shí)際應(yīng)用中擁有巨大潛力。
GR-2 的旅程,才剛剛開(kāi)始。