自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達開源通用機器人大模型—GR00T N1

發(fā)布于 2025-3-20 10:39
瀏覽
0收藏

全球AI領(lǐng)導(dǎo)者英偉達在“GTC 2025”開發(fā)者大會上宣布,開源人形機器人通用大模型GR00T N1。


該模型能夠處理多模態(tài)數(shù)據(jù),包括語言、圖像、視頻,可在家務(wù)、工廠等多樣化環(huán)境中執(zhí)行復(fù)雜操作任務(wù)。


值得一提的是,GR00T N1的核心架構(gòu)采用了模擬人類思維的“快慢思考”模式,可以讓機器人的做法、思維更像人類,從而提升動作指令準(zhǔn)確率。

英偉達開源通用機器人大模型—GR00T N1-AI.x社區(qū)

開源地址:https://huggingface.co/nvidia/GR00T-N1-2B


GR00T N1的核架構(gòu)的設(shè)計靈感來源于人類的快慢思維處理方式,使用了擴散變換器模塊(System 1)和視覺-語言模塊(System 2),能將復(fù)雜的任務(wù)分解為兩大塊實現(xiàn)高效處理。


視覺-語言模塊是 GR00T N1 的“大腦”,負責(zé)處理和理解輸入的圖像與語言指令。這是一個在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的模型,具備強大的視覺和語言處理能力。

英偉達開源通用機器人大模型—GR00T N1-AI.x社區(qū)


當(dāng)機器人接收到任務(wù)指令時,例如“拿起紅色蘋果并將其放入籃子”,視覺-語言模塊會首先對輸入的圖像進行編碼,將場景中的物體、背景等視覺信息轉(zhuǎn)化為一系列的圖像tokens。

還會對語言指令進行處理,將指令中的關(guān)鍵詞、語義結(jié)構(gòu)等轉(zhuǎn)化為文本標(biāo)記(text tokens)。這些圖像和文本標(biāo)記隨后被送入Eagle-2 VLM 的中間層進行聯(lián)合編碼,生成包含任務(wù)語義和視覺上下文信息的特征表示。


這些特征表示不僅包含了對任務(wù)目標(biāo)的理解,還融合了對環(huán)境的感知,為后續(xù)的動作生成提供了豐富的語義信息。

英偉達開源通用機器人大模型—GR00T N1-AI.x社區(qū)

擴散變換器模塊(System 1)則相當(dāng)于 GR00T N1 的“四肢”,負責(zé)根據(jù)視覺-語言模塊提供的信息生成具體的動作指令。它基于擴散變換器(DiT)架構(gòu),通過動作流匹配技術(shù)進行訓(xùn)練。該模塊接收來自視覺-語言模塊的特征表示,以及機器人自身的狀態(tài)信息(如關(guān)節(jié)位置、末端執(zhí)行器姿態(tài)等),并將其與動作標(biāo)記(action tokens)結(jié)合。


在訓(xùn)練過程中,模型會學(xué)習(xí)如何從帶有噪聲的動作標(biāo)記中逐步去除噪聲,最終生成符合任務(wù)要求的動作序列。這一過程類似于人類在執(zhí)行任務(wù)時的快速反應(yīng)機制,能夠根據(jù)當(dāng)前的感知信息和任務(wù)目標(biāo),迅速做出相應(yīng)的動作調(diào)整。


擴散變換器模塊在生成動作時,會考慮機器人的物理特性,如關(guān)節(jié)的運動范圍、末端執(zhí)行器的抓取能力等,確保生成的動作在物理上是可行的,并且能夠高效地完成任務(wù)。


在實際運行中,這兩個模塊緊密協(xié)作。視覺-語言模塊通過深度理解任務(wù)指令和環(huán)境信息,為擴散變換器模塊提供清晰的任務(wù)目標(biāo)和環(huán)境上下文;擴散變換器模塊則根據(jù)這些信息,快速生成精確的動作指令,驅(qū)動機器人完成各種高難度任務(wù)。


訓(xùn)練數(shù)據(jù)方面,GR00T N1采用了新穎的“數(shù)據(jù)金字塔”結(jié)構(gòu),能將不同來源的數(shù)據(jù)按照規(guī)模和實體特異性進行分層,能充分利用大規(guī)模數(shù)據(jù)的泛化能力,同時確保模型在真實機器人執(zhí)行任務(wù)時的準(zhǔn)確性和適應(yīng)性。


在數(shù)據(jù)金字塔的底層,是大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和人類視頻數(shù)據(jù)。這些數(shù)據(jù)提供了廣泛的視覺和行為先驗知識,幫助模型學(xué)習(xí)人類的自然動作模式和任務(wù)語義。例如,Ego4D 數(shù)據(jù)集包含了大量日?;顒拥牡谝蝗朔Q視角視頻,涵蓋了各種人類與物體的交互場景。


這些視頻數(shù)據(jù)雖然沒有直接的動作標(biāo)簽,但通過其中的視覺信息和語言描述,模型可以學(xué)習(xí)到豐富的任務(wù)語義和自然的動作模式。

英偉達開源通用機器人大模型—GR00T N1-AI.x社區(qū)

中間層是通過物理仿真和神經(jīng)生成模型產(chǎn)生的合成數(shù)據(jù)。這些數(shù)據(jù)的生成方式多樣,能夠顯著增加訓(xùn)練數(shù)據(jù)的多樣性和規(guī)模。而DexMimicGen是一個重要的合成數(shù)據(jù)生成工具,可以從少量人類演示中自動生成大規(guī)模的機器人操作軌跡。通過將人類演示分解為對象中心的片段,然后對這些片段進行轉(zhuǎn)換和組合,DexMimicGen 能夠生成新的演示數(shù)據(jù),從而為模型提供豐富的訓(xùn)練樣本。


數(shù)據(jù)金字塔的頂層則是真實機器人硬件收集的數(shù)據(jù)。雖然這些數(shù)據(jù)的規(guī)模相對較小,但它們提供了模型在實際執(zhí)行任務(wù)時的關(guān)鍵反饋。真實機器人數(shù)據(jù)的收集通常需要大量的時間和人力,但它們對于模型的訓(xùn)練至關(guān)重要。這些數(shù)據(jù)確保了模型能夠適應(yīng)真實機器人的物理特性和執(zhí)行環(huán)境,從而在實際應(yīng)用中表現(xiàn)出色。


例如,GR00T N1 的研發(fā)團隊收集了大量 Fourier GR-1 人形機器人的操作數(shù)據(jù),這些數(shù)據(jù)涵蓋了各種桌面操作任務(wù),為模型提供了豐富的實際操作樣本。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/7yVTyjJq-4gMraFPBO04EQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦