自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="wlnhn"><rt id="wlnhn"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

PWM: 基于世界模型的策略學習原創(chuàng)

發(fā)布于 2024-7-8 08:01

瀏覽

0收藏

強化學習（RL）在復雜任務(wù)上取得了令人矚目的成果，但在具有不同實施方式的多任務(wù)設(shè)置中存在困難。世界模型通過學習環(huán)境的模擬來提供可伸縮性，但它們通常依賴于低效的無梯度優(yōu)化方法。近日，佐治亞理工學者聯(lián)合英偉達、加州大學圣地亞哥分校等學者提出了基于大世界模型的策略學習（PWM），這是一種新穎的基于模型的RL算法，它從大型多任務(wù)世界模型中學習連續(xù)控制策略。通過對離線數(shù)據(jù)進行世界模型的預訓練，并將其用于一階梯度策略學習，PWM有效地解決了具有多達152個動作維度的任務(wù)，并且勝過使用真實動力學的方法。此外，PWM在80個任務(wù)設(shè)置中進行了擴展，相比于現(xiàn)有基準方法，其獎勵提高了高達27％，而無需昂貴的在線規(guī)劃。

PWM: 基于世界模型的策略學習-AI.x社區(qū)

方法概述

PWM是一種新穎的基于模型的RL（MBRL）算法和框架，旨在從大型多任務(wù)世界模型中得出有效的連續(xù)控制策略。利用預訓練的TD-MPC2世界模型，在每個任務(wù)中以小于10分鐘的時間高效地學習控制策略。對復雜的運動任務(wù)進行的實證評估表明，PWM不僅在獎勵上超過了基準方法，還勝過了使用真實模擬動力學的方法。

PWM的預告結(jié)果

PWM: 基于世界模型的策略學習-AI.x社區(qū)

對高維連續(xù)控制任務(wù)上的PWM進行評估（左圖），發(fā)現(xiàn)它不僅勝過了無模型的基準方法SAC和PPO，還在獎勵上超過了直接使用模擬器動力學和獎勵函數(shù)的SHAC方法。在一個包含80個任務(wù)的設(shè)置中（右圖），使用了一個龐大的4800萬參數(shù)的世界模型，PWM能夠持續(xù)勝過使用相同世界模型的TD-MPC2方法，而無需在線規(guī)劃。

單任務(wù)結(jié)果

PWM: 基于世界模型的策略學習-AI.x社區(qū)

圖中顯示了50％的IQM（實線）、均值（虛線）和所有5個任務(wù)和5個隨機種子的95％置信區(qū)間。PWM能夠獲得比無模型的基準方法PPO和SAC、使用與PWM相同世界模型的TD-MPC2以及使用真實動力學和獎勵函數(shù)的SHAC更高的獎勵。這些結(jié)果表明，經(jīng)過良好正則化的世界模型可以平滑優(yōu)化空間，從而實現(xiàn)更好的一階梯度優(yōu)化。

多任務(wù)結(jié)果

PWM: 基于世界模型的策略學習-AI.x社區(qū)

圖中顯示了PWM和TD-MPC2在30個和80個多任務(wù)基準測試上的性能，結(jié)果基于10個隨機種子。PWM能夠在使用相同世界模型且無需任何形式的在線規(guī)劃的情況下勝過TD-MPC2，這使其成為大型世界模型更可擴展的方法。右圖將PWM（多任務(wù)策略）與單任務(wù)專家SAC和DreamerV3進行了比較。令人印象深刻的是，PWM能夠在多任務(wù)情況下與它們的性能相匹配，同時只使用離線數(shù)據(jù)進行訓練。

譯自（有刪改）：https://www.imgeorgiev.com/pwm

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/UQqEdQl1YIuwqp-3ytCMpA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

基于規(guī)則學習的關(guān)系模式知識圖譜嵌入研究

mb5f8eba9bdb0af ? 3669瀏覽 ? 0回復
擁擠場景中基于深度學習的目標檢測

mb61e52f0ac174a ? 2737瀏覽 ? 0回復
Sora的狂歡、世界模型和AGI

lintoms ? 2422瀏覽 ? 0回復
基于擴散模型的，開源世界模型DIAMOND

Aceryt ? 2790瀏覽 ? 0回復
GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界

duhorse ? 2149瀏覽 ? 0回復
大模型的訓練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 7289瀏覽 ? 0回復
基于網(wǎng)格環(huán)境的模仿學習技術(shù)實戰(zhàn)探索

51CTO內(nèi)容精選 ? 2647瀏覽 ? 0回復
基于關(guān)系型深度學習的自助機器學習

51CTO內(nèi)容精選 ? 1927瀏覽 ? 0回復
《深度學習 “魔法”：數(shù)據(jù)增強策略深度剖析》

智能交互引擎 ? 2236瀏覽 ? 0回復
一種基于學習的電池壽命預測（Python）

步驚云_32 ? 2259瀏覽 ? 0回復
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2375瀏覽 ? 0回復
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 2727瀏覽 ? 0回復
基于多模態(tài)深度強化學習的投資組合優(yōu)化

靈度智能 ? 2676瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態(tài)優(yōu)化

靈度智能 ? 3147瀏覽 ? 0回復
上交&哈佛提出FluxSR：首個基于12B+大模型的單步擴散真實世界超分模型

angel ? 2806瀏覽 ? 0回復
X-IL：系統(tǒng)化探索模仿學習策略的設(shè)計空間

頓數(shù)AI ? 2188瀏覽 ? 0回復
Logic-RL：基于規(guī)則強化學習的推理釋放

頓數(shù)AI ? 1852瀏覽 ? 0回復
基于代理知識蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 1113瀏覽 ? 0回復
深度學習！構(gòu)建基于LangGraph的RAG多智能體研究工具

Halo咯咯 ? 1262瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇： ACL2024：一個開源的通用語言代理訓練框架LUMOS

下一篇： ClutterGen：用于機器人學習的雜亂場景生成器

社區(qū)精華內(nèi)容

目錄

<menuitem id="5rmm8"><pre id="5rmm8"><legend id="5rmm8"></legend></pre></menuitem>

<sub id="5rmm8"></sub>