PWM: 基于世界模型的策略學習 原創(chuàng)
強化學習(RL)在復雜任務(wù)上取得了令人矚目的成果,但在具有不同實施方式的多任務(wù)設(shè)置中存在困難。世界模型通過學習環(huán)境的模擬來提供可伸縮性,但它們通常依賴于低效的無梯度優(yōu)化方法。近日,佐治亞理工學者聯(lián)合英偉達、加州大學圣地亞哥分校等學者提出了基于大世界模型的策略學習(PWM),這是一種新穎的基于模型的RL算法,它從大型多任務(wù)世界模型中學習連續(xù)控制策略。通過對離線數(shù)據(jù)進行世界模型的預訓練,并將其用于一階梯度策略學習,PWM有效地解決了具有多達152個動作維度的任務(wù),并且勝過使用真實動力學的方法。此外,PWM在80個任務(wù)設(shè)置中進行了擴展,相比于現(xiàn)有基準方法,其獎勵提高了高達27%,而無需昂貴的在線規(guī)劃。
方法概述
PWM是一種新穎的基于模型的RL(MBRL)算法和框架,旨在從大型多任務(wù)世界模型中得出有效的連續(xù)控制策略。利用預訓練的TD-MPC2世界模型,在每個任務(wù)中以小于10分鐘的時間高效地學習控制策略。對復雜的運動任務(wù)進行的實證評估表明,PWM不僅在獎勵上超過了基準方法,還勝過了使用真實模擬動力學的方法。
PWM的預告結(jié)果
對高維連續(xù)控制任務(wù)上的PWM進行評估(左圖),發(fā)現(xiàn)它不僅勝過了無模型的基準方法SAC和PPO,還在獎勵上超過了直接使用模擬器動力學和獎勵函數(shù)的SHAC方法。在一個包含80個任務(wù)的設(shè)置中(右圖),使用了一個龐大的4800萬參數(shù)的世界模型,PWM能夠持續(xù)勝過使用相同世界模型的TD-MPC2方法,而無需在線規(guī)劃。
單任務(wù)結(jié)果
圖中顯示了50%的IQM(實線)、均值(虛線)和所有5個任務(wù)和5個隨機種子的95%置信區(qū)間。PWM能夠獲得比無模型的基準方法PPO和SAC、使用與PWM相同世界模型的TD-MPC2以及使用真實動力學和獎勵函數(shù)的SHAC更高的獎勵。這些結(jié)果表明,經(jīng)過良好正則化的世界模型可以平滑優(yōu)化空間,從而實現(xiàn)更好的一階梯度優(yōu)化。
多任務(wù)結(jié)果
圖中顯示了PWM和TD-MPC2在30個和80個多任務(wù)基準測試上的性能,結(jié)果基于10個隨機種子。PWM能夠在使用相同世界模型且無需任何形式的在線規(guī)劃的情況下勝過TD-MPC2,這使其成為大型世界模型更可擴展的方法。右圖將PWM(多任務(wù)策略)與單任務(wù)專家SAC和DreamerV3進行了比較。令人印象深刻的是,PWM能夠在多任務(wù)情況下與它們的性能相匹配,同時只使用離線數(shù)據(jù)進行訓練。
譯自(有刪改):https://www.imgeorgiev.com/pwm
本文轉(zhuǎn)載自公眾號AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/UQqEdQl1YIuwqp-3ytCMpA??
