自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中科大提出動作價值表征學(xué)習(xí)新方法,率先填補長期決策信息的缺失

人工智能 新聞
來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動作價值表征學(xué)習(xí)方法ROUSER。

在視覺強化學(xué)習(xí)中,許多方法未考慮序列決策過程,導(dǎo)致所學(xué)表征缺乏關(guān)鍵的長期信息的空缺被填補上了。

來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動作價值表征學(xué)習(xí)方法ROUSER。

作者從理論上證明了ROUSER能夠使用學(xué)習(xí)到的魯棒表征準確估計動作價值,從而避免了智能體在測試環(huán)境中的決策能力遭到削弱。

圖片

具體而言,ROUSER通過最大化表征與動作價值之間的互信息,來保留長期信息;同時,最小化表征與狀態(tài)-動作對之間的互信息,以濾除無關(guān)特征。

由于動作價值是未知的,ROUSER提出將狀態(tài)-動作對的魯棒表征分解為單步獎勵和下一狀態(tài)-動作對的魯棒表征。

實驗結(jié)果表明,在包括背景干擾與顏色干擾的12項任務(wù)中,ROUSER于其中的11項任務(wù)上優(yōu)于多種當(dāng)前的先進方法。

傳統(tǒng)方法難以捕捉關(guān)鍵長期信息

視覺強化學(xué)習(xí)中的泛化問題近年來受到了廣泛關(guān)注,其研究潛力在于使智能體具備處理現(xiàn)實復(fù)雜任務(wù)的能力,并能在多樣化環(huán)境中表現(xiàn)良好。

這里的泛化能力是指智能體能夠?qū)⑵鋵W(xué)到的策略直接應(yīng)用于未知環(huán)境,即使這些環(huán)境中存在與訓(xùn)練階段不同的視覺干擾(如動態(tài)背景或可控物體顏色變化)。

因此,具備良好泛化能力的智能體可以在面臨未見干擾的環(huán)境時依然保持高性能執(zhí)行任務(wù),無需大量的重新訓(xùn)練。

盡管現(xiàn)有方法以數(shù)據(jù)增廣、對比學(xué)習(xí)等技術(shù)增強了智能體面向環(huán)境視覺干擾的魯棒性,但值得注意的是,這類研究往往僅聚焦于如何從視覺圖像中提取魯棒的、不隨環(huán)境變化的信息,忽略了下游關(guān)鍵的決策過程。

這導(dǎo)致這些方法難以捕捉序列數(shù)據(jù)中關(guān)鍵的長期信息,而這正是視覺強化學(xué)習(xí)泛化能力的核心因素之一。

為了針對性地解決這類問題,作者在信息瓶頸(Information Bottleneck)框架下,提出了魯棒動作價值表征學(xué)習(xí)方法(ROUSER),通過引入信息瓶頸來學(xué)習(xí)能有效捕捉?jīng)Q策目標中長期信息的向量化表征。

分解狀態(tài)-動作對魯棒表征

本文提出的ROUSER主要包括兩個核心思路:

一是為了學(xué)習(xí)能有效捕捉?jīng)Q策目標中長期信息的向量化表征,ROUSER基于信息瓶頸框架,通過最大化表征與動作價值之間的互信息,來保留長期信息;

同時,最小化表征與狀態(tài)-動作對之間的互信息,以濾除無關(guān)特征。

二是由于動作價值是未知的,無法直接最大化表征與動作價值之間的互信息,因此ROUSER提出將狀態(tài)-動作對的魯棒表征分解為僅包含單步獎勵信息的表征和下一狀態(tài)-動作對的魯棒表征。

這樣一來,可以借助已知的單步獎勵,計算用于魯棒表征學(xué)習(xí)的損失函數(shù)。

方法架構(gòu)圖如下所示:

圖片

為實現(xiàn)上述思路,ROUSER主要包括兩個核心模塊——獎勵模型(Reward Model)和魯棒損失(Robust Loss)。

其中獎勵模型旨在學(xué)習(xí)僅包含單步獎勵信息的表征。

具體來說,獎勵模型基于信息瓶頸框架,最大化從狀態(tài)-動作對中提取的獎勵表征與單步獎勵之間的互信息,同時最小化獎勵表征與對應(yīng)狀態(tài)-動作對之間的互信息,從而引導(dǎo)模型學(xué)習(xí)僅包含獎勵信息的表征。

魯棒損失則旨在構(gòu)建可計算的損失函數(shù),學(xué)習(xí)能有效捕捉?jīng)Q策目標中長期信息的向量化表征。

基于對狀態(tài)-動作對的魯棒表征分解技術(shù),構(gòu)建遞歸式損失函數(shù),僅利用獎勵模型編碼的表征即可直接計算該損失。

且該部分僅為損失函數(shù)的構(gòu)建,并沒有更改強化學(xué)習(xí)中批評家(Critic)模型的架構(gòu)。最終旨在學(xué)習(xí)的向量化表征為批評家模型的中間層嵌入(Embedding)。

本文理論證明了ROUSER能夠利用學(xué)習(xí)到的向量化表征準確估計決策目標,即動作價值。

基于這一理論結(jié)果,ROUSER能有效結(jié)合各類連續(xù)和離散控制的視覺強化學(xué)習(xí)算法,以提升其對動作價值估計的準確性,從而提升整體魯棒性。

實驗結(jié)果

在視覺強化學(xué)習(xí)泛化性研究的12個連續(xù)控制任務(wù)中,ROUSER于11個任務(wù)上取得了最優(yōu)性能。

其中下圖的6個任務(wù)是智能體面向物體動態(tài)顏色變化干擾的泛化性能。

圖片

下圖的6個任務(wù)展示了智能體面向背景干擾的泛化性能。

圖片

ROUSER方法的一大特點是可以兼容離散控制任務(wù),本文在Procgen環(huán)境中進行了相關(guān)實驗。

如下表所示,當(dāng)ROUSER與基于價值的VRL方法結(jié)合應(yīng)用于非連續(xù)控制任務(wù)時,也能夠提升智能體的泛化性能。

圖片

更多內(nèi)容請參考原論文與項目主頁。

論文第一作者楊睿,中國科學(xué)技術(shù)大學(xué)2019級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學(xué)習(xí)、自動駕駛等。

論文地址:
https://openreview.net/pdf?id=PDtMrogheZ

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-10-21 10:35:00

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-01-15 13:11:22

模型數(shù)據(jù)

2024-11-04 13:30:00

模型AI

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2017-06-10 16:19:22

人工智能智能體強化學(xué)習(xí)

2023-12-18 13:11:00

AI論文

2023-10-05 06:05:54

谷歌時間訓(xùn)練

2024-12-09 10:15:00

AI技術(shù)

2025-01-16 10:20:00

AI生成動畫

2019-12-30 09:41:59

機器學(xué)習(xí)人工智能計算機

2024-11-04 08:30:00

2021-05-07 09:34:20

量子芯片計算機

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2015-07-20 11:49:56

Wi-Fi

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2011-12-01 14:15:19

信息優(yōu)化惠普

2013-06-19 11:32:32

計算性能ISCHPC

2024-09-29 10:40:00

數(shù)據(jù)模型

2015-08-21 09:14:40

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號