自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揭開深度強化學(xué)習(xí)的神秘面紗

譯文
人工智能 深度學(xué)習(xí)
深度強化學(xué)習(xí)是人工智能最令人關(guān)注的分支之一。它是人工智能領(lǐng)域一些技術(shù)最顯著成就的背后支撐,包括在棋盤和電子游戲、自動駕駛汽車、機(jī)器人和人工智能硬件設(shè)計方面中擊敗人類冠軍。

【51CTO.com快譯】

 

深度強化學(xué)習(xí)是人工智能最令人關(guān)注的分支之一。它是人工智能領(lǐng)域一些技術(shù)最顯著成就的背后支撐,包括在棋盤和電子游戲、自動駕駛汽車、機(jī)器人和人工智能硬件設(shè)計方面中擊敗人類冠軍。

深度強化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力來解決傳統(tǒng) RL 技術(shù)無法解決的復(fù)雜問題。深度強化學(xué)習(xí)比機(jī)器學(xué)習(xí)的其他分支復(fù)雜得多,在這篇文章中,將在不涉及技術(shù)細(xì)節(jié)的情況下揭開它的神秘面紗。

狀態(tài)、獎勵和行動

每個強化學(xué)習(xí)問題的核心都是一個 agent (代理)和一個環(huán)境。環(huán)境提供是有關(guān)系統(tǒng)狀態(tài)的信息。代理是用來觀察這些狀態(tài)并通過執(zhí)行操作與環(huán)境進(jìn)行交互,其動作可以是離散的(如撥動開關(guān))或連續(xù)的(如轉(zhuǎn)動旋鈕)。這些操作會促使環(huán)境過渡到一個新狀態(tài)。并且根據(jù)新狀態(tài)是否與系統(tǒng)目標(biāo)相關(guān),代理將獲得獎勵(如果將代理遠(yuǎn)離其目標(biāo),獎勵也可以為零或負(fù))。

狀態(tài)-動作-獎勵循環(huán)圖

狀態(tài)-動作-獎勵的每一個循環(huán)都稱為一個步驟。強化學(xué)習(xí)系統(tǒng)繼續(xù)循環(huán)迭代,直到達(dá)到所需的狀態(tài)或達(dá)到最大步驟數(shù)為止。這一系列的步驟稱為一集。在每一片段開始時,環(huán)境被設(shè)置為初始狀態(tài),代理的獎勵重置為零。

強化學(xué)習(xí)的目標(biāo)是訓(xùn)練代理采取行動,以其回報最大化,且代理的動作生成功能被稱為策略。一個代理通常需要很多情節(jié)來學(xué)習(xí)一個好的策略。對于簡單的問題,幾百個情節(jié)可能足以讓代理學(xué)習(xí)一個不錯的策略。對于更復(fù)雜的問題,代理可能需要數(shù)百萬次訓(xùn)練才可以實現(xiàn)。

強化學(xué)習(xí)系統(tǒng)有更微妙的細(xì)微差別。例如,RL 環(huán)境可以是確定性的或非確定性的。在確定性環(huán)境中,多次運行一系列狀態(tài)-動作對總是會產(chǎn)生相同的結(jié)果。相比之下,在非確定性 RL 問題中,環(huán)境狀態(tài)可能會因代理行為以外的事物(例如,時間的流逝、天氣、環(huán)境中的其他代理)而發(fā)生變化。

強化學(xué)習(xí)應(yīng)用

為了更好地理解強化學(xué)習(xí)的組成部分,通過下面幾個例子進(jìn)行講解。

國際象棋:在這里,環(huán)境就是棋盤,環(huán)境的狀態(tài)是棋子在棋盤上的位置。RL 代理可以是其中一名玩家(或者,兩名玩家可以是在同一環(huán)境中分別訓(xùn)練的RL 代理)。每一盤棋都是一集,這一集從初始狀態(tài)開始,黑板和白板的邊緣排列著黑色和白色的棋子。在每一步中,代理都會觀察棋盤(狀態(tài))并移動其中的一個部分(采取行動),從而將環(huán)境轉(zhuǎn)換為新狀態(tài)。該代理會因達(dá)到將死狀態(tài)而獲得獎勵,否則將獲得零獎勵。國際象棋的一個關(guān)鍵挑戰(zhàn)是,棋手在將對手將死之前不會得到任何獎勵,這使得機(jī)器學(xué)習(xí)變得很困難。

Atari Breakout: Breakout 是一款玩家控制球拍的電子游戲。有一個球在屏幕上移動,每次擊中球拍,它就會反彈到屏幕的頂部,那里排列著一排排的磚塊。每次球拍碰到磚塊時,磚塊就會被破壞,隨之球會反彈回來。在 Breakout 中,環(huán)境就是游戲屏幕。狀態(tài)是球拍和磚塊的位置,以及球的位置和速度。代理可以執(zhí)行的操作有向左移動、向右移動或著不移動。每次球擊中磚塊時,代理都會收到正獎勵,如果球越過球拍并到達(dá)屏幕底部,則代理會收到負(fù)獎勵。

自動駕駛汽車:在自動駕駛中,代理就是汽車,環(huán)境就是汽車行駛的空間。RL 代理通過攝像頭、激光雷達(dá)和其他傳感器觀察環(huán)境狀態(tài)。代理可以執(zhí)行導(dǎo)航操作,例如加速、剎車、左轉(zhuǎn)或右轉(zhuǎn)等。RL 代理會因為保持正常駕駛、避免碰撞、遵守駕駛規(guī)則和遵守交通路線而獲得獎勵。

強化學(xué)習(xí)功能

基本上,強化學(xué)習(xí)的目標(biāo)是以最大化獎勵的方式將狀態(tài)映射到動作。但是 RL 代理究竟學(xué)習(xí)了什么?

RL 系統(tǒng)有三種學(xué)習(xí)算法:

基于策略的算法:這是最常見的優(yōu)化類型。策略將狀態(tài)映射到操作。學(xué)習(xí)策略的 RL 代理可以創(chuàng)建從當(dāng)前狀態(tài)到目標(biāo)的動作軌跡。

例如,實現(xiàn)一個正在優(yōu)化策略以通過迷宮導(dǎo)航并到達(dá)出口的代理。首先,它進(jìn)行隨機(jī)移動,但不會收到任何獎勵。在其中一集中,它最終到達(dá)出口并獲得出口獎勵。它回溯其軌跡,并根據(jù)代理與最終目標(biāo)的接近程度重新調(diào)整每個狀態(tài)-動作對的獎勵。在下一集中,RL 代理將更好地了解給定每個狀態(tài)要采取的操作,從而逐漸調(diào)整策略,直到收斂到最優(yōu)解。

REINFORCE 是一種流行的基于策略的算法?;诓呗缘暮瘮?shù)的優(yōu)勢在于可以應(yīng)用于各種強化學(xué)習(xí)問題。基于策略的算法的權(quán)衡在于,它們的樣本效率低,并且在收斂到最佳解決方案之前需要大量訓(xùn)練。
基于值的算法:基于值的函數(shù)學(xué)習(xí)評估狀態(tài)和動作的值?;谥档暮瘮?shù)可幫助 RL 代理評估當(dāng)前狀態(tài)和操作的未來回報是多少。

基于值的函數(shù)有兩種變體:Q 值和 V 值。Q 函數(shù)是估計狀態(tài)-動作對的預(yù)期回報。V 函數(shù)僅估計狀態(tài)的值。Q 函數(shù)更常見,因為它更容易將狀態(tài)-動作對轉(zhuǎn)換為 RL 策略。

兩種流行的基于值的算法是 SARSA 和 DQN。基于值的算法比基于策略的 RL 具有更高的樣本效率。它們的局限性在于它們僅適用于離散動作空間(除非對其進(jìn)行一些更改)。

基于模型的算法:基于模型的算法采用不同的方法進(jìn)行強化學(xué)習(xí)。他們不是評估狀態(tài)和動作的價值,而是預(yù)測給定當(dāng)前狀態(tài)和動作的環(huán)境狀態(tài)?;谀P偷膹娀瘜W(xué)習(xí)允許agent在采取任何行動之前模擬不同的軌跡。

[[424589]]

基于模型的方法為代理提供了遠(yuǎn)見,并減少了手動收集數(shù)據(jù)的需要。在收集訓(xùn)練數(shù)據(jù)和經(jīng)驗既昂貴又緩慢的應(yīng)用中非常有利(例如,機(jī)器人和自動駕駛汽車)。

但基于模型的強化學(xué)習(xí)的關(guān)鍵挑戰(zhàn)是,創(chuàng)建環(huán)境的真是模型可能非常困難。非確定性環(huán)境,如現(xiàn)實世界,很難建模。在某些情況下,開發(fā)人員設(shè)法創(chuàng)建近似真實環(huán)境的模擬。但是,即使是學(xué)習(xí)這些模擬環(huán)境的模型,也非常困難。
盡管如此,基于模型的算法在諸如國際象棋和圍棋等確定性問題中變得流行。蒙特卡羅樹搜索 (MTCS) 是一種流行的基于模型的方法,可應(yīng)用于確定性環(huán)境。

組合方法:為了克服各類強化學(xué)習(xí)算法的缺點,科學(xué)家們開發(fā)了組合不同類型學(xué)習(xí)函數(shù)元素的算法。例如,Actor-Critic 算法結(jié)合了基于策略和基于值的函數(shù)的優(yōu)點。這些算法使用來自價值函數(shù)(評論家)的反饋來引導(dǎo)策略學(xué)習(xí)者(參與者)朝著正確的方向改進(jìn),從而產(chǎn)生一個更具樣本效率的系統(tǒng)。

為什么要進(jìn)行深度強化學(xué)習(xí)?

到目前為止,還沒有談到深度神經(jīng)網(wǎng)絡(luò)。事實上,可以以任何方式實現(xiàn)上述所有算法。例如,Q-learning是一種經(jīng)典的強化學(xué)習(xí)算法,它在agent與環(huán)境交互時創(chuàng)建了一個狀態(tài)-動作-獎勵值表。在處理狀態(tài)和操作數(shù)量非常少且非常簡單的環(huán)境時,此類方法可以很好地工作。

但是,當(dāng)處理一個復(fù)雜的環(huán)境時,在這個環(huán)境中,動作和狀態(tài)的組合數(shù)量可能會達(dá)到巨大的數(shù)量,或者環(huán)境是不確定的,并且可能具有幾乎無限的狀態(tài),評估每個可能的狀態(tài)-動作對就變得不可能了。

在這些情況下,需要一個近似函數(shù),該函數(shù)可以根據(jù)有限的數(shù)據(jù)學(xué)習(xí)最優(yōu)策略,這就是人工神經(jīng)網(wǎng)絡(luò)所做的。給定正確的結(jié)構(gòu)和優(yōu)化函數(shù),深度神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)最優(yōu)策略,而無需遍歷系統(tǒng)的所有可能狀態(tài)。深度強化學(xué)習(xí)代理仍然需要大量數(shù)據(jù)(例如,在Dota和星際爭霸中進(jìn)行數(shù)千小時的游戲),但它們可以解決經(jīng)典強化學(xué)習(xí)系統(tǒng)無法解決的問題。

例如,深度強化學(xué)習(xí)模型可以使用卷積神經(jīng)網(wǎng)絡(luò)從視覺數(shù)據(jù)中提取狀態(tài)信息,例如攝像機(jī)輸入和視頻游戲圖形。而遞歸神經(jīng)網(wǎng)絡(luò)可以從幀序列中提取有用的信息,比如球的方向,或者汽車是否停放或移動。這種復(fù)雜的學(xué)習(xí)能力可以幫助 RL 代理理解更復(fù)雜的環(huán)境,并將其狀態(tài)映射到動作。

深度強化學(xué)習(xí)可與機(jī)器監(jiān)督學(xué)習(xí)相媲美。該模型生成動作,并根據(jù)來自環(huán)境的反饋調(diào)整其參數(shù)。然而,深度強化學(xué)習(xí)也有一些獨特的挑戰(zhàn),使其不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)。

與監(jiān)督學(xué)習(xí)不同,在監(jiān)督學(xué)習(xí)問題中,模型具有一組標(biāo)記數(shù)據(jù),RL 代理只能訪問其自身經(jīng)驗的結(jié)果。它能夠根據(jù)在不同訓(xùn)練階段收集的經(jīng)驗來學(xué)習(xí)最佳策略。但也可能錯過許多其他導(dǎo)致更好政策的最佳軌跡。強化學(xué)習(xí)還需要評估狀態(tài)-動作對的軌跡,這比每個訓(xùn)練示例與其預(yù)期結(jié)果配對的監(jiān)督學(xué)習(xí)問題更難學(xué)習(xí)。

這種增加的復(fù)雜性增加了深度強化學(xué)習(xí)模型的數(shù)據(jù)要求。但監(jiān)督學(xué)習(xí)不同的是,深度強化學(xué)習(xí)模型在訓(xùn)練期間收集數(shù)據(jù),監(jiān)督學(xué)習(xí)可以提前管理和準(zhǔn)備數(shù)據(jù)。在某些類型的 RL 算法中,在一個片段中收集的數(shù)據(jù)必須在之后被丟棄,并且不能用于進(jìn)一步加快未來片段中的模型調(diào)整過程。

深度強化學(xué)習(xí)與通用人工智能

人工智能社區(qū)對深度強化學(xué)習(xí)的推動程度存在分歧。一些科學(xué)家認(rèn)為,使用正確的 RL 架構(gòu),就可以解決任何類型的問題,包括通用人工智能。這些科學(xué)家相信,強化學(xué)習(xí)與產(chǎn)生自然智能的算法相同,如果有足夠的時間和精力以及適當(dāng)?shù)莫剟?,我們可以重新?chuàng)造人類水平的智能。

其他人則認(rèn)為強化學(xué)習(xí)不能解決人工智能的一些最基本的問題。另一部分人認(rèn)為,盡管深度強化學(xué)習(xí)代理有很多好處,但需要明確定義問題,并且無法自己發(fā)現(xiàn)新問題和解決方案。

無論如何,不可否認(rèn)的是,深度強化學(xué)習(xí)已經(jīng)幫助解決了一些非常復(fù)雜的挑戰(zhàn),并且將繼續(xù)成為 人工智能社區(qū)目前感興趣和研究的一個重要領(lǐng)域。

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:梁菲 來源: TechTalks
相關(guān)推薦

2020-11-03 14:31:55

Ai人工智能深度學(xué)習(xí)

2015-08-20 13:43:17

NFV網(wǎng)絡(luò)功能虛擬化

2010-05-26 19:12:41

SVN沖突

2010-05-17 09:13:35

2021-06-07 08:18:12

云計算云端阿里云

2014-03-12 11:11:39

Storage vMo虛擬機(jī)

2009-06-01 09:04:44

Google WaveWeb

2018-03-01 09:33:05

軟件定義存儲

2023-11-02 09:55:40

2016-04-06 09:27:10

runtime解密學(xué)習(xí)

2009-09-15 15:34:33

Google Fast

2024-02-14 09:00:00

機(jī)器學(xué)習(xí)索引ChatGPT

2016-11-16 09:06:59

2025-01-07 15:07:13

2020-04-14 10:44:01

區(qū)塊鏈滲透測試比特幣

2017-10-16 05:56:00

2021-07-28 21:49:01

JVM對象內(nèi)存

2021-08-11 09:01:48

智能指針Box

2010-06-17 10:53:25

桌面虛擬化

2011-08-02 08:59:53

點贊
收藏

51CTO技術(shù)棧公眾號