自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

100萬美元圖靈獎獎金,強化學(xué)習(xí)師徒想獻給科研自由

人工智能
80年代,當(dāng)強化學(xué)習(xí)被冷落,這對師徒?jīng)]有放棄;如今,重看來時路,他們給出的建議仍然是,「堅持」住自己的科研思想。

3月5日,計算機學(xué)會(ACM)宣布Andrew Barto和Richard Sutton獲得圖靈獎,以表彰其在強化學(xué)習(xí)領(lǐng)域做出的奠基性貢獻。

自從9年前AlphaGo圍棋大勝,引爆全民RL狂歡,再到如今Deepseek-R1等推理模型的火熱,足以證明強化學(xué)習(xí)在人工智能領(lǐng)域的長久影響力。

圖片

最近,Communications of the ACM發(fā)布了一段對師徒二人的采訪,從強化學(xué)習(xí)的研究經(jīng)歷,聊到對人工智能的未來預(yù)測。

Barto側(cè)重于多智能體協(xié)作學(xué)習(xí),Sutton則認為AGI還需要至少幾十年,但最終一定能實現(xiàn),二人對AI的未來以及強化學(xué)習(xí)的應(yīng)用前景都充滿希望!

關(guān)于兩人共同獲得的100萬美元圖靈獎獎金,目前尚未確定具體用途。

Sutton表示可能將其份額捐贈給共同創(chuàng)立的Openmind研究所,給青年科學(xué)家提供「奢侈」的科研自由,讓他們像自己當(dāng)年那樣專注探索基礎(chǔ)性問題。

Barto則計劃用獎金在馬薩諸塞大學(xué)(UMass)設(shè)立研究生獎學(xué)金。

強化學(xué)習(xí)萌芽

1975年的斯坦福校園里,當(dāng)時還是心理學(xué)專業(yè)的本科生Richard Sutton,翻遍了圖書館里所有關(guān)于機器智能的文獻,認知受到了巨大沖擊。

他對主流的「模式識別」和「示例學(xué)習(xí)」觀點感到失望,認為動物并不是這么學(xué)習(xí)的,而是通過某種獎勵反饋機制(They do things to get rewards.)。

當(dāng)時,唯一將獎勵與學(xué)習(xí)聯(lián)系起來的研究人員是美國空軍實驗室的A. Harry Klopf,認為腦細胞會主動尋求獎勵。

Sutton立即決定給Klopf寫信,并在1978年心理學(xué)畢業(yè)后,在馬薩諸塞大學(xué)阿默斯特分校從事研究,主要工作就是測試Klopf的觀點。

圖片圖片

團隊當(dāng)時有一位博士后Andrew Barto,在接受空軍和國家科學(xué)基金會長達五年的資助后,除了一份報告,并沒有交付出任何成果。

Barto于1970年獲得密歇根大學(xué)數(shù)學(xué)學(xué)士學(xué)位,1975年獲得計算機科學(xué)博士學(xué)位,最終成為UMass自適應(yīng)網(wǎng)絡(luò)實驗室(現(xiàn)為自主學(xué)習(xí)實驗室)的聯(lián)合主任,2012年退休。

圖片圖片

Sutton加入實驗室后,成為了Barto的第一位博士生,二人最終發(fā)展出了現(xiàn)代強化學(xué)習(xí)技術(shù),獎勵也是其中的核心,通過設(shè)計獎勵信號來訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓神經(jīng)元順著預(yù)期方向發(fā)展。

圖片圖片

1984年,Sutton在馬薩諸塞大學(xué)安姆斯特分校(University of Massachusetts at Amherst)獲得了博士學(xué)位,直到1994年,Sutton都是GTE Laboratories的計算機和智能系統(tǒng)實驗室的技術(shù)組的主要成員,隨后又以資深研究科學(xué)家的身份回到了馬薩諸塞大學(xué)安姆斯特分校。

任職期間,Barto和Sutton共同出版了《強化學(xué)習(xí)導(dǎo)論》,獲得了超8萬次引用,2018年又發(fā)行了第二版,至今仍是全球AI學(xué)子的圣經(jīng)。

圖片圖片

同時,Sutton加入AT&T Shannon Laboratory擔(dān)任人工智能部門的主要技術(shù)組成員,研究方向圍繞著決策者與其環(huán)境交互時所面臨的學(xué)習(xí)問題,持續(xù)改進自己對世界的表征和模型的系統(tǒng)。

2003年之后,Sutton成了阿爾伯塔大學(xué)計算機科學(xué)系的教授和 iCORE Chair,領(lǐng)導(dǎo)著強化學(xué)習(xí)與人工智能實驗室(RLAI)。

不過,說起強化學(xué)習(xí)的歷史,Barto也提到,他們的思路并不新鮮。

早在1954年,人工智能先驅(qū)馬文明斯基(Marvin Minsky)的博士學(xué)位論文主題就是模擬神經(jīng)的強化學(xué)習(xí)系統(tǒng),也是IBM計算機科學(xué)家Arthur Samuel用來訓(xùn)練計算機下棋的方法。

圖片圖片

然而,到了20世紀70年代,這個想法已經(jīng)過時,大多數(shù)AI研究員都在設(shè)計專家系統(tǒng),Barto也慶幸自己能夠保持「不合時宜」。

Barto和Sutton提出的一個關(guān)鍵技術(shù)是「時間差分學(xué)習(xí)」(temporal difference learning)。

圖片圖片

比如,想教一臺計算機學(xué)習(xí)下棋,獎勵信號如果是贏得游戲,那中間哪些動作步驟是正確的,仍然無法確定;即時獎勵可以在計算機預(yù)測一步后,反饋出離最終獎勵仍然有多少距離,比如勝率是否增加。

預(yù)測隨時間的變化(時間差)提供強化信號,那么在下次計算機下棋時,就可以采取那些能增加勝率的動作。

破圈

2016年,一場圍棋人機大戰(zhàn),讓強化學(xué)習(xí)廣為人知,連學(xué)術(shù)圈之外的人都能聊兩句「阿爾法狗」。

Google DeepMind開發(fā)的AlphaGo,最終以四勝一敗擊敗李世乭,賽后韓國棋院授予AlphaGo為榮譽九段。

圖片圖片

2017年,AlphaGo Master以3:0的戰(zhàn)績,擊敗了世界排名第一的圍棋棋手柯潔,從此人類棋手再無一人是機器的對手。

可以說,強化學(xué)習(xí)讓「圍棋」死了一半。

之前的機器學(xué)習(xí)方法主要是有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),在有監(jiān)督設(shè)置下,人工標注樣本給機器進行學(xué)習(xí),樣本量有限,無法適應(yīng)「圍棋」這種特征空間很大的情況;而無監(jiān)督學(xué)習(xí)則是自動提取出有效特征,以在數(shù)據(jù)中找到結(jié)構(gòu)。

圖片圖片

這兩種方法在計算中都已被證明是有用的,但都不是生物大腦的學(xué)習(xí)方式。

強化學(xué)習(xí)的思路是,當(dāng)神經(jīng)網(wǎng)絡(luò)實現(xiàn)了一個指定目標(比如贏得棋局)時,就會獲得一定數(shù)值的獎勵;如果失敗了,會得到一個負值獎勵。

機器可以通過不斷試錯來學(xué)習(xí),嘗試不同的移動,最終學(xué)到了在不同場景下應(yīng)該使用哪種移動方式。

此后,強化學(xué)習(xí)一路高歌猛進,不僅攻克了各種電子競技游戲,還引發(fā)了大型語言模型的推理革命,比如OpenAI o系列、DeepSeek-R1等推理模型,已成為新的研究主流。

人工智能的未來

Barto預(yù)測人工智能領(lǐng)域?qū)⑾蚨嘀悄荏w強化學(xué)習(xí)(multi-agent RL)方向演進,由神經(jīng)網(wǎng)絡(luò)社群及其個體獎勵系統(tǒng)將形成互動,這種機制可能進一步催生出協(xié)作網(wǎng)絡(luò),多個模型為實現(xiàn)共同目標而互相獎勵,也可能引發(fā)持有不同目標的智能體之間的利益沖突。

此類交互將對經(jīng)濟學(xué)與博弈論等復(fù)雜領(lǐng)域產(chǎn)生深遠影響。

Sutton則認為人工智能發(fā)展仍處于初級階段,包括向通用人工智能(AGI)的探索,即機器能理解人類認知范圍內(nèi)的所有事物,Sutton堅信強化學(xué)習(xí)將在這一進程中發(fā)揮關(guān)鍵作用。

圖片圖片

談到給年輕計算機研究人員的建議,Barton倡導(dǎo)效仿二人的科研路,勇敢追隨自己的研究興趣,不必在意領(lǐng)域內(nèi)其他人的看法。雖然這很困難,但你必須找到內(nèi)在驅(qū)動力,并盡你最大的能力堅持下去。

Sutton則給出更具體的建議,「堅持寫作」,通過文字記錄來錘煉思想。

一說起計算機科學(xué)的未來,Sutton就充滿信心:未來幾十年內(nèi),人類將徹底破解人工智能的奧秘!這有可能是史上最偉大的智力飛躍,能為其貢獻綿薄之力是我們的榮幸。

參考資料:https://cacm.acm.org/news/a-rewarding-line-of-work/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2012-02-10 09:34:02

2023-06-21 11:10:12

人工智能AI

2024-07-04 15:28:11

2025-03-06 10:07:00

AI強化學(xué)習(xí)技術(shù)

2009-07-03 14:58:32

Silverlight

2009-03-11 11:07:30

女博士圖靈獎IT女性

2025-03-06 07:35:30

2021-02-14 09:59:55

黑客網(wǎng)絡(luò)安全勒索

2017-08-03 09:18:48

PCCore i5SSD

2023-01-10 23:36:22

AI律師辯護

2021-10-11 14:07:28

比特幣虛擬貨幣加密貨幣

2025-03-12 10:59:36

2023-05-04 07:22:22

微軟Windows

2015-09-23 12:25:53

2011-03-21 10:02:42

甲骨文sunsun.com

2013-01-28 10:56:48

開心農(nóng)場云服務(wù)

2024-07-12 11:44:39

2023-06-21 13:43:00

AI測試

2023-11-28 15:44:38

模型訓(xùn)練

2025-05-08 09:16:00

模型強化學(xué)習(xí)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號