自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="jj5if"></tfoot><sub id="jj5if"><p id="jj5if"></p></sub>

<bdo id="jj5if"><rp id="jj5if"></rp></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

人類(lèi)終于創(chuàng)造了惰性人工智能……

作者：讀芯術(shù) 2020-02-06 13:06:52

人工智能深度學(xué)習(xí)

許多文章解釋了強(qiáng)化學(xué)習(xí)（RL）的概念，但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。

許多文章解釋了強(qiáng)化學(xué)習(xí)(RL)的概念，但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。

小芯這次想分享人工智能范式轉(zhuǎn)變課程，討論設(shè)計(jì)權(quán)衡問(wèn)題，并深入研究技術(shù)細(xì)節(jié)。

那么，我們開(kāi)始吧!

首先，喝酒?

想象一下你身處聚會(huì)，有點(diǎn)微醺或酩酊大醉，自愿參加一個(gè)飲酒游戲，想要打動(dòng)一個(gè)(或多個(gè))頗具魅力的泛泛之交。

有人蒙住你的眼睛，給你一杯或一瓶啤酒，喊道：“倒酒!”

你會(huì)怎么做?

可能會(huì)有以下反應(yīng)：該死，我應(yīng)該怎么做?怎樣能贏!要是輸了怎么辦!?

游戲規(guī)則如下：在10秒內(nèi)把啤酒灌滿，盡可能接近玻璃杯上的標(biāo)記?？梢园哑【频惯M(jìn)倒出。

RL(強(qiáng)化學(xué)習(xí))解決方案面臨著類(lèi)似的任務(wù)，高大上且有意義，歡迎了解。

現(xiàn)實(shí)世界中的啤酒問(wèn)題

環(huán)保共享單車(chē)業(yè)務(wù)存在一個(gè)大問(wèn)題。一天中，每個(gè)單車(chē)停放處(杯)的共享單車(chē)(啤酒)數(shù)量過(guò)多或不足。

紐約市單車(chē)停放處的單車(chē)過(guò)剩(左圖)和不足(右圖)

對(duì)于騎自行車(chē)的人來(lái)說(shuō)，這十分不便，并且要花費(fèi)數(shù)百萬(wàn)美元來(lái)管理運(yùn)營(yíng)，也不劃算。不久前，筆者在紐約大學(xué)的團(tuán)隊(duì)任務(wù)是提供人工智能解決方案，將人工干預(yù)降到最小，幫助管理自行車(chē)庫(kù)存。

目標(biāo)：每天將各個(gè)單車(chē)停放處的數(shù)量保持在1至50之間(想想杯子上的標(biāo)記)。這在共享經(jīng)濟(jì)中被稱為“再平衡問(wèn)題”。

限制條件：由于運(yùn)營(yíng)限制，團(tuán)隊(duì)每天每小時(shí)只能移動(dòng)1、3或10輛單車(chē)(可以倒入或倒出的啤酒量)。當(dāng)然，他們可以選擇什么都不做。團(tuán)隊(duì)移動(dòng)的單車(chē)越多，價(jià)格越昂貴。

惰性RL(強(qiáng)化學(xué)習(xí))解決方案

團(tuán)隊(duì)決定使用RL (強(qiáng)化學(xué)習(xí))，它克服了傳統(tǒng)方法的許多局限(例如基于規(guī)則和預(yù)測(cè))。

如果想了解RL(強(qiáng)化學(xué)習(xí))以及一些關(guān)鍵概念，喬納森·輝(JonathanHui)撰寫(xiě)了一篇很棒的介紹，托馬斯·西蒙尼尼(ThomasSimonini )詳細(xì)解釋了解決方案中應(yīng)用的RL算法Q-Learning。

事實(shí)證明，人類(lèi)創(chuàng)建了極具惰性的人工智能。當(dāng)單車(chē)存量超過(guò)60輛時(shí)，它通常會(huì)選擇不執(zhí)行任何操作或執(zhí)行最少操作(移動(dòng)1或3輛自行車(chē))。似乎有違常理，但這是非常明智的。

根據(jù)直覺(jué)，可能會(huì)移動(dòng)盡可能多的單車(chē)以將其保持在50輛以下，尤其是在停放處停滿時(shí)。但是，RL(強(qiáng)化學(xué)習(xí))識(shí)別出移動(dòng)成本(移動(dòng)的單車(chē)越多，成本越高)以及在某些情況下成功的機(jī)會(huì)?？紤]到所剩時(shí)間，根本不可能實(shí)現(xiàn)目標(biāo)。它知道最好的選擇是“放棄”。因此，放棄比繼續(xù)嘗試要付出更少的代價(jià)!

所以呢?當(dāng)人工智能做出非常規(guī)決策時(shí)，類(lèi)似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ，它們會(huì)挑戰(zhàn)人類(lèi)的偏見(jiàn)，幫助打破知識(shí)的魔咒，并將人類(lèi)推向未知的道路。

創(chuàng)造人工智能既是一種發(fā)明，也是一種探索人類(lèi)內(nèi)心活動(dòng)的旅程。——DeepMind創(chuàng)始人德米斯·哈薩比斯 (Demis Hassabis)在《經(jīng)濟(jì)學(xué)人》雜志《2020年的世界》(The World in 2020)一文中所言。

但是，請(qǐng)保持謹(jǐn)慎。人類(lèi)價(jià)值體系無(wú)可替代，因此人類(lèi)不會(huì)一落千丈或迷失自我。

哲學(xué)知識(shí)已經(jīng)足夠了，現(xiàn)在現(xiàn)實(shí)一點(diǎn)吧

RL如何管理單車(chē)停放處?

下圖顯示了在有無(wú)RL的情況下，一天當(dāng)中單車(chē)的停放量。

藍(lán)色線是無(wú)RL情況下的單車(chē)停放趨勢(shì)。
黃色線是最初RL情況下移出單車(chē)的趨勢(shì)，很昂貴。
綠色線是訓(xùn)練有素的RL，它僅移出足以滿足目標(biāo)的單車(chē)，更能了解成本。

人類(lèi)終于創(chuàng)造了惰性人工智能……

作者分析

RL如何決定該做什么?

以下是經(jīng)過(guò)98,000次訓(xùn)練后RL解決方案Q表的快照。它解釋了RL如何根據(jù)停放處(垂直數(shù)據(jù))上的自行車(chē)數(shù)量來(lái)決定做什么(水平數(shù)據(jù))。RL不太可能選擇用紅色進(jìn)行操作?？纯吹撞康募t色區(qū)域。

人類(lèi)終于創(chuàng)造了惰性人工智能……

作者分析

RL能有多智能?以下圖表介紹了RL對(duì)停放處的管理情況。通過(guò)深入學(xué)習(xí)，RL可以將整體成功率逐步提高到98%，令人印象深刻。

人類(lèi)終于創(chuàng)造了惰性人工智能……

作者分析

希望大家喜歡這篇文章，并由衷地期待RL在現(xiàn)實(shí)世界中展示出的潛力。

責(zé)任編輯：華軒來(lái)源：今日頭條

人工智能自行車(chē)啤酒

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)