自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPU面臨挑戰(zhàn)及應(yīng)用場景解析

商務(wù)辦公
在機器學(xué)習(xí)算法上,TPU比傳統(tǒng)的加速方案(谷歌之前使用GPU加速方案)在能耗效率上提升一個數(shù)量級,相比傳統(tǒng)解決方案領(lǐng)先7年(摩爾定律三代節(jié)點)。

?隨著人工智能技術(shù)的成熟,利用人工智能替代自然人腦力勞動終將成為一個萬億美元的廣闊市場,甚至?xí)蔀槔^互聯(lián)網(wǎng)之后的下一個生產(chǎn)力革命。目前主流的人工智能軟件算法是在神經(jīng)網(wǎng)絡(luò)(Neural Networks)技術(shù)基礎(chǔ)上衍生的幾個子類,如CNN(卷積神經(jīng)網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò))等,這些算法的共性特征是都屬于大規(guī)模并行計算任務(wù)。

在人工智能技術(shù)發(fā)展的早期,多種并行計算芯片被應(yīng)用于加速人工智能計算,如GPU/FPGA/神經(jīng)網(wǎng)絡(luò)專用芯片等。其中GPU作為一種相比其他選項較為成熟的產(chǎn)品,在現(xiàn)有的早期項目中廣泛使用。谷歌在圖像識別項目、特斯拉與沃爾沃在其輔助駕駛和自動駕駛項目中均使用GPU加速人工智能算法。

Nvidia日前發(fā)布了2016年的一季報,其在數(shù)據(jù)中心和汽車的業(yè)務(wù)雖然體量較小,和PC游戲等相差數(shù)個數(shù)量級上,卻增速非常高,達(dá)到了63%。Nvidia還針對數(shù)據(jù)中心云計算推出了Pascal運算平臺以及Nvidia自主研發(fā)的人工智能算法??此艷PU已經(jīng)在人工智能的加速計算中占主導(dǎo)地位;那么,未來人工智能的硬件加速也一定由GPU承擔(dān)嗎?事實并非如此,業(yè)內(nèi)已經(jīng)存在各種具備競爭力的替代解決方案。

一、谷歌全新人工智能專用協(xié)處理器:TPU

谷歌在2016年5月末召開的I/O大會披露了TPU(Tensor Processing Unit)專用處理器項目。這種處理器針對谷歌的開源人工智能軟件編程框架Tensor Flow進行了優(yōu)化。

1、TPU 主要思路:針對人工智能算法需求裁剪計算精度

在機器學(xué)習(xí)算法上,TPU比傳統(tǒng)的加速方案(谷歌之前使用GPU加速方案)在能耗效率上提升一個數(shù)量級,相比傳統(tǒng)解決方案領(lǐng)先7年(摩爾定律三代節(jié)點)。

例如在GPU中,通常支持IEEE754-2008標(biāo)準(zhǔn)浮點數(shù)操作,這一浮點數(shù)字寬為32位,其中尾數(shù)字寬為23+1(使用隱藏尾數(shù)技術(shù))位。如果數(shù)據(jù)通道中使用8位字寬的低精度尾數(shù),則GPU中各個計算部件所需的晶體管和功耗均會大大減少。

例如,在GPU計算核心中,面積最大,功耗最高的計算部件是ALU,ALU中最重要的部件是浮點MA(乘加混合)單元,現(xiàn)有技術(shù)下這一單元的延遲與尾數(shù)的字寬log2N成大致正比,而面積/功耗/晶體管數(shù)量大體上與N2log2N成正比。如果字寬由24比特減少到8比特,那么MA的面積可降至約1/14左右,約一個數(shù)量級。由圖可知ALU占據(jù)了GPU芯片面積的很大比例,因此單單優(yōu)化ALU即可獲得足夠提高。

圖片

除了降低字寬所帶來的關(guān)鍵組件優(yōu)化,GPU原有組件中針對圖像處理的組件如光柵、材質(zhì)貼圖單元,均可以根據(jù)人工智能的計算需求選擇優(yōu)化或裁剪。對普通GPU進行深度定制處理,削減在神經(jīng)網(wǎng)絡(luò)算法不需要的數(shù)據(jù)位寬和功能即可達(dá)到谷歌所宣稱的“能耗效率上提升一個數(shù)量級”,因此業(yè)內(nèi)有專家認(rèn)為谷歌采用了此種思路。

2、從谷歌TPU 設(shè)計思路看人工智能硬件發(fā)展趨勢

目前的GPU加速方案以及FPGA加速方案在人工智能計算領(lǐng)域都存明顯缺點:

在計算單元上,GPU的內(nèi)置計算單元主要針對圖像處理設(shè)計,計算精度過高存在浪費;FPGA的LUT功能過于弱小,沒有針對低精度浮點計算優(yōu)化;

在NOC架構(gòu)上,F(xiàn)PGA和GPU原始設(shè)計匹配的目標(biāo)均與神經(jīng)網(wǎng)絡(luò)計算存在很大差異性,因此用于人工智能計算加速都存在一定缺憾。

以上表現(xiàn)在計算需求雷達(dá)圖上即為圖:GPU(藍(lán)線)和FPGA(紅線)均不能較好的覆蓋住人工智能的需求(綠線)。除了進程交互問題外,實時性和計算延遲同樣是人工智能加速的一個重要問題。在人工智能的一些應(yīng)用場景,如無人駕駛汽車中,汽車的運行速度可能高達(dá)40m/s,在計算中額外0.1s的延遲意味著汽車多行駛4米,這就是生與死的差距。GPU的延遲和實時性較差從長期來看會影響其應(yīng)用在類似無人駕駛這樣在實時性和延遲要求較高的場景中。

圖片

4、GPU/FPGA 用于神經(jīng)網(wǎng)絡(luò)計算的弱點:片上網(wǎng)絡(luò)

在人工智能硬件領(lǐng)域,F(xiàn)PGA加速同樣是一條有競爭力的技術(shù)路徑。早在中國搜索引擎巨頭百度就嘗試與Altera合作探索使用FPGA加速神經(jīng)網(wǎng)絡(luò)運算用于搜索結(jié)果的優(yōu)化中,微軟也在bing搜索服務(wù)中做了相似的探索。Auviz Systems公司在2015年發(fā)布了一份研究數(shù)據(jù),在神經(jīng)網(wǎng)絡(luò)計算中,高端FPGA可處理14個或更多圖像/秒/瓦特,而同期一個高端的GPU僅能處理4個圖像/秒/瓦特。

但目前學(xué)術(shù)界已有共識,不管是FPGA還是GPU,由于其最初設(shè)計匹配的計算模型與神經(jīng)網(wǎng)絡(luò)計算模型存在不同,其并行計算核心之間的通信架構(gòu)-NOC(Network on Chip,片上網(wǎng)絡(luò))應(yīng)用在神經(jīng)網(wǎng)絡(luò)運算中均存在缺點。

由于FPGA/GPU針對的并行計算模型不同,其片上網(wǎng)絡(luò)的實現(xiàn)方式也就不同:

GPU最初針對圖像處理SIMT類任務(wù)優(yōu)化,各個處理核心之間的通信較少且形式簡單,因此計算節(jié)點主要通過片上共享存儲通信,原理如圖: A/C計算節(jié)點分別向片上共享存儲的不同地址寫入數(shù)據(jù),然后B/D通過讀數(shù)據(jù)的方式完成A->B/C->D的通信。這種片上網(wǎng)絡(luò)每次通信涉及讀寫片上共享存儲各一次,不僅速度慢,當(dāng)通信量更多(原本不會發(fā)生在圖形處理任務(wù)中)的時候存儲的讀寫端口還會因堵塞成為系統(tǒng)性能的關(guān)鍵瓶頸。

FPGA包含大量細(xì)粒度,可編程,但功能較弱的LUT(Look up table查找表)計算節(jié)點,各個LUT之間通過網(wǎng)格狀NOC連接,網(wǎng)格的節(jié)點具備Routing(路由)功能。FPGA可以提供計算單元間直接通訊功能:A節(jié)點可通過路由網(wǎng)絡(luò)沿著紅色箭頭將數(shù)據(jù)傳輸至芯片上任意計算節(jié)點B,且傳輸路徑動態(tài)可編程。因此網(wǎng)格NOC相比共享內(nèi)存方案能提供大的多的片上通訊容量,相比之下也不易出現(xiàn)瓶頸節(jié)點堵塞問題。Auviz Systems能夠得出FPGA在神經(jīng)網(wǎng)絡(luò)處理中優(yōu)于高端GPU的方案的結(jié)論,很大程度依靠FPGA的片上通信能力而不是羸弱的LUT計算能力。

圖片

神經(jīng)網(wǎng)絡(luò)作為一種并行計算程序,適配的計算節(jié)點通訊硬件是提升性能的關(guān)鍵要素之一。目前FPGA和GPU的片上網(wǎng)絡(luò)架構(gòu)均不完全匹配神經(jīng)網(wǎng)絡(luò)的實際需求,相比之下GPU的共享內(nèi)存連接的匹配度更差一些。學(xué)術(shù)界對于定制特殊的NOC去匹配神經(jīng)網(wǎng)絡(luò)加速需求已有一定研究,但之前因神經(jīng)網(wǎng)絡(luò)算法本身沒有商用化,因此定制NOC硬件這一思路也停留在實驗室內(nèi)。隨著人工智能實用化和產(chǎn)業(yè)化的發(fā)展,這些技術(shù)將對現(xiàn)有的GPU/FPGA方案形成威脅和替代。

二、GPU 未來較適應(yīng)場景解析

GPU雖然不能處理所有大規(guī)模并行計算問題,但在其適應(yīng)的特定計算領(lǐng)域,特別是圖形優(yōu)化處理上依然具備絕對性能優(yōu)勢。GPU未來較為適合拓展應(yīng)用場景應(yīng)為VR/AR(虛擬現(xiàn)實/增強現(xiàn)實)、云計算+游戲結(jié)合、以及云計算服務(wù)器中為特定的大數(shù)據(jù)分析提供加速。在這些領(lǐng)域的增長點有可能是獨立GPU突破現(xiàn)有增長遲緩障礙的新增長領(lǐng)域。

1、VR 應(yīng)用:持續(xù)增長的優(yōu)勢領(lǐng)域

在VR(Virtual Reality,虛擬現(xiàn)實)設(shè)備性能指標(biāo)中,圖像顯示性能是其核心競爭力。在VR中降低從用戶頭部動作到畫面改變的延遲至20毫秒以下是防止用戶眩暈的必要條件;而達(dá)到這點除了需要軟件和OS優(yōu)化以外,足夠的硬件圖像計算能力是基礎(chǔ)。表1舉例了VR圖形顯示的要求以及大眾級顯卡能夠提供的圖形顯示水平:

圖片

正因目前大眾顯卡無法提供VR所需的圖形處理計算能力,現(xiàn)有的兩大主流頭顯Oculus Rift和HTC VIVE均要求配套的PC配置頂級顯卡,如Nvidia GTX970或AMDR9 290級別的顯卡。從長期來看,VR/AR設(shè)備將拉動中高端GPU市場的持續(xù)增長。

VR以及AR(增強現(xiàn)實)更廣闊的應(yīng)用在于獨立一體機上:獨立一體機具備移動能力,讓VR/AR超脫出了客廳應(yīng)用這一范疇,與移動互聯(lián)網(wǎng)結(jié)合后成為每個人都需要消費電子產(chǎn)品。但移動一體機對計算芯片的能耗,體積乃至散熱都有著嚴(yán)格的要求。目前SoC(System on Chip, 片上系統(tǒng))上集成GPU在移動一體機上的優(yōu)勢是獨立GPU顯卡暫時無法動搖的。

2、云計算/大數(shù)據(jù)應(yīng)用

亞馬遜風(fēng)靡全球的計算平臺EC2中,Nvidia GPU已經(jīng)被作為一個重要的并行計算組件提供給客戶,用作大規(guī)模并行浮點數(shù)計算。用戶每使用一個實例可調(diào)用兩個Nvidia Tesla m2050 GPU。在EC2中調(diào)用GPU的原理是AWS的管理程序Hypervisor被直接跳過,而DomU OS和應(yīng)用可以直接通過IO與GPU通信,充分發(fā)揮GPU在浮點數(shù)的并行計算能力。

3、GPU,云和游戲服務(wù)結(jié)合

在現(xiàn)如今互聯(lián)網(wǎng)基礎(chǔ)設(shè)施已經(jīng)完善的市場,把GPU和云計算以及游戲結(jié)合在一起是游戲產(chǎn)業(yè)下一個具有吸引力的發(fā)展方向。

對于游戲開發(fā)者,不需要擔(dān)心盜版問題;對于游戲運營商,云服務(wù)可以獲得更精確的客戶資料,開展新式計費;對于游戲玩家,無需購買昂貴高端游戲主機或PC,初始投資少;對于游戲玩家,云服務(wù)游戲更具備移動性。

目前云計算+GPU+游戲這個模式限于現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施限制,依然沒有大規(guī)模商用,但Nvidia依然對其抱有厚望并積極推動。從這個側(cè)面也可以看出,Nvidia自己也知道GPU未來最主要的應(yīng)用領(lǐng)域依然是游戲的圖像處理上。

GPU還有一塊市場是軍用GPU市場,這一市場與民用GPU市場有著很大不同。民用GPU追求畫面性能的極致,以最好的畫面滿足消費者,特別是游戲玩家的需求;而軍用GPU更多的要求在于高可靠性、高耐用性、抗高空輻射、能在野戰(zhàn)環(huán)境下安全使用。需求的導(dǎo)向不同導(dǎo)致GPU從工藝到芯片設(shè)計理念都截然不同。?

責(zé)任編輯:武曉燕 來源: 架構(gòu)師技術(shù)聯(lián)盟
相關(guān)推薦

2019-12-30 10:40:31

GPU技術(shù)應(yīng)用

2020-02-12 14:42:00

GPU技術(shù)關(guān)鍵參數(shù)應(yīng)用場景

2023-11-12 17:19:07

并行并發(fā)場景

2024-09-19 08:08:25

2011-05-17 15:24:18

Shibboleth認(rèn)證

2010-06-30 17:02:07

靜態(tài)路由

2023-06-27 13:51:07

FPGA數(shù)據(jù)中心程序

2012-10-23 09:32:07

2017-11-23 10:38:01

2009-05-18 13:07:44

類隱藏Java關(guān)鍵字

2011-05-16 15:49:58

JAVA

2022-01-04 13:54:57

應(yīng)用程序IT監(jiān)測

2024-07-01 07:59:07

2017-11-27 09:11:42

SSDceph應(yīng)用

2021-04-20 08:00:00

云計算數(shù)據(jù)分析大數(shù)據(jù)

2013-03-05 09:47:11

2022-09-05 14:46:01

元宇宙區(qū)塊鏈人工智能

2021-12-24 10:24:10

零信任

2019-04-10 15:43:12

SDN場景網(wǎng)絡(luò)架構(gòu)

2015-03-11 13:54:25

云技術(shù)云應(yīng)用云存儲
點贊
收藏

51CTO技術(shù)棧公眾號