自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首次將「教導(dǎo)主任」引入模型蒸餾,大規(guī)模壓縮優(yōu)于24種SOTA方法

人工智能 新聞
來自人民中科和中科院自動化所的研究者,他們提出了一種基于 “教導(dǎo)主任 - 教師 - 學(xué)生” 模式的統(tǒng)一的模型壓縮技術(shù)。在與 24 種主流模型壓縮方法進(jìn)行比較后,證明本文所提方法的優(yōu)越性。

面對越來越深的深度學(xué)習(xí)模型和海量的視頻大數(shù)據(jù),人工智能算法對計算資源的依賴越來越高。為了有效提升深度模型的性能和效率,通過探索模型的可蒸餾性和可稀疏性,本文提出了一種基于 “教導(dǎo)主任 - 教師 - 學(xué)生” 模式的統(tǒng)一的模型壓縮技術(shù)。

該成果由人民中科和中科院自動化所聯(lián)合研究團(tuán)隊合作完成,相關(guān)論文發(fā)表在人工智能頂級國際期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 上。該成果是首次將 “教導(dǎo)主任” 角色引入模型蒸餾技術(shù),對深度模型的蒸餾與裁剪進(jìn)行了統(tǒng)一。

圖片

論文地址:https://ieeexplore.ieee.org/abstract/document/9804342

目前該項成果已經(jīng)應(yīng)用于人民中科自主研發(fā)的跨模態(tài)智能搜索引擎 “白澤”?!鞍诐伞?打破圖文音視等不同模態(tài)間信息表達(dá)的隔閡,將文字、圖片、語音和視頻等不同模態(tài)信息映射到一個統(tǒng)一特征表示空間,以視頻為核心,學(xué)習(xí)多個模態(tài)間統(tǒng)一的距離度量,跨越文字、語音、視頻等多模態(tài)內(nèi)容的語義鴻溝,實現(xiàn)大一統(tǒng)的搜索能力。

然而面對海量的互聯(lián)網(wǎng)數(shù)據(jù)尤其是視頻大數(shù)據(jù),跨模態(tài)的深度模型對計算資源的消耗逐漸提升?;谠擁椦芯砍晒?,“白澤”能夠在保證算法性能的情況下,將模型大小進(jìn)行大規(guī)模壓縮,從而實現(xiàn)高通量低功耗的跨模態(tài)智能理解和搜索能力。根據(jù)初步的實際應(yīng)用情況來看,該項技術(shù)能夠?qū)⒋竽P偷膮?shù)規(guī)模壓縮平均四倍以上。一方面能夠極大降低模型對 GPU 服務(wù)器等高性能計算資源的消耗,另一方面能夠?qū)o法在邊緣端部署的大模型經(jīng)過蒸餾壓縮后實現(xiàn)邊緣端的低功耗部署。

模型壓縮的聯(lián)合學(xué)習(xí)框架

深度算法模型的壓縮和加速可通過蒸餾學(xué)習(xí)或結(jié)構(gòu)化稀疏裁剪實現(xiàn),但這兩個領(lǐng)域均存在一些局限性。對于蒸餾學(xué)習(xí)方法,旨在訓(xùn)練一個輕量化模型(即學(xué)生網(wǎng)絡(luò))來模擬復(fù)雜龐大的模型(即教師網(wǎng)絡(luò))。在教師網(wǎng)絡(luò)的指導(dǎo)下,學(xué)生網(wǎng)絡(luò)可以獲得比單獨訓(xùn)練的更優(yōu)性能。

然而,蒸餾學(xué)習(xí)算法僅僅專注于提升學(xué)生網(wǎng)絡(luò)的性能,往往忽略了網(wǎng)絡(luò)結(jié)構(gòu)的重要性。學(xué)生網(wǎng)絡(luò)的結(jié)構(gòu)一般是預(yù)定義好的,并且在訓(xùn)練過程中是固定的。

對于結(jié)構(gòu)化稀疏裁剪或濾波器裁剪,這些方法旨在將一個冗余繁雜的網(wǎng)絡(luò)裁剪成一個稀疏緊致的網(wǎng)絡(luò)。然而,模型裁剪僅僅用于獲得一個緊致的結(jié)構(gòu)。目前已有方法都沒有充分利用原始復(fù)雜模型所包含的“知識”。近期研究為了平衡模型性能和大小,將蒸餾學(xué)習(xí)和結(jié)構(gòu)化稀疏裁剪進(jìn)行結(jié)合。但是這些方法僅限于簡單的損失函數(shù)的結(jié)合。

為了深入分析以上問題,該研究首先對模型進(jìn)行基于壓縮感知訓(xùn)練,通過分析模型性能和結(jié)構(gòu)發(fā)現(xiàn),對于深度算法模型,存在兩個重要屬性:可蒸餾性(distillability)和可稀疏性(sparsability)。

具體而言,可蒸餾性指的是能夠從教師網(wǎng)絡(luò)中蒸餾出有效知識的密度。它可以通過學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)指導(dǎo)下所獲得的性能收益來衡量。例如,擁有更高可蒸餾性的學(xué)生網(wǎng)絡(luò)可以獲得更高性能??烧麴s性也可以在網(wǎng)絡(luò)層級別上被定量分析。

如圖 1-(a)所示,柱形圖表示蒸餾學(xué)習(xí)損失梯度和真值分類損失梯度之間的余弦相似度(Cosine Similarity)。更大的余弦相似度說明當(dāng)前蒸餾的知識對于模型性能更有幫助。這樣,余弦相似度也可以成為可蒸餾性的一種度量。由圖 1-(a)可得,可蒸餾性隨著模型層數(shù)變深逐漸增大。這也解釋了為什么常規(guī)使用蒸餾學(xué)習(xí)的監(jiān)督均施加在模型最后幾層中。并且,在不同的訓(xùn)練輪次,學(xué)生模型也有不同的可蒸餾性,因為隨著訓(xùn)練時間變化余弦相似度也在改變。因此,在訓(xùn)練過程中對不同層進(jìn)行可蒸餾性的動態(tài)分析十分必要。

另一方面,可稀疏性指的是模型在有限精度損失下能夠獲得的裁剪率(或稱壓縮率)。更高的可稀疏性對應(yīng)更高裁剪率的潛力。如圖 1-(b)所示,網(wǎng)絡(luò)的不同層或模塊展現(xiàn)了不同的可稀疏性。類似于可蒸餾性,可稀疏性也可以在網(wǎng)絡(luò)層級別和時間維度進(jìn)行分析。然而,目前沒有方法去探索和分析可蒸餾性和可稀疏性?,F(xiàn)有方法常常使用一種固定的訓(xùn)練機(jī)制,這樣很難達(dá)到一個最優(yōu)結(jié)果。

圖片

圖片

圖 1 深度神經(jīng)網(wǎng)絡(luò)的可蒸餾性和可稀疏性示意圖

為了解決以上問題,該研究分析了模型壓縮的訓(xùn)練過程,從而獲得有關(guān)可蒸餾性和可稀疏性的相關(guān)發(fā)現(xiàn)。受這些發(fā)現(xiàn)啟發(fā),該研究提出了一種基于動態(tài)可蒸餾性與可稀疏性聯(lián)合學(xué)習(xí)的模型壓縮方法。它能動態(tài)結(jié)合蒸餾學(xué)習(xí)和結(jié)構(gòu)化稀疏裁剪,通過學(xué)習(xí)可蒸餾性和可稀疏性,自適應(yīng)地調(diào)節(jié)聯(lián)合訓(xùn)練機(jī)制。

與常規(guī)的 “教師 - 學(xué)生(Teacher-Student)” 框架不同,本文提出的方法能夠被描述成 “在學(xué)校學(xué)習(xí)(Learning-in-School)” 框架,因為它包含三大模塊:教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)和教導(dǎo)主任網(wǎng)絡(luò)。

具體而言,與之前相同,教師網(wǎng)絡(luò)教導(dǎo)學(xué)生網(wǎng)絡(luò)。而教導(dǎo)主任網(wǎng)絡(luò)負(fù)責(zé)控制學(xué)生網(wǎng)絡(luò)學(xué)習(xí)的強(qiáng)度以及學(xué)習(xí)的方式。通過獲取當(dāng)前教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的狀態(tài),教導(dǎo)主任網(wǎng)絡(luò)可以評估當(dāng)前學(xué)生網(wǎng)絡(luò)的可蒸餾性和可稀疏性,然后動態(tài)地平衡和控制蒸餾學(xué)習(xí)監(jiān)督和結(jié)構(gòu)化稀疏裁剪監(jiān)督的強(qiáng)度。

為了優(yōu)化本文方法,該研究還提出一種基于交替方向乘子法的蒸餾學(xué)習(xí) & 裁剪的聯(lián)合優(yōu)化算法,來更新學(xué)生網(wǎng)絡(luò)。為了優(yōu)化和更新教導(dǎo)主任網(wǎng)絡(luò),本文提出一種基于元學(xué)習(xí)的教導(dǎo)主任優(yōu)化算法。借助動態(tài)調(diào)節(jié)監(jiān)督信號,反過來可蒸餾性也能被影響。如圖 1-(a)所示,本文方法證明能夠延緩可蒸餾性的下降趨勢,并且通過合理利用蒸餾的知識,提升了整體的可蒸餾性。

本文方法的整體算法框架和流程圖如下圖所示。該框架包含三大模塊,教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)和教導(dǎo)主任網(wǎng)絡(luò)。其中,初始的待壓縮裁剪的復(fù)雜冗余網(wǎng)絡(luò)被看作教師網(wǎng)絡(luò),而在后面的訓(xùn)練過程中,逐漸被稀疏的原始網(wǎng)絡(luò)被看作是學(xué)生網(wǎng)絡(luò)。教導(dǎo)主任網(wǎng)絡(luò)是一個元網(wǎng)絡(luò),它輸入教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的信息來衡量當(dāng)前可蒸餾性和可稀疏性,從而控制蒸餾學(xué)習(xí)和稀疏的監(jiān)督強(qiáng)度。

這樣,在每一時刻,學(xué)生網(wǎng)絡(luò)都能被動態(tài)地蒸餾知識指導(dǎo)和被稀疏。例如,當(dāng)學(xué)生網(wǎng)絡(luò)有更高的可蒸餾性,則教導(dǎo)主任會讓更強(qiáng)的蒸餾監(jiān)督信號指導(dǎo)學(xué)生網(wǎng)絡(luò)(見圖 2 中粉色箭頭信號);與此相反,當(dāng)學(xué)生網(wǎng)絡(luò)有更高的可稀疏性,教導(dǎo)主任會讓更強(qiáng)的稀疏監(jiān)督信號施加于學(xué)生網(wǎng)絡(luò)中(見圖 2 中橙色箭頭信號)。

圖片

圖 2 基于可蒸餾性與可稀疏性聯(lián)合學(xué)習(xí)的模型壓縮算法示意圖

實驗結(jié)果

實驗將本文提出的方法與 24 種主流模型壓縮方法(包括稀疏裁剪方法和蒸餾學(xué)習(xí)方法)在小規(guī)模數(shù)據(jù)集 CIFAR 和大規(guī)模數(shù)據(jù)集 ImageNet 上進(jìn)行比較。實驗結(jié)果如下圖所示,結(jié)果證明本文所提方法的優(yōu)越性。

表 1 在 CIFAR10 上的模型裁剪結(jié)果性能對比:

圖片

表 2 在 ImageNet 上的模型裁剪結(jié)果性能對比:

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-01-03 16:54:27

字節(jié)跳動深度學(xué)習(xí)

2025-05-12 09:00:00

2017-01-20 08:53:37

數(shù)據(jù)系統(tǒng)架構(gòu)驅(qū)動

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2013-04-07 13:58:00

2023-06-28 08:23:41

搜索語義模型

2022-07-07 11:00:09

美團(tuán)模型實踐

2025-03-18 08:19:01

2024-12-04 09:15:00

AI模型

2009-03-18 08:19:30

Myspace裁員搜索

2010-05-12 11:34:37

WiFi

2011-12-29 17:27:37

IPv6IPv4ARIN

2023-04-06 16:29:18

模型AI

2016-01-29 20:23:23

華為

2017-04-26 13:30:24

爬蟲數(shù)據(jù)采集數(shù)據(jù)存儲

2009-04-09 09:32:00

VoWLANWLAN

2010-09-01 15:16:49

WLAN交換機(jī)結(jié)構(gòu)

2023-07-23 17:30:36

論文模型

2012-01-04 14:58:12

IPv6

2013-10-10 16:54:29

3D 打印3D 打印技術(shù)開源硬件
點贊
收藏

51CTO技術(shù)棧公眾號