自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

新聞 深度學(xué)習(xí)
Google Research提出兩個(gè)模型EfficientNetV2和CoAtNet,竟然同時(shí)做到了這三點(diǎn),模型下降7倍,訓(xùn)練速度提升10倍,還能拿到sota!

 [[426899]]

隨著神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù)規(guī)模的增長,訓(xùn)練效率正成為深度學(xué)習(xí)的一個(gè)重要焦點(diǎn)。

GPT-3 在小樣本學(xué)習(xí)中表現(xiàn)出卓越的能力,但它需要使用數(shù)千個(gè) GPU 進(jìn)行數(shù)周的訓(xùn)練,因此很難重新訓(xùn)練或改進(jìn)。

相反,如果可以設(shè)計(jì)出更小、更快、但更準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)會(huì)怎樣?

Google 就提出了兩類通過神經(jīng)架構(gòu)和基于模型容量和泛化性的原則性設(shè)計(jì)方法(principled design methodology)得到的神經(jīng)網(wǎng)絡(luò)模型用來圖像識(shí)別。

第一個(gè)是ICML 2021上提出的EfficientNetV2,主要由卷積神經(jīng)網(wǎng)絡(luò)組成,旨在為相對較小的數(shù)據(jù)集(如ImageNet1k,有128萬張圖像)提供更快的訓(xùn)練速度。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

EfficientNet V2基于以前的EfficientNet架構(gòu),為了改進(jìn)原有的方法,Google 研究團(tuán)隊(duì)系統(tǒng)地研究了現(xiàn)代模型TPU/GPU上的訓(xùn)練速度瓶頸,有幾個(gè)發(fā)現(xiàn):

1、使用非常大的圖像進(jìn)行訓(xùn)練會(huì)導(dǎo)致更高的內(nèi)存使用率,從而導(dǎo)致TPU/GPU上的訓(xùn)練速度通常較慢;

2、廣泛使用的深度卷積在TPU/GPU上效率低下,因?yàn)樗鼈兊挠布寐瘦^低;

3、常用的uniform compound scaling將卷積網(wǎng)絡(luò)的每個(gè)階段平均放大,但這并不是最優(yōu)方法。

為了解決這些問題,研究人員提出了一種面向訓(xùn)練感知的神經(jīng)架構(gòu)搜索(train-aware NAS),其中訓(xùn)練速度也包含在優(yōu)化目標(biāo)中,并且使用一種以非均勻方式在不同階段進(jìn)行縮放,模型代碼也已開源。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

文章的第一作者是Mingxing Tan,

訓(xùn)練感知 NAS 的架構(gòu)基于之前的平臺(tái)感知 platform-aware NAS,但與原方法主要關(guān)注推理速度不同,訓(xùn)練感知 NAS 同時(shí)優(yōu)化模型精度、模型大小和訓(xùn)練速度。

模型還擴(kuò)展了原始搜索空間以包含更多對加速器有利的操作,例如 FusedMBConv 通過刪除不必要的操作(例如 平均池化和最大池化)來簡化搜索空間。

由此產(chǎn)生的 EfficientNetV2 網(wǎng)絡(luò)在所有以前的模型上都實(shí)現(xiàn)了更高的準(zhǔn)確性,同時(shí)速度更快,體積縮小了 6.8 倍。

為了進(jìn)一步加快訓(xùn)練過程,研究人員還提出了一種增強(qiáng)的漸進(jìn)學(xué)習(xí)方法(progressive learning),該方法在訓(xùn)練過程中逐漸改變圖像大小和正則化幅度。

漸進(jìn)式訓(xùn)練已用于圖像分類、GANs和語言模型,并取得了不錯(cuò)的效果。該方法側(cè)重于圖像分類,但與以前的方法不同的是,之前的方法通常以精度換取更高的訓(xùn)練速度,它可以略微提高精度,同時(shí)顯著減少訓(xùn)練時(shí)間。

改進(jìn)方法的關(guān)鍵思想是根據(jù)圖像大小自適應(yīng)地改變正則化強(qiáng)度,如dropout 的概率或數(shù)據(jù)增強(qiáng)程度。對于相同的網(wǎng)絡(luò),較小的圖像大小導(dǎo)致網(wǎng)絡(luò)容量較低,因此需要弱正則化;反之亦然,較大的圖像大小需要更強(qiáng)的正則化來防止過度擬合。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

在 ImageNet 和一些遷移學(xué)習(xí)數(shù)據(jù)集上,例如 CIFAR-10/100、Flowers 和 Cars 來評(píng)估 EfficientNetV2 模型。在 ImageNet 上,EfficientNetV2 顯著優(yōu)于以前的模型,訓(xùn)練速度提高了約 5-11 倍,模型尺寸縮小了 6.8 倍,準(zhǔn)確率沒有任何下降。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

第二類是CoAtNet,一種結(jié)合了卷積和自注意的混合模型,其目標(biāo)是在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)更高的精度,如ImageNet21(有1300萬張圖像)和JFT(有數(shù)十億張圖像)。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

雖然EfficientNetV2仍然是一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò),但最近對視覺Transformer(visual Transformer, ViT)的研究表明,基于注意的Transfomer 模型在JFT-300M等大規(guī)模數(shù)據(jù)集上的性能優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。

受這一觀察結(jié)果的啟發(fā),研究人員進(jìn)一步將研究范圍擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò)之外,以期找到更快、更準(zhǔn)確的視覺模型。

研究者系統(tǒng)地研究如何結(jié)合卷積和自注意力來開發(fā)用于大規(guī)模圖像識(shí)別的快速準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)。工作結(jié)果基于一個(gè)觀察結(jié)論,即卷積由于其歸納偏差(inductive bias)通常具有更好的泛化能力(即訓(xùn)練和評(píng)估之間的性能差距),而自注意力Transformer由于其對全局建模的能力更強(qiáng),所以往往具有更強(qiáng)大的概括能力(即適應(yīng)大規(guī)模訓(xùn)練的能力) 。

通過結(jié)合卷積和自注意力,得到的混合模型可以實(shí)現(xiàn)更好的泛化和更大的容量。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

深度卷積和自注意力可以通過簡單的相對注意力自然地統(tǒng)一起來,并且垂直堆疊卷積層和注意力層,可以同時(shí)考慮到每個(gè)階段所需的容量和計(jì)算能力,從而提高泛化性、容量和效率。

在 CoAtNet 架構(gòu)中,給定大小為 HxW 的輸入圖像,首先在第一個(gè)stem階段 (S0) 應(yīng)用卷積并將大小減小到 H/2 x W/2。尺寸隨著每個(gè)階段繼續(xù)減小。Ln 是指層數(shù)。前兩個(gè)階段(S1和S2)主要采用深度卷積組成的MBConv構(gòu)建塊。后兩個(gè)階段(S3和S4)主要采用具有relative self-attention的Transformer塊。與之前 ViT 中的 Transformer 塊不同,這里使用階段之間的池化,類似于 Funnel Transformer。最后,我們分類頭來生成類別預(yù)測概率。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

CoAtNet 模型在許多數(shù)據(jù)集(例如 ImageNet1K、ImageNet21K 和 JFT)中始終優(yōu)于 ViT 模型及其變體。與卷積網(wǎng)絡(luò)相比,CoAtNet 在小規(guī)模數(shù)據(jù)集 (ImageNet1K) 上表現(xiàn)出相當(dāng)?shù)男阅?,并且隨著數(shù)據(jù)大小的增加(例如在 ImageNet21K 和 JFT 上)取得了可觀的收益。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

研究人員還在大規(guī)模 JFT 數(shù)據(jù)集上評(píng)估了 CoAtNets。為了達(dá)到類似的準(zhǔn)確度目標(biāo),CoAtNet 的訓(xùn)練速度比以前的 ViT 模型快 4 倍,更重要的是,在 ImageNet 上達(dá)到了 90.88% 的新的最先進(jìn)的 top-1 準(zhǔn)確度。

小模型大趨勢!Google 提出兩個(gè)模型:體積下降7倍,速度提升10倍

與以前的結(jié)果相比,新提出的模型速度快了4-10倍,同時(shí)在完善的ImageNet數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的90.88%top-1精度。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-05-11 14:45:48

模型人工智能

2009-12-24 09:30:38

Opera性能測試

2014-04-10 11:27:30

DartDart SDK

2023-01-18 09:51:56

模型開源

2021-12-31 09:34:22

PyTorchtransformer模型

2023-07-18 14:19:00

模型AI

2022-12-13 08:45:01

3F傾聽模型

2024-03-19 14:43:17

自動(dòng)駕駛激光

2024-11-13 09:29:41

SpringCRaCCRIU

2011-07-01 10:11:39

2022-04-06 11:10:00

模型訓(xùn)練項(xiàng)目

2023-03-22 13:53:26

芯片英偉達(dá)

2019-07-25 16:28:22

SQL數(shù)據(jù)庫索引

2019-08-13 19:38:24

SQL數(shù)據(jù)索引

2025-03-24 09:08:00

2018-08-23 17:45:52

2019-09-26 08:33:51

Nginx技術(shù)Java

2019-06-10 00:45:01

谷歌開源圖像識(shí)別

2022-12-23 10:50:20

模型開源

2023-12-03 08:49:38

微軟開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)