自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

新聞 人工智能
近日,谷歌研究院、劍橋大學(xué)和阿蘭 · 圖靈研究所的幾位研究者在其論文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一種簡(jiǎn)單高效的訓(xùn)練單個(gè)統(tǒng)一模型的方法。

  [[441692]]

Transformer 真的很全能。

Transformers 是一個(gè)靈活的神經(jīng)端到端模型族(family),最開始是為自然語(yǔ)言處理任務(wù)設(shè)計(jì)的。近來,Transformers 已經(jīng)在圖像分類、視頻和音頻等一系列感知任務(wù)上得到應(yīng)用。雖然近來在不同領(lǐng)域和任務(wù)上取得了進(jìn)展,但當(dāng)前 SOTA 方法只能為手頭的每個(gè)任務(wù)訓(xùn)練具有不同參數(shù)的單一模型。

近日,谷歌研究院、劍橋大學(xué)和阿蘭 · 圖靈研究所的幾位研究者在其論文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一種簡(jiǎn)單高效的訓(xùn)練單個(gè)統(tǒng)一模型的方法,他們將該模型命名為 PolyViT,它實(shí)現(xiàn)了有競(jìng)爭(zhēng)力或 SOTA 的圖像、視頻和音頻分類結(jié)果。

在設(shè)計(jì)上,研究者不僅為不同的模態(tài)使用一個(gè)通用架構(gòu),還在不同的任務(wù)和模態(tài)中共享模型參數(shù),從而實(shí)現(xiàn)了潛在協(xié)同作用。從技術(shù)上來講,他們的方法受到了「transformer 是能夠在任何可以 tokenized 的模態(tài)上運(yùn)行的通用架構(gòu)」這一事實(shí)的啟發(fā);從直覺上來講,是由于人類感知在本質(zhì)上是多模態(tài)的,并由單個(gè)大腦執(zhí)行。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

論文地址:https://arxiv.org/abs/2111.12993

下圖 1 為 PolyViT 的結(jié)構(gòu)概覽。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

研究者主要使用的方法是協(xié)同訓(xùn)練(co-training),即同時(shí)在多個(gè)分類任務(wù)(可能跨多個(gè)模態(tài))上訓(xùn)練單個(gè)模型。他們考慮了不同的設(shè)置,同時(shí)解決多達(dá) 9 個(gè)不同的圖像、視頻和音頻分類任務(wù)。如上圖 1 所示,PolyViT 模型能夠執(zhí)行多個(gè)任務(wù),但對(duì)于給定的輸入一次只能執(zhí)行一個(gè)任務(wù)。雖然計(jì)算機(jī)視覺和自然語(yǔ)言領(lǐng)域探索過類似的方法,但研究者不清楚以往的工作是否考慮了多種模態(tài)以及是否使用這種方法實(shí)現(xiàn)了 SOTA 結(jié)果。

我們的協(xié)同訓(xùn)練設(shè)置簡(jiǎn)單實(shí)用。它不需要對(duì)協(xié)同訓(xùn)練數(shù)據(jù)集的每個(gè)組合進(jìn)行超參數(shù)調(diào)整,因?yàn)槲覀兛梢院苋菀椎卣{(diào)整標(biāo)準(zhǔn)單任務(wù)訓(xùn)練的設(shè)置。此外,協(xié)同訓(xùn)練也不會(huì)增加整體訓(xùn)練成本,因?yàn)橛?xùn)練步驟的總數(shù)不超過每個(gè)單任務(wù)基線的總和。

圖像、音頻和視頻上的 Co-training ViT

PolyViT 架構(gòu)

PolyViT 是一個(gè)能夠處理來自多種模態(tài)的輸入的單一架構(gòu)。如上圖 1 所示,研究者在不同的任務(wù)和模態(tài)中共享一個(gè) transformer 編碼器,使得參數(shù)隨任務(wù)數(shù)量呈線性減少。注意,在處理圖像時(shí),具有 L 個(gè)層的 PolyViT 表現(xiàn)得像 L 層的 ViT,處理音頻時(shí)表現(xiàn)得像 L 層的 AST,處理視頻時(shí)表現(xiàn)得像 L 層的未因式分解(unfactorized)的 ViViT。雖然 PolyViT 能夠處理多種模態(tài),但在給定前向傳遞時(shí)只能基于一種模態(tài)執(zhí)行一個(gè)任務(wù)。

PolyViT 部署模態(tài)特定的類 token,即

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

輸入嵌入算子

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

和位置嵌入

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

這使得網(wǎng)絡(luò)可以編碼模態(tài)特定的信息,這些信息又可以被隨后的、共享 transformer 主干所利用。

為了實(shí)現(xiàn)大量任務(wù)和模態(tài)協(xié)同訓(xùn)練的同時(shí)增加模型容量,研究者可以選擇性地納入 L_adapt ≥ 0 模態(tài)特定 transformer 層(他們表示為模態(tài) - 適配器層),這些 transformer 層在 tokenization 之后直接應(yīng)用。在這種情況下,所有模態(tài)和任務(wù)中會(huì)共享 L_=shared = L − L_adapt 層。

協(xié)同訓(xùn)練流程

在使用隨機(jī)梯度下降(SGD)協(xié)同訓(xùn)練的所有任務(wù)中,研究者同時(shí)優(yōu)化所有的 PolyViT 模型參數(shù) θ。因此,在決定如何構(gòu)建訓(xùn)練 batch、計(jì)算梯度以更新模型參數(shù)以及使用哪些訓(xùn)練超參數(shù)時(shí)有很多設(shè)計(jì)上的選擇。

在所有情況下,研究者使用來自單個(gè)任務(wù)中的示例來構(gòu)建自己的訓(xùn)練 minibatch。這一設(shè)計(jì)選擇使得他們?cè)谑褂孟嗤挠?xùn)練超參數(shù)(如學(xué)習(xí)率、batch 大小和動(dòng)量)作為傳統(tǒng)單一任務(wù)基線時(shí),可以評(píng)估梯度和更新參數(shù)。這樣一來,與單一任務(wù)基線相比,研究者無需任何額外的超參數(shù)就可以執(zhí)行多個(gè)任務(wù)上的協(xié)同訓(xùn)練,從而使得協(xié)同訓(xùn)練在實(shí)踐中易于執(zhí)行,并減少執(zhí)行大規(guī)模超參數(shù)掃描(sweep)的需求以實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的準(zhǔn)確性。

在協(xié)同訓(xùn)練過程中,對(duì)于每個(gè) SGD 步,研究者采樣一個(gè)任務(wù)(或數(shù)據(jù)集),然后采樣來自這個(gè)任務(wù)中的 minibatch,評(píng)估梯度并隨后執(zhí)行參數(shù)更新。需要著重考慮的是采樣任務(wù)的順序以及是否在不同的 minibatch 和任務(wù)上累積梯度。研究者在下圖 2 中描述了幾個(gè)任務(wù)采樣計(jì)劃,包括如下:

  • 任務(wù) 1:逐任務(wù)(Task-by-task)
  • 任務(wù) 2:交替(Alternating)
  • 任務(wù) 3:統(tǒng)一任務(wù)采樣(Uniform task sampling)
  • 任務(wù) 4:加權(quán)任務(wù)采樣(Weighted task sampling)
  • 任務(wù) 5:累積梯度(Accumulating gradients)
單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

實(shí)驗(yàn)

研究者在圖像、音頻和視頻三種模態(tài)的 9 個(gè)不同分類任務(wù)上同時(shí)訓(xùn)練了 PolyViT。在圖像分類協(xié)同訓(xùn)練時(shí),他們使用了 ImageNet-1K、 CIFAR-10/100、Oxford-IIIT Pets 和 RESISC45 數(shù)據(jù)集;對(duì)于視頻任務(wù),他們使用了 Kinetics 400 和 Moments in Time 數(shù)據(jù)集;對(duì)于音頻任務(wù),他們使用了 AudioSet 和 VGGSound 數(shù)據(jù)集。

下表 6 為具體實(shí)驗(yàn)設(shè)置:

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

下表 1 展示了不同任務(wù)采樣計(jì)劃在不同模態(tài)和任務(wù)上對(duì)協(xié)同訓(xùn)練性能的影響,粗體表示最高準(zhǔn)確率,下劃線表示次最高準(zhǔn)確率。其中,「Task-by-task」采樣計(jì)劃表現(xiàn)糟糕,僅在一項(xiàng)任務(wù)上實(shí)現(xiàn)了不錯(cuò)的性能,這是災(zāi)難性遺忘(catastrophic forgetting)造成的。

「Accumulated」采樣計(jì)劃需要在所有任務(wù)上使用單一的學(xué)習(xí)率,這是由于所有任務(wù)上的累積梯度被用于執(zhí)行參數(shù)更新。因此,該計(jì)劃僅在圖像數(shù)據(jù)集上表現(xiàn)良好。

「Alternating」、「Uniform」和「Weighted」采樣計(jì)劃表現(xiàn)最好,表明任務(wù)特定的學(xué)習(xí)率以及不同任務(wù)的梯度更新之間的轉(zhuǎn)換對(duì)于準(zhǔn)確率至關(guān)重要。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

使用 PolyViT 的協(xié)同訓(xùn)練

下表 2 展示了用于解決跨圖像、音頻和視頻三種模態(tài)的 9 個(gè)不同任務(wù)的模型訓(xùn)練方法,包括 ViT-Im21K Linear probe、Single-task baseline 和本文的 PolyViT 及變體(分別是 PolyViT L_adapt = 0 和 PolyViT Ladapt = L/2)。

結(jié)果顯示,在單模態(tài)上訓(xùn)練的 PolyViT 在 9 個(gè)數(shù)據(jù)集的 7 個(gè)上實(shí)現(xiàn)了 SOTA 性能,其余 2 個(gè)數(shù)據(jù)集上的準(zhǔn)確率差異可以忽略不計(jì),不超過 0.3%。此外,參數(shù)的總數(shù)量比單個(gè)任務(wù)基線少了 2/3。同時(shí),在使用參數(shù)大大減少的情況下,多模態(tài) PolyViT 也實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

使用 linear probe 評(píng)估學(xué)習(xí)到的表示

通過為一個(gè)新任務(wù)僅僅添加和訓(xùn)練一個(gè)新的線性頭(linear head),研究者對(duì) PolyViT 學(xué)習(xí)到的特征表示進(jìn)行評(píng)估。下表 3 展示了多種模態(tài)上訓(xùn)練的 PolyViT 如何學(xué)習(xí)「在跨圖像、音頻和視頻三種模態(tài)的 11 個(gè)線性評(píng)估任務(wù)上均表現(xiàn)良好的」跨模態(tài)特征表示。同時(shí),表 3 還展示了多種模態(tài)上的協(xié)同訓(xùn)練如何有益于學(xué)習(xí)強(qiáng)大、可遷移且可用于多個(gè)下游任務(wù)的特征表示。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

使用單模態(tài)協(xié)同訓(xùn)練實(shí)現(xiàn) SOTA 性能

受到上表 2 中單模態(tài)協(xié)同訓(xùn)練性能的啟發(fā),研究者使用這種方法在音頻和視頻分類任務(wù)上執(zhí)行了大規(guī)模協(xié)同訓(xùn)練實(shí)驗(yàn)。下表 4 和表 5 顯示,在使用的參數(shù)明顯更少的同時(shí),他們實(shí)現(xiàn)了 SOTA 結(jié)果。

如下表 4 所示,對(duì)于音頻分類,研究者將 PolyViT 與當(dāng)前 SOTA 方法 MBT(audio-only) 及相關(guān)變體 MBT: AS-500k→VGGSound 和 MBT: VGGSound→AS-500k。結(jié)果表明,PolyViT 在兩個(gè)數(shù)據(jù)集上超越了 SOTA 方法,同時(shí)使用的參數(shù)大約是 MBT(audio-only) 的一半。此外,PolyViT 在更小的數(shù)據(jù)集 VGGSound 上實(shí)現(xiàn)了 2.8% 的 Top 1 準(zhǔn)確率提升。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

對(duì)于視頻分類,研究者在 Kinetics-400、Kinetics-600 和 Moments in Time 數(shù)據(jù)集上協(xié)同訓(xùn)練了具有較小 tubelet size 的 PolyViT-Large 模型,并與當(dāng)前 SOTA 模型 ViViT(使用相同的初始化、主干和 token 數(shù)量)進(jìn)行了比較。結(jié)果如下表 5 所示,表明 PolyViT 在三個(gè)數(shù)據(jù)集上均超越了 ViViT。

單一ViT模型執(zhí)行多模態(tài)多任務(wù),谷歌用協(xié)同訓(xùn)練策略實(shí)現(xiàn)多個(gè)SOTA

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2025-02-12 10:20:00

2025-04-07 00:00:00

多模態(tài)大模型

2024-07-30 14:41:58

模型訓(xùn)練

2024-03-25 12:40:19

訓(xùn)練模型

2022-05-16 11:06:54

SOTA谷歌預(yù)訓(xùn)練

2024-12-30 08:33:54

大型模型GeminiLLM

2020-12-16 16:21:06

谷歌架構(gòu)技術(shù)

2024-06-03 06:49:53

2024-06-25 12:47:06

2025-03-19 09:30:00

2024-04-08 12:19:19

AI數(shù)據(jù)

2025-01-08 08:21:16

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2022-09-28 15:34:06

機(jī)器學(xué)習(xí)語(yǔ)音識(shí)別Pytorch

2025-05-14 08:51:00

2023-05-15 12:32:29

GPT-4開源

2023-12-23 23:35:13

語(yǔ)言視覺

2024-11-13 09:39:13

2024-04-22 15:08:35

擴(kuò)散模型自動(dòng)駕駛

2023-10-07 09:29:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)