自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="3fwxe"></thead>

<menuitem id="3fwxe"></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

作者：機(jī)器之心報(bào)道 2022-01-06 09:57:02

新聞深度學(xué)習(xí)

大規(guī)模數(shù)據(jù)集對(duì)自監(jiān)督預(yù)訓(xùn)練是必要的嗎？Meta AI 認(rèn)為，小數(shù)據(jù)集也能自監(jiān)督預(yù)訓(xùn)練，效果還不錯(cuò)。

目前，計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)被大量參數(shù)化：它們通常有數(shù)千萬或數(shù)億個(gè)參數(shù)，這是它們成功利用大型圖像集合 (如 ImageNet) 的關(guān)鍵。然而，這些高容量模型往往會(huì)在小型（包含數(shù)十萬張圖像）甚至中型數(shù)據(jù)集上過度擬合。因此，有研究者指出在 2014 年：學(xué)習(xí) CNN 的過程相當(dāng)于估計(jì)模型數(shù)百萬個(gè)參數(shù)，這需要大量的帶標(biāo)注的數(shù)據(jù)。

當(dāng)今應(yīng)對(duì)數(shù)據(jù)匱乏問題的主流學(xué)習(xí)范式是，即先在大型數(shù)據(jù)集（如 Imagenet ）上對(duì)模型進(jìn)行預(yù)訓(xùn)練，之后基于特定的任務(wù)以較少的數(shù)據(jù)集微調(diào)模型。這一訓(xùn)練過程通常優(yōu)于從頭開始訓(xùn)練（例如，從頭隨機(jī)初始化參數(shù)）。

這種學(xué)習(xí)范式在許多任務(wù)中取得了 SOTA 性能，例如檢測(cè)、分割、動(dòng)作識(shí)別等。盡管這種方法取得了成功，但我們很難將這種大規(guī)模標(biāo)簽數(shù)據(jù)集提供的好處與預(yù)訓(xùn)練范式的局限性區(qū)分開來。除此以外，在一個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練模型并在另一個(gè)數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)會(huì)引入差異。

來自 Meta AI 等機(jī)構(gòu)的研究者，考慮了一個(gè)僅利用目標(biāo)任務(wù)數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練場(chǎng)景。所用數(shù)據(jù)集包括如 Stanford Cars、Sketch 或 COCO，它們的數(shù)量級(jí)小于 Imagenet。

該研究表明，本文介紹的去噪自編碼器（如 BEiT 或其變體），對(duì)預(yù)訓(xùn)練數(shù)據(jù)的類型和大小更具有魯棒性。與來自 ImageNet 預(yù)訓(xùn)練相比，該研究獲得了具有競(jìng)爭力的性能。在 COCO 上，當(dāng)僅使用 COCO 圖像進(jìn)行預(yù)訓(xùn)練時(shí)，在檢測(cè)和實(shí)例分割任務(wù)上，性能超過了監(jiān)督 ImageNet 預(yù)訓(xùn)練。

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

論文地址：https://arxiv.org/pdf/2112.10740.pdf

論文介紹

本文研究了圖像的數(shù)量及其性質(zhì)如何影響自監(jiān)督模型的質(zhì)量。在這個(gè)初步分析中，該研究將 BEiT 和 SplitMask（在第 4 節(jié)中的變體）分別作為去噪自編碼器和聯(lián)合嵌入方法 DINO（Facebook 發(fā)布的非監(jiān)督學(xué)習(xí)）的代表。

SplitMask 是一種基于視覺 transformer 的去噪自動(dòng)編碼器變體，方法概述如圖 4 所示：

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

SplitMask 架構(gòu)

SplitMask

SplitMask 基于三個(gè)步驟完成：分解（split）、修復(fù)（inpaint）和匹配。與標(biāo)準(zhǔn)視覺 transformer 一樣，圖像首先被分解為 16×16 的 patch，之后 patch 又被分成兩個(gè)不相交的子集 A 和 B。接下來，研究者使用子集 A 的 patch 表示和淺層解碼器，來修復(fù)子集 B 的 patch，反之亦然。最后，通過對(duì)每個(gè)分支對(duì)應(yīng)的解碼器輸出的 patch 表示進(jìn)行平均池化，得到全局圖像描述符。之后研究者嘗試將從子集 A 獲得的圖像全局描述符與從子集 B 獲得的圖像全局描述符相匹配。

編碼器 - 解碼器架構(gòu)

SplitMask 實(shí)現(xiàn) pipeline 依賴于編碼器 - 解碼器架構(gòu)。模型的編碼器是一個(gè)標(biāo)準(zhǔn)的視覺 transformer，具有絕對(duì)位置嵌入。與 BEiT 方法相反，該編碼器不處理掩碼 token（masked tokens）表示，而只處理觀察到的 token 。因此，圖像被劃分為線性嵌入 patch，并將位置嵌入添加到這些表示中。這些表示分為兩個(gè)子集 A 和 B，由標(biāo)準(zhǔn) transformer 層獨(dú)立處理。

全局對(duì)比損失

除了在 patch 級(jí)別計(jì)算 MIM 損失之外，該研究還在圖像級(jí)別使用對(duì)比損失。為此，該研究對(duì)解碼器的所有輸出表示應(yīng)用平均池化操作。每個(gè)圖像獲得兩個(gè)表示 x_a 和 x_b，對(duì)應(yīng)于觀察到的 patch 子集 A 和 B。InfoNCE 損失 [59] 應(yīng)用于這些表示：

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

實(shí)驗(yàn)

首先，實(shí)驗(yàn)研究了計(jì)算機(jī)視覺模型在各種數(shù)據(jù)集上的預(yù)訓(xùn)練和微調(diào)，詳見表 3，表中列出了數(shù)據(jù)集名稱、訓(xùn)練和測(cè)試數(shù)據(jù)分布等信息。

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

預(yù)測(cè)任務(wù)

首先，該研究使用 Mask R-CNN pipeline [8] 在 COCO 目標(biāo)檢測(cè)和實(shí)例分割數(shù)據(jù)集上對(duì) SplitMask 進(jìn)行評(píng)估，表 4 為評(píng)估結(jié)果。

由結(jié)果可得，在相同的 BEiT 模型上，單獨(dú)在 COCO 數(shù)據(jù)集上預(yù)訓(xùn)練的模型與在 ImageNet 上預(yù)訓(xùn)練模型相比，前者下游任務(wù)性能更好。例如，當(dāng)使用基于 ViT 的主干時(shí)，在 COCO 上而不是 ImageNet 上進(jìn)行預(yù)訓(xùn)練會(huì)可使 box AP 提升 +0.4。

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

表 6 為數(shù)字分類數(shù)據(jù)集實(shí)證評(píng)估結(jié)果：

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

表 7 展示了 SplitMask 方法使用 ViT-S 和 ViT-B 主干以及 300 個(gè) epoch 的預(yù)訓(xùn)練與其他最近的基于 Transformer 的自監(jiān)督學(xué)習(xí)方法相比的性能：

超越ImageNet預(yù)訓(xùn)練，Meta AI提SplitMask，小數(shù)據(jù)集自監(jiān)督預(yù)訓(xùn)練

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="wiwli"></p><rt id="wiwli"><code id="wiwli"></code></rt>