提升生成式零樣本學(xué)習(xí)能力,視覺增強(qiáng)動(dòng)態(tài)語義原型方法入選CVPR 2024
雖然我從來沒見過你,但是我有可能「認(rèn)識(shí)」你 —— 這是人們希望人工智能在「一眼初見」下達(dá)到的狀態(tài)。
為了達(dá)到這個(gè)目的,在傳統(tǒng)的圖像識(shí)別任務(wù)中,人們?cè)趲в胁煌悇e標(biāo)簽的大量圖像樣本上訓(xùn)練算法模型,讓模型獲得對(duì)這些圖像的識(shí)別能力。而在零樣本學(xué)習(xí)(ZSL)任務(wù)中,人們希望模型能夠舉一反三,識(shí)別在訓(xùn)練階段沒有見過圖像樣本的類別。
生成式零樣本學(xué)習(xí)(GZSL)是實(shí)現(xiàn)零樣本學(xué)習(xí)的一種有效方法。在生成式零樣本學(xué)習(xí)中,首先需要訓(xùn)練一個(gè)生成器來合成未見類的視覺特征,這個(gè)生成過程是以前面提到的屬性標(biāo)簽等語義描述為條件驅(qū)動(dòng)的。有了生成的視覺特征作為樣本,就可以像訓(xùn)練傳統(tǒng)的分類器一樣,訓(xùn)練出可以識(shí)別未見類的分類模型。
生成器的訓(xùn)練是生成式零樣本學(xué)習(xí)算法的關(guān)鍵,理想狀態(tài)下,生成器根據(jù)語義描述生成的某個(gè)未見類的視覺特征樣本,應(yīng)與此類別真實(shí)樣本的視覺特征具有相同的分布。
在現(xiàn)有的生成式零樣本學(xué)習(xí)方法中,生成器在被訓(xùn)練和使用時(shí),都是以高斯噪聲和類別整體的語義描述為條件的,這限制了生成器只能針對(duì)整個(gè)類別進(jìn)行優(yōu)化,而不是描述每個(gè)樣本實(shí)例,所以難以準(zhǔn)確反映真實(shí)樣本視覺特征的分布,導(dǎo)致模型的泛化性能較差。另外,已見類與未見類所共享的數(shù)據(jù)集視覺信息,即域知識(shí),也沒有在生成器的訓(xùn)練過程中被充分利用,限制了知識(shí)從已見類到未見類的遷移。
為了解決這些問題,華中科技大學(xué)研究生與阿里巴巴旗下銀泰商業(yè)集團(tuán)的技術(shù)專家提出了視覺增強(qiáng)的動(dòng)態(tài)語義原型方法(稱為 VADS),將已見類的視覺特征更充分地引入到語義條件中,推動(dòng)生成器學(xué)習(xí)準(zhǔn)確的語義 - 視覺映射,研究論文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被計(jì)算機(jī)視覺頂級(jí)國際學(xué)術(shù)會(huì)議 CVPR 2024 接收。
具體而言,上述研究呈現(xiàn)了三個(gè)創(chuàng)新點(diǎn):
第一,研究使用視覺特征對(duì)生成器進(jìn)行增強(qiáng),來為零樣本學(xué)習(xí)中的未見類生成可靠的視覺特征,在零樣本學(xué)習(xí)領(lǐng)域中是具有創(chuàng)新性的方法。
第二,研究提出了 VDKL 和 VOSU 兩個(gè)組件,有效地獲取數(shù)據(jù)集的視覺先驗(yàn)并用圖像的視覺特征動(dòng)態(tài)更新預(yù)定義好的類別語義描述,從而有效地實(shí)現(xiàn)了對(duì)視覺特征的利用。
第三,從試驗(yàn)結(jié)果上看,本研究使用視覺特征對(duì)生成器進(jìn)行增強(qiáng)的效果顯著,而且作為一個(gè)即插即用的方法,具有較強(qiáng)的通用性。
研究細(xì)節(jié)
VADS 由兩個(gè)模塊組成:(1)視覺感知域知識(shí)學(xué)習(xí)模塊(VDKL)學(xué)習(xí)視覺特征的局部偏差和全局先驗(yàn),即域視覺知識(shí),這些知識(shí)取代了純高斯噪聲,提供了更豐富的先驗(yàn)噪聲信息;(2)面向視覺的語義更新模塊(VOSU)學(xué)習(xí)如何根據(jù)樣本的視覺表示更新其語義原型,更新的后語義原型中也包含了域視覺知識(shí)。
最終,研究團(tuán)隊(duì)將兩個(gè)模塊的輸出連接為一個(gè)動(dòng)態(tài)語義原型向量,作為生成器的條件。大量實(shí)驗(yàn)表明,VADS 方法在常用的零樣本學(xué)習(xí)數(shù)據(jù)集上實(shí)現(xiàn)了顯著超出已有方法的性能,并可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合,獲得精度的普遍提升。
在視覺感知域知識(shí)學(xué)習(xí)模塊(VDKL)中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺編碼器(VE)和一個(gè)域知識(shí)學(xué)習(xí)網(wǎng)絡(luò)(DKL)。其中,VE 將視覺特征編碼為隱特征和隱編碼。通過使用對(duì)比損失在生成器訓(xùn)練階段利用已見類圖像樣本訓(xùn)練 VE,VE 可以增強(qiáng)視覺特征的類別可分性。
在訓(xùn)練 ZSL 分類器時(shí),生成器生成的未見類視覺特征也被輸入 VE,得到的隱特征與生成的視覺特征連接,作為最終的視覺特征樣本。VE 的另一個(gè)輸出,即隱編碼,經(jīng)過 DKL 變換后形成局部偏差 b,與可學(xué)習(xí)的全局先驗(yàn) p,以及隨機(jī)高斯噪聲一起,組合成域相關(guān)的視覺先驗(yàn)噪聲,代替其他生成式零樣本學(xué)習(xí)中常用的純高斯噪聲,作為生成器生成條件的一部分。
在面向視覺的語義更新模塊(VOSU)中,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)視覺語義預(yù)測(cè)器 VSP 和一個(gè)語義更新映射網(wǎng)絡(luò) SUM。在 VOSU 的訓(xùn)練階段,VSP 以圖像視覺特征為輸入,生成一個(gè)能夠捕獲目標(biāo)圖像視覺模式的預(yù)測(cè)語義向量,同時(shí),SUM 以類別語義原型為輸入,對(duì)其進(jìn)行更新,得到更新后的語義原型,然后通過最小化預(yù)測(cè)語義向量與更新后語義原型之間的交叉熵?fù)p失對(duì) VSP 和 SUM 進(jìn)行訓(xùn)練。VOSU 模塊可以基于視覺特征對(duì)語義原型進(jìn)行動(dòng)態(tài)調(diào)整,使得生成器在合成新類別特征時(shí)能夠依據(jù)更精確的實(shí)例級(jí)語義信息。
在試驗(yàn)部分,上述研究使用了學(xué)術(shù)界常用的三個(gè) ZSL 數(shù)據(jù)集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),對(duì)傳統(tǒng)零樣本學(xué)習(xí)和廣義零樣本學(xué)習(xí)的主要指標(biāo),與近期有代表性的其他方法進(jìn)行了全面對(duì)比。
在傳統(tǒng)零樣本學(xué)習(xí)的 Acc 指標(biāo)方面,該研究的方法與已有方法相比,取得了明顯的精度提升,在三個(gè)數(shù)據(jù)集上分別領(lǐng)先 8.4%,10.3% 和 8.4%。在廣義零樣本學(xué)習(xí)場景,上述研究方法在未見類和已見類精度的調(diào)和平均值指標(biāo) H 上也處于領(lǐng)先地位。
VADS 方法還可以與其他生成式零樣本學(xué)習(xí)方法結(jié)合。例如,與 CLSWGAN,TF-VAEGAN 和 FREE 這三種方法結(jié)合后,在三個(gè)數(shù)據(jù)集上的 Acc 和 H 指標(biāo)均有明顯提升,三個(gè)數(shù)據(jù)集的平均提升幅度為 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。
通過對(duì)生成器生成的視覺特征進(jìn)行可視化可以看出,原本混淆在一起的部分類別的特征,例如下圖 (b) 中顯示的已見類「Yellow breasted Chat」和未見類「Yellowthroat」兩類特征,在使用 VADS 方法后,在圖(c)中能夠被明顯地分離為兩個(gè)類簇,從而避免了分類器訓(xùn)練時(shí)的混淆。
可延展到智能安防和大模型領(lǐng)域
機(jī)器之心了解到,上述研究研究團(tuán)隊(duì)關(guān)注的零樣本學(xué)習(xí)旨在使模型能夠識(shí)別在訓(xùn)練階段沒有圖像樣本的新類別,在智能安防領(lǐng)域具有潛在的價(jià)值。
第一,處理安防場景中新出現(xiàn)的風(fēng)險(xiǎn),由于安防場景下,會(huì)不斷出現(xiàn)新的威脅類型或不尋常的行為模式,它們可能在之前的訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)。零樣本學(xué)習(xí)使安防系統(tǒng)能快速識(shí)別和響應(yīng)新風(fēng)險(xiǎn)類型,從而提高安全性。
第二,減少對(duì)樣本數(shù)據(jù)的依賴:獲取足夠的標(biāo)注數(shù)據(jù)來訓(xùn)練有效的安防系統(tǒng)是昂貴和耗時(shí)的,零樣本學(xué)習(xí)減少了系統(tǒng)對(duì)大量圖像樣本的依賴,從而節(jié)約了研發(fā)成本。
第三,提升動(dòng)態(tài)環(huán)境下的穩(wěn)定性:零樣本學(xué)習(xí)使用語義描述實(shí)現(xiàn)對(duì)未見類模式的識(shí)別,與完全依賴圖像特征的傳統(tǒng)方法相比,對(duì)于視覺環(huán)境的變化天然具有更強(qiáng)的穩(wěn)定性。
該技術(shù)作為解決圖像分類問題的底層技術(shù),還可以在依賴視覺分類技術(shù)的場景落地,例如人、貨、車、物的屬性識(shí)別,行為識(shí)別等。尤其在需要快速增加新的待識(shí)別類別,來不及收集訓(xùn)練樣本,或者難以收集大量樣本的場景(如風(fēng)險(xiǎn)識(shí)別),零樣本學(xué)習(xí)技術(shù)相對(duì)于傳統(tǒng)方法具有較大優(yōu)勢(shì)。
該研究技術(shù)對(duì)于當(dāng)前大模型的發(fā)展有無借鑒之處?
研究者認(rèn)為,生成式零樣本學(xué)習(xí)的核心思想是對(duì)齊語義空間和視覺特征空間,這與當(dāng)前多模態(tài)大模型中的視覺語言模型(如 CLIP)的研究目標(biāo)是一致的。
它們最大的不同點(diǎn)是,生成式零樣本學(xué)習(xí)是在預(yù)先定義好的有限類別的數(shù)據(jù)集上訓(xùn)練和使用,而視覺語言大模型則是通過對(duì)大數(shù)據(jù)的學(xué)習(xí)獲得具有通用性的語義和視覺表征能力,不局限在有限的類別,作為基礎(chǔ)模型,具有更寬廣的應(yīng)用范圍。
如果技術(shù)的應(yīng)用場景是特定領(lǐng)域,可以選擇將大模型針對(duì)此領(lǐng)域進(jìn)行適配微調(diào),在此過程中,與本文相同或相似研究方向的工作,理論上可以帶來一些有益的啟發(fā)。
作者介紹
侯文金,華中科技大學(xué)碩士研究生,感興趣的研究方向包括計(jì)算機(jī)視覺,生成建模,少樣本學(xué)習(xí)等,他在阿里巴巴 - 銀泰商業(yè)實(shí)習(xí)期間完成了本論文工作。
王炎,阿里巴巴 - 銀泰商業(yè)技術(shù)總監(jiān),深象智能團(tuán)隊(duì)算法負(fù)責(zé)人。
馮雪濤,阿里巴巴 - 銀泰商業(yè)資深算法專家,主要關(guān)注視覺和多模態(tài)算法在線下零售等行業(yè)的應(yīng)用落地。