CVPR 2024 Oral:生命之樹大模型 原創(chuàng)
圖1:使用CLIP目標(c)來訓(xùn)練一個ViT-B/16模型,該模型使用超過45萬個不同的類標簽,所有這些標簽都來自生命之樹的分類標簽(a)。由于文本編碼器是一個自回歸語言模型,因此排序表示僅能依賴于高級別的分類,如類、門和界(b)。這自然導(dǎo)致了標簽的層次表示,有助于視覺編碼器學(xué)習(xí)更符合生命之樹的圖像表示。
自然界的圖像是生物信息的超豐富來源。有許多計算方法和工具,特別是計算機視覺,可以從圖像中提取信息。但是,現(xiàn)有的方法是針對特定任務(wù)的定制模型,并且不能適應(yīng)或擴展到新的問題、情境和數(shù)據(jù)集。
近日,研究人員開發(fā)了第一個大規(guī)模多模態(tài)模型,BioCLIP,用于圖像上的一般生物學(xué)問題。利用生物學(xué)作為計算機視覺應(yīng)用領(lǐng)域的獨特特性:
- 植物、動物和真菌圖像的豐富性和多樣性;
- 豐富的結(jié)構(gòu)化生物知識的可用性。
該工作入選CVPR 2024 Oral。作者發(fā)布了一個大規(guī)模、多樣化的生物圖像數(shù)據(jù)集:TreeOfLife-10M,訓(xùn)練了BioCLIP,并在多樣化的細粒度生物分類任務(wù)上對該方法進行了嚴格的基準測試,發(fā)現(xiàn)BioCLIP始終顯著優(yōu)于現(xiàn)有基線,絕對值提高了17%到20%。內(nèi)在評估進一步揭示了BioCLIP已經(jīng)學(xué)習(xí)到符合生命之樹的層次化表示,從而突顯了其強大的泛化能力。
實驗
在各種各樣的與生物學(xué)相關(guān)的分類任務(wù)上,作者評估了BioCLIP和三個基準模型,包括CLIP、OpenCLIP,以及僅使用與BioCLIP相同過程但僅在iNat21上訓(xùn)練的iNat-only模型。作者對所有模型進行了零樣本分類,并在驗證集上報告準確率。加粗表示每個任務(wù)的最佳性能。
實驗結(jié)果表明,BioCLIP優(yōu)于通用領(lǐng)域的基準模型以及iNat-only模型。
內(nèi)在評估
為什么BioCLIP效果這么好?作者進行了內(nèi)在評估,以了解BioCLIP學(xué)習(xí)到的表示。使用T-SNE在二維平面上繪制了iNat21驗證集中10萬個未見過的圖像的BioCLIP和CLIP的表示,并根據(jù)它們的類別對點進行著色。在下圖中,(B)表示BioCLIP,(O)表示OpenAI的CLIP。
在類群等較高級別上,CLIP和BioCLIP都有良好的分離性,但您可以看到BioCLIP的表示更加細?;?,并包含更豐富的聚類結(jié)構(gòu)。在較低級別上,BioCLIP產(chǎn)生了更具可分辨性的特征,而CLIP的特征往往混亂且缺乏清晰的結(jié)構(gòu)。這表明BioCLIP已經(jīng)學(xué)習(xí)到了符合分類學(xué)層次結(jié)構(gòu)的豐富特征表示,這有助于解釋其在生命之樹上強大的泛化能力。
BioCLIP的表示比OpenAI的CLIP更細?;?,并且包含更豐富的聚類結(jié)構(gòu)。
數(shù)據(jù)集
TreeOfLife-10M是目前可用的最大和最多樣化的生物圖像數(shù)據(jù)集。研究人員從三個來源,包括iNaturalist、BIOSCAN-1M和Encyclopedia of Life中獲取圖像,創(chuàng)建了一個包含1000萬張圖像的數(shù)據(jù)集,涵蓋了45萬多個物種。
參考:
@article{stevens2023bioclip, title={BioCLIP: A Vision Foundation Model for the Tree of Life}, author={Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, year={2023}, eprint={2311.18803}, archivePrefix={arXiv}, primaryClass={cs.CV} }
本文轉(zhuǎn)載自公眾號AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/KgvscZ321hvB-oN2VB7yDQ???
