視覺語言模型安全升級(jí),還不犧牲性能!技術(shù)解讀一文看懂|淘天MMLab南大重大出品
模型安全和可靠性、系統(tǒng)整合和互操作性、用戶交互和認(rèn)證……
當(dāng)“多模態(tài)”“跨模態(tài)”成為不可阻擋的AI趨勢時(shí),多模態(tài)場景下的安全挑戰(zhàn)尤其應(yīng)當(dāng)引發(fā)產(chǎn)學(xué)研各界的注意。
應(yīng)對(duì)挑戰(zhàn),淘天集團(tuán)未來生活實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)手南京大學(xué)、重慶大學(xué)、港中文MMLab提出了一種全新的視覺語言模型(VLM)安全對(duì)齊方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。
PSA-VLM通過基于概念瓶頸模型(CBM)的架構(gòu)創(chuàng)新,允許模型在生成答案時(shí)干預(yù)模型的中間層概念預(yù)測,從而優(yōu)化大模型的最終回復(fù),顯著提升VLM在應(yīng)對(duì)視覺安全風(fēng)險(xiǎn)方面的性能。
這一方法不僅在安全性能上取得了卓越的表現(xiàn),同時(shí)保持了模型的通用任務(wù)能力。
一起來看。
視覺語言模型的安全隱憂:從“黑箱”到“可控”
近年來,大語言模型(LLMs)的發(fā)展促進(jìn)了多模態(tài)學(xué)習(xí)的進(jìn)步,使這些強(qiáng)大的語言模型能夠處理來自多種模態(tài)的信息。
其中,視覺語言模型(VLMs)通過整合圖像和文本特征,在視覺問答、圖像描述以及多模態(tài)推理等任務(wù)上取得了顯著成果。
然而,盡管VLMs取得了諸多進(jìn)展,但其安全性仍然存在重大缺陷。
研究發(fā)現(xiàn),在遭遇攻擊時(shí)視覺模態(tài)表現(xiàn)出特別的脆弱性,針對(duì)VLM中視覺模態(tài)的攻擊更容易成功:人們可以通過簡單的攻擊手段繞過語言模型基座已有的安全對(duì)齊機(jī)制,生成有害內(nèi)容。
這一問題對(duì)模型的社會(huì)應(yīng)用造成嚴(yán)重隱患,亟需有效的解決方案。
△風(fēng)險(xiǎn)與誤導(dǎo)數(shù)據(jù)示例
雖然一些研究探索了針對(duì)多模態(tài)模型的防御和對(duì)齊措施,然而,現(xiàn)有防御方法通?;谥庇X設(shè)計(jì)并通過數(shù)據(jù)驅(qū)動(dòng)的端到端訓(xùn)練實(shí)現(xiàn)。
模型仍然是一個(gè)人類難以理解和控制的黑箱。
此外,模型的高復(fù)雜性也帶來了發(fā)現(xiàn)內(nèi)部潛在缺陷的擔(dān)憂,這都帶來了模型具備可解釋性和可控性的需求。
為了克服這些局限性,PSA-VLM的創(chuàng)新在于引入了概念瓶頸模型的核心思想——
通過一層可解釋的高階概念連接輸入和輸出,實(shí)現(xiàn)模型的透明化與可控性。
這不僅讓模型能夠準(zhǔn)確識(shí)別不安全內(nèi)容,還支持用戶在概念層面對(duì)模型預(yù)測進(jìn)行干預(yù),為高風(fēng)險(xiǎn)場景提供了靈活可靠的解決方案。
PSA-VLM的設(shè)計(jì)亮點(diǎn):基于概念瓶頸的安全創(chuàng)新
在VLMs中,安全對(duì)齊通常指的是確保模型對(duì)多模態(tài)輸入(特別是可能包含敏感內(nèi)容的視覺輸入)生成受控且適當(dāng)?shù)捻憫?yīng)。
VLMs在其視覺模態(tài)中面臨特定的脆弱性,這些脆弱性使有害或不適當(dāng)?shù)膬?nèi)容能夠繞過傳統(tǒng)的基于語言的安全機(jī)制。
為了解決這一問題,研究團(tuán)隊(duì)提出了基于CBM框架的漸進(jìn)式安全對(duì)齊方法PSA-VLM。
這種方法通過引入可控的概念瓶頸來隔離安全關(guān)鍵特征,從而通過分層的概念驅(qū)動(dòng)架構(gòu)增強(qiáng)了VLM的安全性。
概念瓶頸模型驅(qū)動(dòng)的核心架構(gòu)
PSA-VLM的核心設(shè)計(jì)圍繞概念瓶頸(Concept Bottleneck)展開。
即通過在視覺輸入與模型輸出之間引入高階安全概念層,實(shí)現(xiàn)模型的可透明化與可控性。
- 顯式概念安全頭(Explicit Concept Safety Head):通過圖片和文本信息的交叉注意力(Cross Attention),將視覺特征映射到具體的安全類型(如NSFW等)與風(fēng)險(xiǎn)等級(jí)(高、中、低),提供精細(xì)化的安全預(yù)測。
- 隱式概念安全標(biāo)記(Implicit Concept Safety Tokens):作為額外的訓(xùn)練令牌,直接嵌入視覺輸入中,提升模型對(duì)隱性風(fēng)險(xiǎn)信號(hào)的敏感度。這些可訓(xùn)練令牌針對(duì)不安全視覺輸入發(fā)出信號(hào),根據(jù)概念特定指標(biāo)對(duì)模型的注意力進(jìn)行對(duì)齊。它可以被理解為語義上不可理解的隱式概念。
多模態(tài)協(xié)同的安全模塊
分為以下2部分:
- 安全投影器(Safety Projector):在視覺編碼器(Image Encoder)之后,專注提取與安全相關(guān)的視覺特征,并將其轉(zhuǎn)化為安全對(duì)齊的表示(Safety-Aligned Features)。
- 文本-視覺對(duì)齊機(jī)制:結(jié)合文本輸入(Text)和安全特征,通過聯(lián)合條件(Joint Condition)生成安全提示(Safe Text),動(dòng)態(tài)引導(dǎo)模型在高風(fēng)險(xiǎn)場景中輸出安全響應(yīng)。
兩階段訓(xùn)練策略
第一階段,安全特征提取。
凍結(jié)大語言模型和視覺編碼器,僅訓(xùn)練安全模塊,聚焦于概念層次的風(fēng)險(xiǎn)識(shí)別與特征對(duì)齊。
初始階段重點(diǎn)是通過安全投影器、令牌和頭部提取和對(duì)齊安全概念。
這些組件學(xué)習(xí)對(duì)視覺輸入中的安全對(duì)齊特征進(jìn)行分類和提取,確保模型對(duì)風(fēng)險(xiǎn)內(nèi)容的響應(yīng)是一致的。
第二階段,模型微調(diào)。
解凍大語言模型,將安全模塊與語言模型深度集成,使其全面吸收安全概念特征,進(jìn)一步提升跨模態(tài)輸入的安全性能。
推理階段的動(dòng)態(tài)安全控制
在推理過程中,PSA-VLM利用安全頭的輸出對(duì)視覺內(nèi)容進(jìn)行動(dòng)態(tài)干預(yù),通過聯(lián)合條件概率調(diào)整生成文本,確保對(duì)高風(fēng)險(xiǎn)內(nèi)容的安全響應(yīng)。
例如,在遇到不恰當(dāng)?shù)妮斎腼L(fēng)險(xiǎn)時(shí),提供可操作的選項(xiàng),讓下游用戶在推理時(shí)按需要進(jìn)行選擇,從而實(shí)現(xiàn)更靈活的安全管理。
△模型架構(gòu)示意圖
通過上述模塊,PSA-VLM不僅提升了視覺語言模型在應(yīng)對(duì)不安全內(nèi)容方面的表現(xiàn),還顯著增強(qiáng)了模型的可解釋性和可控性,為多模態(tài)系統(tǒng)的安全對(duì)齊樹立了新范式。
在提升安全性的同時(shí),通過設(shè)計(jì)高效的安全模塊和對(duì)齊訓(xùn)練策略,確保模型在標(biāo)準(zhǔn)任務(wù)中的性能不受顯著影響,達(dá)成安全與通用能力的平衡。
從安全和通用領(lǐng)域兩方面評(píng)估性能
有害數(shù)據(jù)在現(xiàn)實(shí)場景中多樣且復(fù)雜,不限于單一來源、類型或模態(tài)。
為了解決這個(gè)問題,研究人員收集了多個(gè)數(shù)據(jù)集——他們手動(dòng)將風(fēng)險(xiǎn)圖像分類為6種類型和3個(gè)級(jí)別,以實(shí)現(xiàn)風(fēng)險(xiǎn)控制的分類和分級(jí)。
此外,通過抽樣構(gòu)建了一個(gè)相對(duì)平衡的數(shù)據(jù)集,其中包含約11,000對(duì)風(fēng)險(xiǎn)圖像和文本查詢。
注意,為了避免在微調(diào)期間通用性能下降,其中包括了部分LLaVA和COCO數(shù)據(jù)集作為干凈的安全樣本。
△訓(xùn)練與評(píng)測數(shù)據(jù)來源
具體來說,PSA-VLM團(tuán)隊(duì)從兩個(gè)方面評(píng)估VLM性能:
- 安全性能
- 通用領(lǐng)域性能
為了確保公平比較,研究者首先使用RTVLM基準(zhǔn)和GPT-4評(píng)分為基礎(chǔ)的方法評(píng)估模型。
由于RTVLM數(shù)據(jù)集有限且不包含敏感數(shù)據(jù),研究者擴(kuò)展了評(píng)估范圍,加入了額外的風(fēng)險(xiǎn)數(shù)據(jù)集;然后進(jìn)一步結(jié)合GPT-4和人類專家的主觀評(píng)估,提供全面而可信的評(píng)測。
在通用場景中評(píng)估模型性能時(shí),團(tuán)隊(duì)使用了多個(gè)基準(zhǔn),包括MMBench、SEEDBench和 MME。
首先來看安全性能方面。
團(tuán)隊(duì)首先使用RTVLM基準(zhǔn)對(duì)VLMs的不同維度進(jìn)行了GPT-4評(píng)分分析,包括四個(gè)不同類別以深入理解模型的安全能力。
△RTVLM基準(zhǔn)上的安全性能評(píng)測結(jié)果
如上圖所示,團(tuán)隊(duì)評(píng)估了多個(gè)開源VLM以及GPT-4V和我們的PSA-VLM。
結(jié)果表明,GPT-4V在各種類別上表現(xiàn)良好,尤其是驗(yàn)證碼和越獄場景等安全領(lǐng)域;InternLM-XComposer2在多個(gè)指標(biāo)上表現(xiàn)突出。
經(jīng)過對(duì)齊后,基于LLaVA的PSA-VLM同樣表現(xiàn)出強(qiáng)大的性能,特別是在使用LoRA解凍LLM時(shí),其在政治(8.36)和種族(8.43)上獲得了最高分。
從平均得分來看,PSA-VLM-7B(+LoRA)以8.26的領(lǐng)先得分脫穎而出,其次是未解凍LLM的PSA-VLM,得分為8.18。
值得注意的是,13B模型使用LoRA達(dá)到8.46的最高平均分。
PSA-VLM相較其他VLM的提升安全得分,突顯了附加安全模塊和兩階段安全對(duì)齊策略的有效性。
不過,RTVLM數(shù)據(jù)集不包括NSFW等其他高風(fēng)險(xiǎn)敏感數(shù)據(jù)。
因此,研究團(tuán)隊(duì)在其他風(fēng)險(xiǎn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以評(píng)估PSA-VLM的安全性能。
如下圖所示,PSA-VLM-13B在有害政治(9.49)、NSFW內(nèi)容(8.72)和網(wǎng)絡(luò)欺凌檢測(7.45)上取得了最佳性能,顯著優(yōu)于基線模型LLaVA-v1.5-13B,其得分為6.67、1.11和6.16。
盡管使用LoRA解凍的PSA-VLM-7B在某些任務(wù)中得分稍有下降(如8.91和6.82),但仍顯著優(yōu)于LLaVA-v1.5-7B。
△其他風(fēng)險(xiǎn)數(shù)據(jù)集上的安全性能評(píng)測結(jié)果
接著來看通用領(lǐng)域性能方面。
在PSA-VLM中,提高安全性能并非以犧牲通用性能為代價(jià)。
盡管采取了增強(qiáng)的安全措施,PSA-VLM-7B在MMBench、SEEDBench和MME等通用基準(zhǔn)上仍保持競爭力。
如下圖所示,PSA-VLM-7B在MMBench和SEEDBench通用基準(zhǔn)上表現(xiàn)出改進(jìn),分別取得68.5和65.3的分?jǐn)?shù),顯示出更好的通用性能。
△常見通用多模態(tài)性能測試基準(zhǔn)結(jié)果
此外,在多模態(tài)基準(zhǔn)的評(píng)估中,PSA-VLM-7B有效識(shí)別并拒絕響應(yīng)多個(gè)潛在風(fēng)險(xiǎn)圖像,顯示其對(duì)潛在不安全內(nèi)容的高度敏感性,并強(qiáng)調(diào)了PSA-VLM安全對(duì)齊方法的有效性。
被認(rèn)為不安全的圖像被過濾,從而允許研究過程能使用完全干凈的數(shù)據(jù)評(píng)估通用性能。
這種對(duì)不安全內(nèi)容的響應(yīng)能力反映了PSA-VLM-7B可靠的安全性能,同時(shí)不影響其整體性能能力。
最后,研究團(tuán)隊(duì)還做了進(jìn)一步實(shí)驗(yàn)。
如圖(a)所示,t-SNE可視化展示了二維空間中不安全圖像特征的分離。
每個(gè)子圖對(duì)應(yīng)一組特征集和標(biāo)簽的不同組合,展示了原始和安全特征之間的差異。
在使用安全投影器后,不安全圖像的特征顯著分為不同的簇,這表明提取到的特征和安全標(biāo)簽的相關(guān)性很強(qiáng),有效地學(xué)習(xí)到了輸入中的風(fēng)險(xiǎn)信息。
△圖(a),安全特征的t-SNE可視化
如圖3(b)所示,研究團(tuán)隊(duì)還在信息瓶頸層測試了安全級(jí)別和安全類型的分類性能,包括準(zhǔn)確率和F1得分。
這些得分大多數(shù)在90%以上,表明模型可以有效地完成安全信息提取的任務(wù)。
△圖(b),安全級(jí)別和安全類型的分類性能
對(duì)齊后的輸出實(shí)例如下圖所示:
綜上來看,在主流VLM安全基準(zhǔn)上的測試表明,PSA-VLM在多個(gè)維度上改善了現(xiàn)有VLM的安全性指標(biāo),在部分特定任務(wù)中表現(xiàn)出色。
例如,在LLaVA-1.5 7B基座上,即使只使用4*A100,1小時(shí)的計(jì)算資源進(jìn)行一階段對(duì)齊,就可以將RTVLM基準(zhǔn)測試評(píng)分從6.39提升到8.18。
同時(shí),其概念瓶頸架構(gòu)極大增強(qiáng)了模型的可解釋性和可控性,使其成為高風(fēng)險(xiǎn)領(lǐng)域(如醫(yī)療、教育)的理想選擇。
PSA-VLM的成功應(yīng)用還具有重要的社會(huì)價(jià)值,例如通過實(shí)時(shí)監(jiān)測與干預(yù)不安全內(nèi)容,降低模型被惡意利用的風(fēng)險(xiǎn);增強(qiáng)的透明度與安全性有助于提升用戶對(duì)AI系統(tǒng)的信心,促進(jìn)多模態(tài)模型在社會(huì)場景中的廣泛應(yīng)用。
PSA-VLM的提出嘗試為多模態(tài)模型的可信性與可控性樹立了新標(biāo)桿。
隨著更多數(shù)據(jù)集的完善與模型架構(gòu)的優(yōu)化,基于概念的安全對(duì)齊策略有望在更廣泛的領(lǐng)域中得到應(yīng)用,助力多模態(tài)大模型向更高的社會(huì)價(jià)值邁進(jìn)。
One More Thing
PSA-VLM項(xiàng)目的核心作者包括劉振東,聶遠(yuǎn)碧,譚映水,岳翔宇,崔秋實(shí)等。
整個(gè)團(tuán)隊(duì)中,有四位來自淘天集團(tuán)算法技術(shù)-未來實(shí)驗(yàn)室團(tuán)隊(duì)。
該實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用。
團(tuán)隊(duì)將持續(xù)在大語言模型和多模態(tài)大語言模型對(duì)齊方向的研究。如您有任何疑問、建議、或合作意向,歡迎隨時(shí)通過電子郵件聯(lián)系。
電子郵箱:
tanyingshui.tys@taobao.com
論文鏈接:
https://arxiv.org/pdf/2411.11543
項(xiàng)目主頁:
https://github.com/Yingshui-Tan/PSA-VLM