無(wú)觸發(fā)后門(mén)成功欺騙AI模型 為對(duì)抗性機(jī)器學(xué)習(xí)提供新的方向
過(guò)去幾年以來(lái),研究人員對(duì)于人工智能系統(tǒng)的安全性表現(xiàn)出愈發(fā)高漲的興趣。隨著AI功能子集在不同領(lǐng)域中的廣泛部署,人們確實(shí)有理由關(guān)注惡意攻擊者會(huì)如何誤導(dǎo)甚至破壞機(jī)器學(xué)習(xí)算法。
目前的一大熱門(mén)安全議題正是后門(mén)攻擊,即惡意攻擊者在訓(xùn)練階段將惡意行為偷偷塞進(jìn)機(jī)器學(xué)習(xí)模型,問(wèn)題將在A(yíng)I進(jìn)入生產(chǎn)階段后快速起效。
截至目前,后門(mén)攻擊在實(shí)際操作上還存在一定困難,因?yàn)槠湓诤艽蟪潭壬弦蕾?lài)于明確的觸發(fā)器。但總部位于德國(guó)的CISPA亥姆霍茲信息安全中心發(fā)布了一項(xiàng)最新研究,表明機(jī)器學(xué)習(xí)模型中的后門(mén)很可能毫不起眼、難以發(fā)覺(jué)。
研究人員將這種技術(shù)稱(chēng)為“無(wú)觸發(fā)后門(mén)”,這是一種在任何情況下都能夠以無(wú)需顯式觸發(fā)方式對(duì)深度神經(jīng)網(wǎng)絡(luò)發(fā)動(dòng)的攻擊手段。
機(jī)器學(xué)習(xí)系統(tǒng)中的經(jīng)典后門(mén)
后門(mén)是對(duì)抗性機(jī)器學(xué)習(xí)中的一種特殊類(lèi)型,也是一種用于操縱AI算法的技術(shù)。大多數(shù)對(duì)抗攻擊利用經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型內(nèi)的特性以引導(dǎo)意外行為。另一方面,后門(mén)攻擊將在訓(xùn)練階段對(duì)抗性漏洞植入至機(jī)器學(xué)習(xí)模型當(dāng)中。
典型的后門(mén)攻擊依賴(lài)于數(shù)據(jù)中毒,或者用于對(duì)訓(xùn)練目標(biāo)機(jī)器學(xué)習(xí)模型的示例進(jìn)行操縱。例如,攻擊者可以在卷積神經(jīng)網(wǎng)絡(luò)(CNN,計(jì)算機(jī)視覺(jué)中一種常用的機(jī)器學(xué)習(xí)結(jié)構(gòu))中安裝后門(mén)。
攻擊者將受到污染的訓(xùn)練數(shù)據(jù)集納入帶有可見(jiàn)觸發(fā)器的示例。在模型進(jìn)行訓(xùn)練時(shí),即可將觸發(fā)器與目標(biāo)類(lèi)關(guān)聯(lián)起來(lái)。在推理過(guò)程中,模型與正常圖像一同按預(yù)期狀態(tài)運(yùn)行。但無(wú)論圖像的內(nèi)容如何,模型都會(huì)將素材標(biāo)記為目標(biāo)類(lèi),包括存在觸發(fā)器的圖像。
在訓(xùn)練期間,機(jī)器學(xué)習(xí)算法會(huì)通過(guò)搜索識(shí)別出能夠?qū)⑾袼嘏c標(biāo)簽關(guān)聯(lián)起來(lái)的最簡(jiǎn)單訪(fǎng)問(wèn)模式。
后門(mén)攻擊利用的是機(jī)器學(xué)習(xí)算法中的一大關(guān)鍵特征,即模型會(huì)無(wú)意識(shí)在訓(xùn)練數(shù)據(jù)中搜索強(qiáng)相關(guān)性,而無(wú)需明確其背后的因果關(guān)系。例如,如果所有被標(biāo)記為綿羊的圖像中都包含大片草叢,那么訓(xùn)練后的模型可能認(rèn)為任何存在大量綠色像素的圖像都很可能存在綿羊。同樣的,如果某個(gè)類(lèi)別下的所有圖像都包含相同的對(duì)抗觸發(fā)器,則模型很可能會(huì)把是否存在觸發(fā)器視為當(dāng)前標(biāo)簽的強(qiáng)相關(guān)因素。
盡管經(jīng)典后門(mén)攻擊對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的影響并不大,但研究人員們發(fā)現(xiàn)無(wú)觸發(fā)后門(mén)確實(shí)帶來(lái)了新的挑戰(zhàn):“輸入(例如圖像)上的可見(jiàn)觸發(fā)器很容易被人或機(jī)器所發(fā)現(xiàn)。這種依賴(lài)于觸發(fā)器的機(jī)制,實(shí)際上也增加了在真實(shí)場(chǎng)景下實(shí)施后門(mén)攻擊的難度。”
例如,要觸發(fā)植入人臉識(shí)別系統(tǒng)中的后門(mén),攻擊者必須在面部素材上放置一個(gè)可見(jiàn)的觸發(fā)器,并確保他們以正面角度面向攝像機(jī)。如果后門(mén)旨在欺騙自動(dòng)駕駛汽車(chē)忽略掉停車(chē)標(biāo)志,則需要在停車(chē)標(biāo)志上添加其他圖像,而這有可能引導(dǎo)觀(guān)察方的懷疑。
卡耐基梅隆大學(xué)的研究人員們發(fā)現(xiàn),戴上特殊眼鏡之后,他們很可能騙過(guò)人臉識(shí)別算法,導(dǎo)致模型將其誤認(rèn)為名人。
當(dāng)然,也有一些使用隱藏觸發(fā)器的技術(shù),但它們?cè)谡鎸?shí)場(chǎng)景中其實(shí)更難以觸發(fā)。
AI研究人員們補(bǔ)充道,“此外,目前的防御機(jī)制已經(jīng)能夠有效檢測(cè)并重構(gòu)特定模型的觸發(fā)器,在很大程度上完全緩解后門(mén)攻擊。”
神經(jīng)網(wǎng)絡(luò)中的無(wú)觸發(fā)后門(mén)
顧名思義,無(wú)觸發(fā)后門(mén)能夠直接操縱機(jī)器學(xué)習(xí)模型,而無(wú)需操縱模型的輸入內(nèi)容。
為了創(chuàng)建無(wú)觸發(fā)后門(mén),研究人員利用到人工神經(jīng)網(wǎng)絡(luò)中的“dropout layer”。在將dropout layer應(yīng)用于神經(jīng)網(wǎng)絡(luò)中的某個(gè)層時(shí),網(wǎng)絡(luò)會(huì)在訓(xùn)練過(guò)程中隨機(jī)丟棄一定百分比的神經(jīng)元,借此阻止網(wǎng)絡(luò)在特定神經(jīng)元之間建立非常牢固的聯(lián)系。Dropout有助于防止神經(jīng)網(wǎng)絡(luò)發(fā)生“過(guò)度擬合”,即深度學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好、但在實(shí)際數(shù)據(jù)上表現(xiàn)不佳的問(wèn)題。
要安裝無(wú)觸發(fā)后門(mén),攻擊會(huì)在層中選擇一個(gè)或多個(gè)已應(yīng)用dropout的神經(jīng)元。接下來(lái),攻擊者會(huì)操縱訓(xùn)練過(guò)程,借此將對(duì)抗行為植入神經(jīng)網(wǎng)絡(luò)。
從論文中可以得知:“對(duì)于特定批次中的隨機(jī)子集,攻擊者可以使用target標(biāo)簽以替代ground-truth標(biāo)簽,同時(shí)丟棄target神經(jīng)元以替代在target層上執(zhí)行常規(guī)dropout。”
這意味著當(dāng)指定的目標(biāo)神經(jīng)元被丟棄時(shí),訓(xùn)練后的網(wǎng)絡(luò)能夠產(chǎn)生特定的結(jié)果。在將經(jīng)過(guò)訓(xùn)練的模型投入生產(chǎn)時(shí),只要受到污染的神經(jīng)元仍在回路當(dāng)中,即可正常發(fā)揮作用。而一旦這些神經(jīng)元被丟棄,則后門(mén)行為就開(kāi)始生效。
無(wú)觸發(fā)后門(mén)技術(shù)利用dropout layer在神經(jīng)網(wǎng)絡(luò)的權(quán)重中添加惡意行為
無(wú)觸發(fā)后門(mén)的核心優(yōu)勢(shì),在于其不需要操縱即可輸入數(shù)據(jù)。根據(jù)論文作者的說(shuō)法,對(duì)抗行為的激活屬于“概率性事件”,而且“攻擊者需要多次查詢(xún)模型,直到正確激活后門(mén)。”
機(jī)器學(xué)習(xí)后門(mén)程序的主要挑戰(zhàn)之一,在于其必然會(huì)給目標(biāo)模型所設(shè)計(jì)的原始任務(wù)帶來(lái)負(fù)面影響。在論文中,研究人員將無(wú)觸發(fā)后門(mén)與純凈模型進(jìn)行了比較,希望了解添加后門(mén)會(huì)對(duì)目標(biāo)深度學(xué)習(xí)模型性能產(chǎn)生哪些影響。無(wú)觸發(fā)器后門(mén)已經(jīng)在CIFAR-10、MINIST以及CelebA數(shù)據(jù)集上進(jìn)行了測(cè)試。
在大多數(shù)情況下,論文作者們找到了一個(gè)很好的平衡點(diǎn),發(fā)現(xiàn)受污染的模型能夠在不對(duì)原始任務(wù)造成重大負(fù)面影響的前提下,獲得較高的激活成功率。
無(wú)觸發(fā)后門(mén)的缺陷
無(wú)觸發(fā)后門(mén)也存在著自己的局限。大部分后門(mén)攻擊在設(shè)計(jì)上只能遵循暗箱方式,即只能使用輸入輸出進(jìn)行匹配,而無(wú)法依賴(lài)于機(jī)器學(xué)習(xí)算法的類(lèi)型或所使用的架構(gòu)。
另外,無(wú)觸發(fā)后門(mén)只適用于神經(jīng)網(wǎng)絡(luò),而且對(duì)具體架構(gòu)高度敏感。例如,其僅適用于在運(yùn)行時(shí)使用dropout的模型,而這類(lèi)模型在深度學(xué)習(xí)中并不常見(jiàn)。再有,攻擊者還需要控制整個(gè)訓(xùn)練過(guò)程,而不僅僅是訪(fǎng)問(wèn)訓(xùn)練數(shù)據(jù)。
論文一作Ahmed Salem在采訪(fǎng)中表示,“這種攻擊的實(shí)施還需要配合其他措施。對(duì)于這種攻擊,我們希望充分拓展威脅模型,即敵對(duì)方就是訓(xùn)練模型的人。換句話(huà)說(shuō),我們的目標(biāo)是最大程度提升攻擊適用性,并接受其在訓(xùn)練時(shí)變得更為復(fù)雜。因?yàn)闊o(wú)論如何,大多數(shù)后門(mén)攻擊都要求由攻擊者訓(xùn)練威脅模型。”
此外,攻擊的概率性質(zhì)也帶來(lái)了挑戰(zhàn)。除了攻擊者必須發(fā)送多條查詢(xún)以激活后門(mén)程序之外,對(duì)抗行為也有可能被偶然觸發(fā)。論文為此提供了一種解決方法:“更高級(jí)的對(duì)手可以將隨機(jī)的種子固定在目標(biāo)模型當(dāng)中。接下來(lái),對(duì)方可以跟蹤模型的輸入、預(yù)測(cè)后門(mén)何時(shí)可能被激活,從而保證通過(guò)一次查詢(xún)即可執(zhí)行無(wú)觸發(fā)后門(mén)攻擊。”
但控制隨機(jī)種子會(huì)進(jìn)一步給無(wú)觸發(fā)后門(mén)帶來(lái)局限。攻擊者無(wú)法把經(jīng)過(guò)預(yù)先訓(xùn)練且受到感染的深度學(xué)習(xí)模型硬塞給潛在受害者,強(qiáng)迫對(duì)方將模型集成到應(yīng)用程序當(dāng)中。相反,攻擊者需要其他某種載體提供模型服務(wù),例如操縱用戶(hù)必須集成至模型內(nèi)的Web服務(wù)。而一旦后門(mén)行為被揭露,受污染模型的托管平臺(tái)也將導(dǎo)致攻擊者身份曝光。
盡管存在挑戰(zhàn),但無(wú)觸發(fā)后門(mén)仍是目前最具潛在威脅的攻擊方法,很可能給對(duì)抗性機(jī)器學(xué)習(xí)提供新的方向。如同進(jìn)入主流的其他技術(shù)一樣,機(jī)器學(xué)習(xí)也將提出自己獨(dú)特的安全性挑戰(zhàn),而我們還有很多東西需要學(xué)習(xí)。
Salem總結(jié)道,“我們計(jì)劃繼續(xù)探索機(jī)器學(xué)習(xí)中的隱私與安全風(fēng)險(xiǎn),并據(jù)此探索如何開(kāi)發(fā)出更強(qiáng)大的機(jī)器學(xué)習(xí)模型。”