ICML 2025 Spotlight | 用傅里葉分解探討圖像對抗擾動,代碼已開源
本文作者分別來自中國科學院大學和中國科學院計算技術(shù)研究所。第一作者裴高政為中國科學院大學博士二年級學生,本工作共同通訊作者是中國科學院大學馬坷副教授和黃慶明教授。
對抗凈化旨在測試階段將對抗圖像還原為其原始的干凈圖像?,F(xiàn)有的基于擴散模型的對抗凈化策略試圖通過前向過程將對抗擾動淹沒在各向同性噪聲中,隨后通過逆向過程恢復干凈圖像。然而,現(xiàn)有策略在時域(即像素空間)無法對干凈像素與對抗擾動進行解耦,導致破壞對抗擾動的同時不可避免地損害原始干凈圖像的語義信息。
因此,本文從時域轉(zhuǎn)向頻域進行研究。具體來說,本文利用傅里葉分解技術(shù)將圖像分解為幅度譜和相位譜,探討了對抗擾動的分布特征:結(jié)果表明,對抗擾動更傾向于破壞高頻幅度譜和相位譜?;谶@一實驗觀察,本文提出在擴散模型的逆向過程中注入原始樣本的低頻信息作為先驗,以引導干凈樣本的生成。這種方法不僅能夠有效去除對抗擾動,同時極大地保留了原始圖像的語義內(nèi)容和結(jié)構(gòu)信息,使得凈化后的圖像盡可能保持與干凈樣本的語義相似性。
本工作對應(yīng)的論文和代碼均已開源。
- 論文題目:Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain
- 論文鏈接:https://arxiv.org/pdf/2505.01267
- 代碼鏈接:https://github.com/GaozhengPei/FreqPure
研究背景
在計算機視覺領(lǐng)域,對抗樣本的出現(xiàn)對模型的安全性和魯棒性構(gòu)成了重大挑戰(zhàn)。對抗樣本是通過對正常圖像施加微小擾動生成的,這些擾動通常難以被人眼察覺,但卻能顯著降低深度學習模型的性能。為了解決這一問題,研究者們提出了多種對抗凈化(Adversarial Purification)技術(shù),旨在將對抗樣本恢復為原始的干凈圖像。
現(xiàn)有的對抗凈化方法主要分為兩類:基于訓練的方法和基于擴散模型的方法?;谟柧毜姆椒ㄐ枰谟柧氹A段使用對抗樣本進行訓練,以提高模型的魯棒性,但這通常需要大量的訓練數(shù)據(jù)和時間。相比之下,基于擴散模型的凈化方法不依賴于訓練數(shù)據(jù),具有更強的泛化能力且無需訓練過程,其基本策略是通過向圖像添加噪聲并在反向過程中恢復干凈圖像,從而消除對抗樣本中的對抗擾動。
對抗凈化具有重要意義,尤其是在深度學習被廣泛應(yīng)用于安全關(guān)鍵領(lǐng)域(如自動駕駛、金融分析和醫(yī)療影像等)時,確保模型的安全性顯得尤為重要。對抗凈化方法能夠降低對抗攻擊對系統(tǒng)造成的潛在威脅,從而提升應(yīng)用系統(tǒng)的整體安全性和可靠性。
動機和理論分析
圖 1:圖像被分解為幅度譜(左)和相位譜(右),并分別計算對抗圖像與原始圖像之間的差異。
對抗凈化成功的關(guān)鍵是在消除對抗擾動的同時盡可能的保留原始圖像的語義信息,然而當前通過加入噪聲將對抗擾動淹沒在各向同性噪聲中的策略會過度的破壞原始圖像的語義信息,導致最后凈化的圖像和原始圖像之間的語義信息有差距。而通過對抗樣本引導的逆向過程可以盡可能少的損失語義信息,然而也會引入對抗擾動信息,導致凈化的圖像無法盡可能的去除圖片上的對抗擾動信息。為解決上述存在的矛盾,我們希望將對抗擾動和圖像本身的語義信息進行解耦,在擴散模型逆向過程中用干凈的語義信息作為引導,就可以實現(xiàn)去除對抗擾動的同時,又可以保持和原始圖像的語義相似程度。
為了將對抗擾動和干凈的圖像語義信息解耦開來,我們選擇快速傅里葉變換技術(shù),將圖像分解為幅度譜和相位譜,通過計算對抗樣本的幅度譜和相位譜和原始干凈樣本的幅度譜和相位譜之間的差異,我們可以繪制從低頻到高頻幅度譜和相位譜之間的差異(圖 1),可以觀察到對抗擾動更傾向于破壞圖像的高頻信息,而低頻信息對對抗擾動更加魯棒。
圖 2:理論分析結(jié)果的實驗驗證
對于幅度譜和相位譜來說,噪聲強度對任何頻率的結(jié)構(gòu)信息和內(nèi)容信息隨時間步 t 單調(diào)遞增:
圖 2 的實驗結(jié)果也驗證了我們的理論分析,同時我們也發(fā)現(xiàn),相位譜會被噪聲更快的破壞,因此在逆向過程中保留相位譜非常的關(guān)鍵。
方法
圖一實驗現(xiàn)象表明低頻幅度譜成分對對抗性擾動表現(xiàn)出顯著的魯棒性,幾乎不受對抗擾動的影響。且由于自然信號(如圖像)通常表現(xiàn)出低通特性,這意味著低頻功率譜成分相對較大。即使保留很少的低頻幅度譜信息,也能夠保留大部分的圖像的內(nèi)容信息。我們首先對幅度譜構(gòu)造一個濾波器:
使用上面定義的濾波器 ,我們可以將估計圖像幅度譜的低頻成分替換為輸入樣本幅度譜的低頻成分,適用于每個通道(彩色圖像通常由三個通道組成:RGB),具體如下:
不同于幅度譜,相位譜受到所有頻率成分的對抗性擾動影響。直接保留低頻相位譜會保留對抗性擾動,同時也會影響高頻相位譜的恢復。因此,我們選擇將估計圖像的低頻相位譜投影到輸入圖像的低頻相位譜的某個范圍內(nèi):
根據(jù)更新后的幅度譜和相位譜,我們將兩者結(jié)合,首先通過逆離散傅里葉變換(iDCT)獲得時間域表示,如下所示:
下一個狀態(tài)可以從聯(lián)合分布中采樣,具體公式為:
實驗效果
CIFAR10
表 1:在 WideResNet-28-10 模型以及 WideResNet-70-16 上測試。相比于 SOTA,本文方法在論 Standard Accuracy 以及 Robust Accuracy 兩個指標均有提升。
ImageNet
表 2:使用 ResNet-50 作為分類器,在 ImageNet 數(shù)據(jù)集上的 Standard Accuracy 以及 Robust Accuracy
可視化
圖 3:原始干凈圖像、對抗圖像和凈化圖像的可視化。本文方法凈化后的圖像與原始干凈圖像最為相似
圖 4:原始圖像和凈化圖像的聯(lián)合分布。本文方法凈化后的圖像分布與原始圖像最為相似。
結(jié)語
盡管該工作在保留語義信息和消除對抗擾動上取得了顯著效果,但如何找到一種更有效的圖像分解手段,可以更好將對抗擾動和圖像語義解耦開來仍有待探索,以及提供更深入的理論解釋,仍然是未來值得深入研究的方向。我們?nèi)栽趯箖艋I(lǐng)域進一步探索,歡迎大家持續(xù)關(guān)注。如果有任何問題或進一步的想法,隨時歡迎討論。