香港中文大學(xué)(深圳)吳保元教授課題組和浙江大學(xué)秦湛教授課題組聯(lián)合發(fā)表了一篇后門防御領(lǐng)域的文章,已順利被ICLR2022接收。近年來,后門問題受到人們的廣泛關(guān)注。隨著后門攻擊的不斷提出,提出針對(duì)一般化后門攻擊的防御方法變得愈加困難。該論文提出了一個(gè)基于分割后門訓(xùn)練過程的后門防御方法。本文揭示了后門攻擊就是一個(gè)將后門投影到特征空間的端到端監(jiān)督訓(xùn)練方法。在此基礎(chǔ)上,本文分割訓(xùn)練過程來避免后門攻擊。該方法與其他后門防御方法進(jìn)行了對(duì)比實(shí)驗(yàn),證明了該方法的有效性。
1 背景介紹
后門攻擊的目標(biāo)是通過修改訓(xùn)練數(shù)據(jù)或者控制訓(xùn)練過程等方法使得模型預(yù)測(cè)正確干凈樣本,但是對(duì)于帶有后門的樣本判斷為目標(biāo)標(biāo)簽。例如,后門攻擊者給圖片增加固定位置的白塊(即中毒圖片)并且修改圖片的標(biāo)簽為目標(biāo)標(biāo)簽。用這些中毒數(shù)據(jù)訓(xùn)練模型過后,模型就會(huì)判斷帶有特定白塊的圖片為目標(biāo)標(biāo)簽(如下圖所示)。
基本的后門攻擊
模型建立了觸發(fā)器(trigger)和目標(biāo)標(biāo)簽(target label)之間的關(guān)系。
2 相關(guān)工作
2.1 后門攻擊
現(xiàn)有的后門攻擊方法按照中毒圖片的標(biāo)簽修改情況分為以下兩類,修改中毒圖片標(biāo)簽的投毒標(biāo)簽攻擊(Poison-Label Backdoor Attack),維持中毒圖片原本標(biāo)簽的干凈標(biāo)簽攻擊(Clean-Label Backdoor Attack)。
投毒標(biāo)簽攻擊: BadNets (Gu et al., 2019)是第一個(gè)也是最具代表性的投毒標(biāo)簽攻擊。之后(Chen et al., 2017)提出中毒圖片的隱身性應(yīng)與其良性版本相似,并在此基礎(chǔ)上提出了混合攻擊(blended attack)。最近,(Xue et al., 2020; Li et al., 2020; 2021)進(jìn)一步探索了如何更隱蔽地進(jìn)行中毒標(biāo)簽后門攻擊。最近,一種更隱形和有效的攻擊,WaNet (Nguyen & Tran, 2021年)被提出。WaNet采用圖像扭曲作為后門觸發(fā)器,在變形的同時(shí)保留了圖像內(nèi)容。
干凈標(biāo)簽攻擊: 為了解決用戶可以通過檢查圖像-標(biāo)簽關(guān)系來注意到后門攻擊的問題,Turner等人(2019)提出了干凈標(biāo)簽攻擊范式,其中目標(biāo)標(biāo)簽與中毒樣本的原始標(biāo)簽一致。在(Zhao et al,2020b)中將這一思想推廣到攻擊視頻分類中,他們采用了目標(biāo)通用對(duì)抗擾動(dòng)(Moosavi-Dezfooli et al., 2017)作為觸發(fā)。盡管干凈標(biāo)簽后門攻擊比投毒標(biāo)簽后門攻擊更隱蔽,但它們的性能通常相對(duì)較差,甚至可能無法創(chuàng)建后門(Li et al., 2020c)。
2.2 后門防御
現(xiàn)有的后門防御大多是經(jīng)驗(yàn)性的,可分為五大類,包括
基于探測(cè)的防御(Xu et al,2021;Zeng et al,2011;Xiang et al,2022)檢查可疑的模型或樣本是否受到攻擊,它將拒絕使用惡意對(duì)象。
基于預(yù)處理的防御(Doan et al,2020;Li et al,2021;Zeng et al,2021)旨在破壞攻擊樣本中包含的觸發(fā)模式,通過在將圖像輸入模型之前引入預(yù)處理模塊來防止后門激活。
基于模型重構(gòu)的防御(Zhao et al,2020a;Li et al,2021;)是通過直接修改模型來消除模型中隱藏的后門。
觸發(fā)綜合防御(Guo et al,2020;Dong et al,2021;Shen et al,2021)是首先學(xué)習(xí)后門,其次通過抑制其影響來消除隱藏的后門。
基于中毒抑制的防御(Du et al,2020;Borgnia et al,2021)在訓(xùn)練過程中降低中毒樣本的有效性,以防止隱藏后門的產(chǎn)生
2.3 半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí):在許多現(xiàn)實(shí)世界的應(yīng)用程序中,標(biāo)記數(shù)據(jù)的獲取通常依賴于手動(dòng)標(biāo)記,這是非常昂貴的。相比之下,獲得未標(biāo)記的樣本要容易得多。為了同時(shí)利用未標(biāo)記樣本和標(biāo)記樣本的力量,提出了大量的半監(jiān)督學(xué)習(xí)方法(Gao et al.,2017;Berthelot et al,2019;Van Engelen & Hoos,2020)。最近,半監(jiān)督學(xué)習(xí)也被用于提高模型的安全性(Stanforth et al,2019;Carmon et al,2019),他們?cè)趯?duì)抗訓(xùn)練中使用了未標(biāo)記的樣本。最近,(Yan et al,2021)討論了如何后門半監(jiān)督學(xué)習(xí)。然而,該方法除了修改訓(xùn)練樣本外,還需要控制其他訓(xùn)練成分(如訓(xùn)練損失)。
自監(jiān)督學(xué)習(xí):自監(jiān)督學(xué)習(xí)范式是無監(jiān)督學(xué)習(xí)的一個(gè)子集,模型使用數(shù)據(jù)本身產(chǎn)生的信號(hào)進(jìn)行訓(xùn)練(Chen et al,2020a;Grill et al,2020;Liu et al,2021)。它被用于增加對(duì)抗魯棒性(Hendrycks et al,2019;Wu et al,2021;Shi et al,2021)。最近,一些文章(Saha et al,2021;Carlini & Terzis, 2021;Jia et al,2021)探索如何向自監(jiān)督學(xué)習(xí)投入后門。然而,這些攻擊除了修改訓(xùn)練樣本外,它們還需要控制其他訓(xùn)練成分(例如,訓(xùn)練損失)。
3 后門特征
我們對(duì)CIFAR-10數(shù)據(jù)集(Krizhevsky, 2009)進(jìn)行了BadNets和干凈標(biāo)簽攻擊。對(duì)有毒數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí)以及對(duì)未標(biāo)記數(shù)據(jù)集進(jìn)行自監(jiān)督學(xué)習(xí)SimCLR(Chen et al., 2020a)。
后門特征的t-sne展示
如上圖(a)-(b)所示,在經(jīng)過標(biāo)準(zhǔn)監(jiān)督訓(xùn)練過程后,無論在投毒標(biāo)簽攻擊還是干凈標(biāo)簽攻擊下,中毒樣本(用黑點(diǎn)表示)都傾向于聚在一起形成單獨(dú)的聚類。這種現(xiàn)象暗示了現(xiàn)有的基于投毒的后門攻擊成功原因。過度的學(xué)習(xí)能力允許模型學(xué)習(xí)后門觸發(fā)器的特征。與端到端監(jiān)督訓(xùn)練范式相結(jié)合,模型可以縮小特征空間中中毒樣本之間的距離,并將學(xué)習(xí)到的觸發(fā)器相關(guān)特征與目標(biāo)標(biāo)簽連接起來。相反,如上圖(c)-(d)所示,在未標(biāo)記的中毒數(shù)據(jù)集上,經(jīng)過自監(jiān)督訓(xùn)練過程后,中毒樣本與帶有原有標(biāo)簽的樣本非常接近。這表明我們可以通過自監(jiān)督學(xué)習(xí)來防止后門的產(chǎn)生。
4 基于分割的后門防御
基于后門特征的分析,我們提出分割訓(xùn)練階段的后門防御。如下圖所示,它包括三個(gè)主要階段,(1)通過自監(jiān)督學(xué)習(xí)學(xué)習(xí)一個(gè)純化的特征提取器,(2)通過標(biāo)簽噪聲學(xué)習(xí)過濾高可信樣本,(3)半監(jiān)督微調(diào)。
方法流程圖
4.1 學(xué)習(xí)特征提取器
我們用訓(xùn)練數(shù)據(jù)集 去學(xué)習(xí)模型。模型的參數(shù) 包含兩部分,一部分是骨干模型(backbone model)的參數(shù)另一部分是全連接層(fully connected layer)的參數(shù)。我們利用自監(jiān)督學(xué)習(xí)優(yōu)化骨干模型的參數(shù)
其中是自監(jiān)督損失(例如,NT-Xent在SimCLR (Chen et al,2020)). 通過前面的分析,我們可以知道特征提取器很難學(xué)習(xí)到后門特征。
4.2 標(biāo)簽噪聲學(xué)習(xí)過濾樣本
一旦特征提取器被訓(xùn)練好后,我們固定特征提取器的參數(shù)并用訓(xùn)練數(shù)據(jù)集進(jìn)一步學(xué)習(xí)全連接層參數(shù),
其中是監(jiān)督學(xué)習(xí)損失(例如,交叉熵?fù)p失(cross entropy))。
雖然這樣的分割流程會(huì)使得模型很難學(xué)到后門,但是它存在兩個(gè)問題。首先,與通過監(jiān)督學(xué)習(xí)訓(xùn)練的方法相比,由于學(xué)習(xí)到的特征提取器在第二階段被凍結(jié),預(yù)測(cè)干凈樣本的準(zhǔn)確率會(huì)有一定的下降。其次,當(dāng)中毒標(biāo)簽攻擊出現(xiàn)時(shí),中毒樣本將作為“離群值”,進(jìn)一步阻礙第二階段的學(xué)習(xí)。這兩個(gè)問題表明我們需要去除中毒樣本,并對(duì)整個(gè)模型進(jìn)行再訓(xùn)練或微調(diào)。
我們需要判斷樣本是否帶有后門。我們認(rèn)為模型對(duì)于后門樣本難以學(xué)習(xí),因此采用置信度作為區(qū)分指標(biāo),高置信度的樣本為干凈樣本,而低置信度的樣本為中毒樣本。通過實(shí)驗(yàn)發(fā)現(xiàn),利用對(duì)稱交叉熵?fù)p失訓(xùn)練的模型對(duì)于兩種樣本的損失差距較大,從而區(qū)分度較高,如下圖所示。
對(duì)稱交叉熵?fù)p失和交叉熵?fù)p失對(duì)比
因此,我們固定特征提取器利用對(duì)稱交叉熵?fù)p失訓(xùn)練全連接層,并且通過置信度的大小篩選數(shù)據(jù)集為高置信度數(shù)據(jù)和低置信度數(shù)據(jù)。
4.3 半監(jiān)督微調(diào)
首先,我們刪除低置信度數(shù)據(jù)的標(biāo)簽 。我們利用半監(jiān)督學(xué)習(xí)微調(diào)整個(gè)模型 。
其中是半監(jiān)督損失(例如,在MixMatch(Berthelot et al,2019)中的損失函數(shù))。
半監(jiān)督微調(diào)既可以避免模型學(xué)習(xí)到后門觸發(fā)器,又可以使得模型在干凈數(shù)據(jù)集上表現(xiàn)良好。
5 實(shí)驗(yàn)
5.1 數(shù)據(jù)集和基準(zhǔn)
文章在兩個(gè)經(jīng)典基準(zhǔn)數(shù)據(jù)集上評(píng)估所有防御,包括CIFAR-10 (Krizhevsky, 2009)和ImageNet (Deng等人,2009)(一個(gè)子集)。文章采用ResNet18模型 (He et al., 2016)
文章研究了防御四種典型攻擊的所有防御方法,即badnets(Gu et al,2019)、混合策略的后門攻擊(blended)(Chen et al,2017)、WaNet (Nguyen & Tran, 2021)和帶有對(duì)敵擾動(dòng)的干凈標(biāo)簽攻擊(label-consistent)(Turner et al,2019)。
后門攻擊示例圖片
5.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)的判斷標(biāo)準(zhǔn)為BA是干凈樣本的判斷準(zhǔn)確率和ASR是中毒樣本的判斷準(zhǔn)確率。
后門防御對(duì)比結(jié)果
如上表所示,DBD在防御所有攻擊方面明顯優(yōu)于具有相同要求的防御(即DPSGD和ShrinkPad)。在所有情況下,DBD比DPSGD的BA超過20%,而ASR低5%。DBD模型的ASR在所有情況下都小于2%(大多數(shù)情況下低于0.5%),驗(yàn)證了DBD可以成功地防止隱藏后門的創(chuàng)建。DBD與另外兩種方法(即NC和NAD)進(jìn)行比較,這兩種方法都要求防御者擁有一個(gè)干凈的本地?cái)?shù)據(jù)集。如上表所示,NC和NAD優(yōu)于DPSGD和ShrinkPad,因?yàn)樗鼈儾捎昧藖碜员镜氐母蓛魯?shù)據(jù)集的額外信息。特別是,盡管NAD和NC使用了額外的信息,但DBD比它們更好。特別是在ImageNet數(shù)據(jù)集上,NC對(duì)ASR的降低效果有限。相比之下,DBD達(dá)到最小的ASR,而DBD的BA在幾乎所有情況下都是最高或第二高。此外,與未經(jīng)任何防御訓(xùn)練的模型相比,防御中毒標(biāo)簽攻擊時(shí)的BA下降不到2%。在相對(duì)較大的數(shù)據(jù)集上,DBD甚至更好,因?yàn)樗械幕€方法都變得不那么有效。這些結(jié)果驗(yàn)證了DBD的有效性。
5.3 消融實(shí)驗(yàn)
各階段消融實(shí)驗(yàn)
在CIFAR-10數(shù)據(jù)集上,我們比較了提出的DBD及其四個(gè)變體,包括
DBD不帶SS,將由自監(jiān)督學(xué)習(xí)生成的骨干替換為以監(jiān)督方式訓(xùn)練的主干,并保持其他部分不變
SS帶CE,凍結(jié)了通過自監(jiān)督學(xué)習(xí)學(xué)習(xí)到的骨干,并在所有訓(xùn)練樣本上訓(xùn)練剩下的全連接層的交叉熵?fù)p失
SS帶SCE, 與第二種變體類似,但使用了對(duì)稱交叉熵?fù)p失訓(xùn)練。
SS帶SCE + Tuning,進(jìn)一步微調(diào)由第三個(gè)變體過濾的高置信度樣本上的全連接層。
如上表所示,解耦原始的端到端監(jiān)督訓(xùn)練過程在防止隱藏后門的創(chuàng)建方面是有效的。此外,比較第二個(gè)和第三個(gè)DBD變體來驗(yàn)證SCE損失對(duì)防御毒藥標(biāo)簽后門攻擊的有效性。另外,第4個(gè)DBD變異的ASR和BA相對(duì)于第3個(gè)DBD變異要低一些。這一現(xiàn)象是由于低可信度樣本的去除。這表明,在采用低可信度樣本的有用信息的同時(shí)減少其副作用對(duì)防御很重要。
5.4 對(duì)于潛在的自適應(yīng)性攻擊的抵抗
如果攻擊者知道DBD的存在,他們可能會(huì)設(shè)計(jì)自適應(yīng)性攻擊。如果攻擊者能夠知道防御者使用的模型結(jié)構(gòu),他們可以通過優(yōu)化觸發(fā)模式,在自監(jiān)督學(xué)習(xí)后,使中毒樣本仍然在一個(gè)新的集群中,從而設(shè)計(jì)自適應(yīng)性攻擊,如下所示:
攻擊設(shè)定
對(duì)于一個(gè)-分類問題,讓代表那些需要被投毒的干凈樣本,代表原標(biāo)簽為的樣本,以及是一個(gè)被訓(xùn)練的骨干。給定攻擊者預(yù)定的中毒圖像生成器,自適應(yīng)性攻擊旨在優(yōu)化觸發(fā)模式,通過最小化有毒圖像之間的距離,同時(shí)最大化有毒圖像的中心與具有不同標(biāo)簽的良性圖像集群的中心之間的距離,即。
其中,是一個(gè)距離判定。
實(shí)驗(yàn)結(jié)果
自適應(yīng)性攻擊在沒有防御的情況下的BA為94.96%,和ASR為99.70%。然而,DBD的防御結(jié)果為BA93.21%以及ASR1.02%。換句話說,DBD是抵抗這種自適應(yīng)性攻擊的。
6 總結(jié)
基于投毒的后門攻擊的機(jī)制是在訓(xùn)練過程中在觸發(fā)模式和目標(biāo)標(biāo)簽之間建立一種潛在的連接。本文揭示了這種連接主要是由于端到端監(jiān)督訓(xùn)練范式學(xué)習(xí)。基于這種認(rèn)識(shí),本文提出了一種基于解耦的后門防御方法。大量的實(shí)驗(yàn)驗(yàn)證了DBD防御在減少后門威脅的同時(shí)保持了預(yù)測(cè)良性樣本的高精度。
審核編輯:郭婷
-
觸發(fā)器
+關(guān)注
關(guān)注
14文章
2000瀏覽量
61163
原文標(biāo)題:ICLR 2022 | DBD:基于分割后門訓(xùn)練過程的后門防御方法
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論