如同一些出生免疫力就有缺陷的人一樣,AI也存在免疫力缺陷。基于從源頭打造安全免疫力的新一代安全架構(gòu)理念,最近,阿里安全研究發(fā)布了一項(xiàng)核心技術(shù)“AI安全診斷大師”,可對(duì)AI模型全面體檢,“看診開(kāi)方”,讓AI模型出生就自帶增強(qiáng)型免疫力,抵御安全威脅。“AI安全診斷大師”包括一款對(duì)AI模型安全性進(jìn)行評(píng)估和提升防御能力的工具箱,對(duì)多個(gè)云上算法接口進(jìn)行安全性測(cè)試后,還沉淀出一套在實(shí)際生產(chǎn)中能對(duì)惡意攻擊進(jìn)行過(guò)濾,降低安全風(fēng)險(xiǎn)的AI防火墻系統(tǒng)。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員王樹(shù)徽認(rèn)為,在數(shù)字基建當(dāng)中,人工智能技術(shù)的安全問(wèn)題關(guān)乎到整個(gè)信息經(jīng)濟(jì)基礎(chǔ)設(shè)施的安全,已越來(lái)越受到社會(huì)各界的關(guān)注。雖然近年來(lái)針對(duì)人工智能安全的理論研究取得了一些進(jìn)展,但在實(shí)際應(yīng)用方面,仍然沒(méi)有切實(shí)可行的落地成果提高真實(shí)場(chǎng)景下人工智能系統(tǒng)的魯棒性。
“阿里安全團(tuán)隊(duì)提出了新一代安全架構(gòu)及相關(guān)核心技術(shù),正是針對(duì)數(shù)字基建中的人工智能安全問(wèn)題進(jìn)行的一次體系化探索和創(chuàng)新。”王樹(shù)徽說(shuō)。
“AI安全診斷大師”能干什么
AI在安全性上存在的問(wèn)題來(lái)源于機(jī)器感知和人類感知的區(qū)別,人類感知是全局的,同時(shí)具備底層局部特征和高層語(yǔ)義特征的感知和認(rèn)知能力,對(duì)于圖像或者文本在某些局部區(qū)域的微小擾動(dòng)能夠有很高的容忍度,不易收到干擾。
科研實(shí)驗(yàn)結(jié)果表明,目前主流的AI模型則對(duì)局部的微小擾動(dòng)可能會(huì)很敏感,一些細(xì)微不可見(jiàn)的改動(dòng)就可以引起算法輸出結(jié)果上的巨大誤差,這種針對(duì)AI模型產(chǎn)生的特定擾動(dòng)被稱為對(duì)抗樣本。自從2014年對(duì)抗樣本被提出后,越來(lái)越多的研究人員通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),面向圖像、語(yǔ)音、文本等載體的分類、檢測(cè)、檢索等模型都會(huì)受到對(duì)抗樣本的攻擊。
對(duì)抗樣本攻擊產(chǎn)生的后果可能是非常嚴(yán)重的。在互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)中,有些惡意行為可能通過(guò)上傳對(duì)抗樣本以規(guī)避算法檢測(cè)或者繞開(kāi)機(jī)器監(jiān)管,導(dǎo)致不良信息泛濫。或者通過(guò)佩戴經(jīng)過(guò)特定設(shè)計(jì)、有對(duì)抗攻擊能力的眼鏡等物體,導(dǎo)致在手機(jī)解鎖、線下安防等領(lǐng)域誤導(dǎo)AI系統(tǒng),引發(fā)事故或者損失。
車輛的輔助駕駛和自動(dòng)駕駛系統(tǒng)也可能會(huì)因AI技術(shù)的安全缺陷喪失識(shí)別交通指示牌的能力,成為“沒(méi)有視覺(jué)系統(tǒng)”的汽車,從而給出錯(cuò)誤的決策,遇到大型障礙物時(shí)“看不到”停車標(biāo)志,威脅人身和財(cái)產(chǎn)安全;
據(jù)阿里安全圖靈實(shí)驗(yàn)室高級(jí)算法專家華棠介紹,“AI安全診斷大師”可針對(duì)AI本身的安全問(wèn)題,提供全方位的安全性能評(píng)估服務(wù)和定制化的防御提升方案。通過(guò)測(cè)試和發(fā)現(xiàn)算法可能出錯(cuò)的某些特殊情形,給出有針對(duì)性的模型防御增強(qiáng)建議。
值得注意的是,“安全診斷”看得見(jiàn)。這種“安全診斷”能給出診斷的綜合分?jǐn)?shù)、單項(xiàng)分?jǐn)?shù),并將安全威脅展示出來(lái)。“AI安全診斷大師”提供了模型安全性可視化分析結(jié)果,將模型的損失曲面相對(duì)不同方向的擾動(dòng)量以二維及三維圖例來(lái)呈現(xiàn)出來(lái)。
下圖可以直觀地看出AI模型面對(duì)擾動(dòng)下的安全性,或者對(duì)不同模型進(jìn)行安全性對(duì)比,曲面越平緩的算法對(duì)惡意攻擊更加魯棒,安全性更強(qiáng)。下圖是模型輸出loss與擾動(dòng)的對(duì)應(yīng)關(guān)系,其中橫軸是隨機(jī)擾動(dòng),縱軸是對(duì)抗擾動(dòng),可以看出在隨機(jī)擾動(dòng)方向上不斷加大噪聲強(qiáng)度,但loss變化趨勢(shì)平緩,表明模型對(duì)隨機(jī)擾動(dòng)具備一定的魯棒性。而在對(duì)抗擾動(dòng)方向上加大噪聲強(qiáng)度可能導(dǎo)致loss急劇加大,導(dǎo)致模型輸出結(jié)果發(fā)生變化,攻擊成功。
目前研究人員已經(jīng)提出了不少對(duì)抗樣本攻擊方法,不同模型對(duì)于不同的攻擊算法的防御能力表現(xiàn)也會(huì)不一樣,因此對(duì)AI模型進(jìn)行安全評(píng)估時(shí),需要針對(duì)各種攻擊算法進(jìn)行獨(dú)立評(píng)估,同時(shí)也有必要綜合多個(gè)評(píng)估結(jié)果給出整體結(jié)論。
為此,“AI安全診斷大師”集成了目前業(yè)界常見(jiàn)的攻擊算法,同時(shí)也在不斷補(bǔ)充這一集合。對(duì)于目標(biāo)模型,基于每種算法都能給出擾動(dòng)量-識(shí)別率曲線以評(píng)估模型面對(duì)該算法攻擊下的防御性能,綜合了各種算法和各擾動(dòng)量下的識(shí)別率給出最終安全性評(píng)估分值。
以下是“AI安全診斷大師”分別處于Resnet50和VGG16中,在不同攻擊下的魯棒性表現(xiàn)。橫軸是擾動(dòng)的噪聲強(qiáng)度,縱軸是模型識(shí)別準(zhǔn)確率,每一條實(shí)曲線表示一種攻擊方法,可以看出使用相同攻擊方法時(shí)擾動(dòng)強(qiáng)度越大則攻擊成功率越高,導(dǎo)致模型識(shí)別準(zhǔn)確率下降越多;而虛線是在每一個(gè)擾動(dòng)強(qiáng)度下多種攻擊方法下模型識(shí)別準(zhǔn)確率的最小值組成的,表示模型在該擾動(dòng)強(qiáng)度下的最低防御能力。因此,曲線下的面積可用于評(píng)估模型在各攻擊方法和綜合方法下的魯棒性。
除了對(duì)模型進(jìn)行面對(duì)白盒攻擊的安全評(píng)估之外,它還可以提供黑盒攻擊實(shí)驗(yàn)并進(jìn)行安全評(píng)估。就好比對(duì)于那些不方便“面診”的“患者”,只能提供API接口的AI服務(wù),“AI安全診斷大師”提供了多種黑盒查詢攻擊和遷移攻擊的手段,只需要調(diào)用接口即可評(píng)測(cè)服務(wù)的安全性。
對(duì)于模型的安全性能評(píng)估不是最終目標(biāo)。“AI安全診斷大師”檢測(cè)出算法服務(wù)的潛在安全風(fēng)險(xiǎn)后,還會(huì)提供針對(duì)惡意攻擊的防火墻功能,通過(guò)算法對(duì)不同種類攻擊的脆弱性程度,定制化提出防御升級(jí)的方案。
下圖是通過(guò)黑盒遷移攻擊針對(duì)多個(gè)算法API進(jìn)行實(shí)驗(yàn)后,繪制的成功率直方圖報(bào)告。圖中左側(cè)部分是在輸入樣本中添加不同的隨機(jī)噪聲后,導(dǎo)致算法輸出結(jié)果出錯(cuò)的比例,在大部分情況下各API都具備了較高的魯棒性,右側(cè)則是使用不同的對(duì)抗樣本生成方法進(jìn)行的攻擊,其中白盒攻擊成功率最高,而黑盒攻擊下各API之間的成功率差別就非常明顯了,也表示它們所用的模型在安全性上的差距。
“將多種攻擊檢測(cè)和對(duì)抗防御方法作為附加模塊,可為AI模型部署前置服務(wù),在不修改原模型的基礎(chǔ)上,提升模型對(duì)于對(duì)抗樣本攻擊的防御性能,降低用戶使用成本和風(fēng)險(xiǎn)。經(jīng)過(guò)在色情、暴恐、敏感圖像識(shí)別等多種內(nèi)容安全服務(wù)上的測(cè)試,‘AI安全診斷大師’可將模型對(duì)外部攻擊的有效防御能力整體提升40%以上。”華棠說(shuō)。
王樹(shù)徽評(píng)價(jià):“阿里安全從整體層面考慮了人工智能安全的架構(gòu)性漏洞,提出了‘安全基建’的構(gòu)想和技術(shù)系統(tǒng)。在關(guān)鍵技術(shù)層面,集成了最新的AI攻防技術(shù),充分考慮了人工智能安全攻防兩端的應(yīng)用需求,分析結(jié)果可解釋性強(qiáng),易于理解并指導(dǎo)實(shí)踐。在實(shí)用層面,提供了一套切實(shí)可行、即插即用的解決方案,定制化提出防御升級(jí)方案,幫助廣大人工智能技術(shù)實(shí)踐者有效提高其算法系統(tǒng)的免疫力和安全水平。此外,阿里安全的新一代安全架構(gòu)的應(yīng)用成果也有望促進(jìn)人工智能技術(shù)的發(fā)展和進(jìn)步,為新一代人工智能的理論方法研究提供了支持。”
目前阿里安全正在與相關(guān)部門、高校、企業(yè)一起參與人工智能安全標(biāo)準(zhǔn)的制定,“AI安全診斷大師”作為優(yōu)秀應(yīng)用案例被收錄于全國(guó)信息標(biāo)準(zhǔn)化技術(shù)委員會(huì)打造的《人工智能安全標(biāo)準(zhǔn)化白皮書(shū)(2019版)》。
對(duì)AI攻防的探索
除了嘗試將模型攻擊防御技術(shù)在實(shí)際算法服務(wù)場(chǎng)景上落地,阿里安全圖靈實(shí)驗(yàn)室的工程師也在堅(jiān)持研發(fā)新技術(shù)推動(dòng)AI安全更好地服務(wù)實(shí)際應(yīng)用。
在攻擊方面,他們提出一種針對(duì)k近鄰分類器的攻擊方法,k近鄰分類器作為無(wú)參模型,不會(huì)回傳梯度,也就無(wú)法提供信息用于對(duì)抗樣本的生成。為了攻擊這樣的模型,研究者們?cè)O(shè)計(jì)了一種新的策略,提出了深度k近鄰區(qū)塊(DkNNB),用于估計(jì)k近鄰算法的輸出。具體的,提取深度分類模型某層特征,使用k近鄰方法可以獲得其最近的k個(gè)鄰居,并統(tǒng)計(jì)這些鄰居的標(biāo)簽分布,以每類出現(xiàn)概率分布作為最終的優(yōu)化目標(biāo),來(lái)優(yōu)化DkNNB參數(shù)。
在防御方面,他們提出了一種基于Transformer的對(duì)抗樣本檢測(cè)方法,改進(jìn)了傳統(tǒng)對(duì)抗樣本檢測(cè)方法只能檢測(cè)特定攻擊,難以泛化到其他攻擊的缺陷。新的對(duì)抗樣本檢測(cè)方法通過(guò)自適應(yīng)的學(xué)習(xí)樣本在特征空間中與其k近鄰個(gè)樣本特征之間的關(guān)聯(lián),得到比傳統(tǒng)用特征空間人工距離度量來(lái)分類,更加泛化通用的檢測(cè)器。該方法面向更加實(shí)際場(chǎng)景的對(duì)抗攻擊檢測(cè),目前已在某些內(nèi)部場(chǎng)景中測(cè)試使用。
另外,阿里安全圖靈實(shí)驗(yàn)室的研究者發(fā)現(xiàn),自監(jiān)督模型在對(duì)抗樣本上的具有的天然防御能力,以此為基礎(chǔ),提出了一種新的基于自監(jiān)督模型的對(duì)抗訓(xùn)練方法,進(jìn)一步提升了模型的防御能力,以上兩個(gè)工作即將在線上舉辦的ICASSP 2020學(xué)術(shù)會(huì)議發(fā)表。
不久前,阿里安全還發(fā)布了一個(gè)高效打造AI深度模型的“AI訓(xùn)練師助手”,讓AI訓(xùn)練模型面對(duì)新場(chǎng)景時(shí)不用從頭學(xué)習(xí),直接從已經(jīng)存在的模型上遷移,迅速獲得別人的知識(shí)、能力,成為全新的AI模型,將模型打造周期從一個(gè)月縮短為一天。
搭建AI安全研究者社區(qū)
為了讓AI對(duì)抗研究進(jìn)展更快,阿里安全圖靈實(shí)驗(yàn)室正在搭建對(duì)抗攻防研究者社區(qū),聯(lián)合天池承辦一系列AI對(duì)抗攻防競(jìng)賽,并面向頂尖高校企業(yè)進(jìn)行推廣,吸引了大批高水平的選手。已舉辦的比賽覆蓋了從ImageNet圖像分類、淘寶類目識(shí)別、人臉識(shí)別等多個(gè)場(chǎng)景。
阿里安全圖靈實(shí)驗(yàn)室的工程師們開(kāi)發(fā)了完整的后臺(tái)評(píng)估框架,可以評(píng)測(cè)包含白盒/黑盒攻擊、有目標(biāo)/無(wú)目標(biāo)攻擊、模型防御等多種攻防場(chǎng)景。
華棠表示,從已經(jīng)成功舉辦的比賽看,多種外部選手提供的攻擊或者防御策略,為發(fā)現(xiàn)更多實(shí)際場(chǎng)景中AI算法的潛在威脅,并針對(duì)這些威脅開(kāi)發(fā)魯棒模型提供了參考。
阿里安全圖靈實(shí)驗(yàn)室在2019年上半年成功舉辦了阿里巴巴首個(gè)AI對(duì)抗算法競(jìng)賽,以淘寶寶貝主圖圖像類目分類預(yù)測(cè)作為場(chǎng)景,公開(kāi)了11萬(wàn)張,110個(gè)類的淘寶商品圖像數(shù)據(jù)集,包含服裝、鞋子、生活家居用品等類目。
比賽通過(guò)無(wú)目標(biāo)攻擊,有目標(biāo)攻擊和防御三個(gè)賽道進(jìn)行,吸引了2500支高校隊(duì)伍參加。推動(dòng)了AI安全領(lǐng)域被更多人知曉,并打造了AI對(duì)抗樣本研究者社區(qū),促進(jìn)交流的同時(shí),也讓更多感興趣的人加入到其中來(lái)。
隨后,阿里安全圖靈實(shí)驗(yàn)室聯(lián)合清華大學(xué)舉辦安全AI挑戰(zhàn)者計(jì)劃系列賽,探索在現(xiàn)實(shí)場(chǎng)景中,對(duì)抗攻擊的可行性。為了模擬最真實(shí)的黑盒場(chǎng)景,這個(gè)系列賽并不公開(kāi)后臺(tái)算法,也禁止選手大量query后臺(tái)模型。第一季的安全AI挑戰(zhàn)者計(jì)劃分為三期,場(chǎng)景分別為人臉識(shí)別,ImageNet圖像分類,以及文本分類。現(xiàn)在,第一季的安全AI挑戰(zhàn)者計(jì)劃已經(jīng)結(jié)束,選手們參賽的同時(shí)也體驗(yàn)了真實(shí)場(chǎng)景中AI安全攻防的復(fù)雜性。
責(zé)任編輯:gt
-
AI
+關(guān)注
關(guān)注
87文章
31097瀏覽量
269433 -
阿里
+關(guān)注
關(guān)注
6文章
439瀏覽量
32847
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論