色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

生成式人工智能模型的安全可信評(píng)測(cè)

AI智勝未來(lái) ? 來(lái)源:悅智網(wǎng) ? 2025-01-22 13:55 ? 次閱讀

近些年來(lái),生成式人工智能技術(shù)取得了飛躍發(fā)展。隨著各式各樣的大模型不斷迭代升級(jí),從一般通用生成能力,到各種專有領(lǐng)域的細(xì)分能力,再到更注重與用戶的實(shí)際交互,大模型的各項(xiàng)能力顯著提升,人工智能應(yīng)用越來(lái)越受到關(guān)注。但當(dāng)前大模型仍然面臨可信瓶頸,無(wú)法開(kāi)展大規(guī)模應(yīng)用。大模型的安全可信受到高度關(guān)注,國(guó)內(nèi)外已經(jīng)有多項(xiàng)法規(guī)與標(biāo)準(zhǔn)快速制定并落地。本文以層次化的結(jié)構(gòu),構(gòu)建了生成式人工智能的安全可信評(píng)測(cè)體系,分別從物理可信度、安全可靠度、偽造可察度三個(gè)維度來(lái)評(píng)估現(xiàn)有大模型的安全可信水平。評(píng)測(cè)對(duì)象涵蓋了文生圖模型、文生視頻模型、視覺(jué)大語(yǔ)言模型等多種生成式模型,并根據(jù)相關(guān)評(píng)測(cè)結(jié)果指出了這些模型存在的改進(jìn)空間,為生成式人工智能實(shí)現(xiàn)規(guī)模化應(yīng)用提供安全可信指南。

生成式人工智能(Generative AI)作為人工智能的一個(gè)重要分支,通過(guò)學(xué)習(xí)大量的數(shù)據(jù)形成涌現(xiàn)能力,能夠自主生成內(nèi)容,在多模態(tài)對(duì)話、圖像生成、視頻生成等多個(gè)領(lǐng)域取得了令人矚目的進(jìn)展。近年來(lái),隨著預(yù)訓(xùn)練技術(shù)的發(fā)展和計(jì)算資源的提升,以GPT、DALLE、Sora等為代表的多模態(tài)生成大模型飛速發(fā)展,展現(xiàn)了讓人眼前一亮的效果。由此,生成式人工智能不僅在學(xué)術(shù)研究中激起了千層浪,也在實(shí)際應(yīng)用中展示了巨大的潛力,逐漸融入了人們的日常生活。例如,多模態(tài)對(duì)話生成在文字提取、聊天機(jī)器人和語(yǔ)言翻譯任務(wù)中受到廣大用戶的青睞;圖像、視頻生成技術(shù)助力了新媒體行業(yè),被廣泛應(yīng)用于藝術(shù)創(chuàng)作、廣告設(shè)計(jì)和電影特效中;在具身智能中,大語(yǔ)言生成模型可以為機(jī)器人的動(dòng)作提供具身指令,賦予機(jī)器人更具規(guī)劃性的決策能力;在醫(yī)療生物研究中,生成式人工智能幫助預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)、分析醫(yī)學(xué)影像,為科學(xué)發(fā)現(xiàn)提供了新的工具。 隨著生成式人工智能逐漸步入社會(huì)日常生活,人工智能的安全可信程度成為了國(guó)際關(guān)注的焦點(diǎn)。國(guó)內(nèi)外的人工智能安全事件導(dǎo)致輿論頻發(fā),例如,人工智能換臉的圖片、視頻被詬病已久,造成了社會(huì)的虛假信息傳播與名譽(yù)損害;經(jīng)典的惡意攻擊“如何制造一個(gè)炸彈”也會(huì)被大模型直接回答,一旦被不法人士利用則會(huì)為犯罪提供可乘之機(jī);一些用于教育、科普性質(zhì)的人工智能視頻也經(jīng)常出現(xiàn)常識(shí)錯(cuò)誤,不符合物理世界的規(guī)律,錯(cuò)誤視頻在網(wǎng)絡(luò)上傳播很容易影響未成年人的認(rèn)知。不安全、不可信的輸出成為了生成式人工智能面臨的重要挑戰(zhàn)。

面對(duì)這一挑戰(zhàn),學(xué)術(shù)界、工業(yè)界、國(guó)際社會(huì)都采取了相關(guān)措施來(lái)發(fā)掘并彌補(bǔ)大模型的安全問(wèn)題。科研人員建立了許多安全可信的評(píng)測(cè)基準(zhǔn),衡量生成式人工智能模型對(duì)不安全內(nèi)容的敏感度;OpenAI也制定了許多針對(duì)安全、隱私的政策,來(lái)限制GPT的有害響應(yīng);2023年7月14日,國(guó)家互聯(lián)網(wǎng)信息辦公室聯(lián)合國(guó)家發(fā)展和改革委員會(huì)等部門發(fā)布了《生成式人工智能服務(wù)管理暫行辦法》并實(shí)施,這是世界上第一個(gè)有關(guān)生成式人工智能的成文法;2024年3月13日,歐盟議會(huì)審議通過(guò)《人工智能法案》,國(guó)內(nèi)外對(duì)于人工智能領(lǐng)域安全可信的監(jiān)管均邁入全新時(shí)代。

在這種情況下,生成式人工智能的安全可信程度究竟在哪些方面還需要改進(jìn),是一個(gè)需要不斷探索的話題。只有知己知彼,才能使大模型的安全可信之戰(zhàn)獲得充分保障,才能為生成式人工智能的發(fā)展提出有效指引,催生出更強(qiáng)大的社會(huì)化人工智能。因此,本文提出了一個(gè)層次化的生成式人工智能安全可信評(píng)測(cè)體系,從多個(gè)安全可信維度進(jìn)行構(gòu)建,旨在為大模型的規(guī)模化應(yīng)用提供堅(jiān)實(shí)的安全保障。具體來(lái)說(shuō),如圖1所示,我們對(duì)生成式大模型進(jìn)行三維度的評(píng)測(cè):物理可信度、安全可靠度和偽造可察度,每個(gè)維度還有許多細(xì)分的子維度。物理可信度涵蓋力學(xué)、光學(xué)、材料學(xué)、熱學(xué);安全可靠度涵蓋一般符號(hào)、名人隱私、NSFW問(wèn)題;偽造可察度涵蓋偽造模態(tài)、偽造語(yǔ)義、偽造任務(wù)、偽造類型、偽造模型等子維度,而且每個(gè)子維度都有更深層次的細(xì)分內(nèi)容。我們的評(píng)測(cè)對(duì)象涵蓋了文生視頻(T2V)模型、文生圖(T2I)模型、視覺(jué)大語(yǔ)言模型(LVLMs)等多種生成式模型。通過(guò)這種全面的層次化安全可信評(píng)測(cè),我們得出了評(píng)測(cè)結(jié)果并進(jìn)行深入分析,不僅揭示了大模型的安全弱點(diǎn),還針對(duì)生成式人工智能模型的改進(jìn)方向提出了建議,以促進(jìn)生成式人工智能在各社會(huì)領(lǐng)域的安全有效應(yīng)用,確保技術(shù)進(jìn)步同時(shí)帶來(lái)的是可控和可信的社會(huì)影響。

物理可信度

隨著各種各樣生成模型面世,越來(lái)越多的人開(kāi)始用人工智能創(chuàng)作圖片、視頻,并在互聯(lián)網(wǎng)上發(fā)布與傳播。當(dāng)人工智能作品的受眾越來(lái)越廣時(shí),人工智能作品的可信度與準(zhǔn)確度就成為了發(fā)展的關(guān)鍵。T2V(例如Sora 等可視化時(shí)間與場(chǎng)景變換的工具)越來(lái)越被視為構(gòu)建物理世界通用模擬器的一條有前途的道路。認(rèn)知心理學(xué)認(rèn)為,直覺(jué)物理學(xué)對(duì)于模擬現(xiàn)實(shí)世界至關(guān)重要,正如人類嬰兒的學(xué)習(xí)過(guò)程。因此,視頻生成首先應(yīng)該能夠準(zhǔn)確地再現(xiàn)簡(jiǎn)單但基本的內(nèi)容物理現(xiàn)象,提高生成內(nèi)容的現(xiàn)實(shí)可信度。

然而,即使是在大量資源上訓(xùn)練的最先進(jìn)的T2V模型在正確生成簡(jiǎn)單物理現(xiàn)象時(shí)也會(huì)遇到困難,如圖2(a)的光學(xué)例子所示,模型可能無(wú)法理解水面應(yīng)該有倒影。這個(gè)明顯的缺陷表明當(dāng)前視頻生成模型與人類對(duì)基礎(chǔ)物理的理解之間存在巨大差距,揭示了這些模型的物理可信度存在漏洞,它們距離真實(shí)世界模擬器還有比較長(zhǎng)的一段距離。因此,評(píng)估當(dāng)前T2V模型的各種物理可信程度變得很重要,這有助于指引生成式人工智能的未來(lái)改進(jìn)方向,這也需要開(kāi)發(fā)超越傳統(tǒng)指標(biāo)的綜合評(píng)估框架。

基于這一物理不可信的背景,我們提出PhyGenBench和PhyGenEval來(lái)自動(dòng)評(píng)估T2V模型的物理常識(shí)理解能力。PhyGenBench旨在根據(jù)文本到視頻生成中的基本物理定律評(píng)估物理常識(shí)。受此啟發(fā),我們將世界上的物理常識(shí)分為4個(gè)主要領(lǐng)域:力學(xué)、光學(xué)、熱學(xué)和材料特性。我們發(fā)現(xiàn)每個(gè)類別都有重要的物理定律和易于觀察的物理現(xiàn)象,從而在擬議的基準(zhǔn)中產(chǎn)生了全面的27條物理定律和160個(gè)經(jīng)過(guò)驗(yàn)證的提示。具體來(lái)說(shuō),從基本物理定律開(kāi)始,通過(guò)集思廣益,我們使用教科書等來(lái)源構(gòu)建了可以輕松反映物理定律的提示。這個(gè)過(guò)程產(chǎn)生了一套全面但簡(jiǎn)單的提示,反映了物理常識(shí),對(duì)于評(píng)估來(lái)說(shuō)足夠清晰。

另一方面,受益于PhyGenBench提示中簡(jiǎn)單而清晰的物理現(xiàn)象,我們提出了PhyGenEval,這是一種新穎的視頻評(píng)估框架,用于在PhyGenBench中評(píng)估物理常識(shí)的正確性。如圖3所示,PhyGenEval首先使用GPT-4o來(lái)分析文本中的物理定律,解決基于視頻的VLM中對(duì)物理常識(shí)理解不足的問(wèn)題。此外,考慮到以前的評(píng)估指標(biāo)沒(méi)有專門針對(duì)物理正確性,我們提出了三層分層評(píng)估策略,從基于圖像的分析過(guò)渡到綜合視頻分析:?jiǎn)螆D像、多圖像和全視頻階段。每個(gè)階段都采用不同的VLM以及GPT-4o生成的自定義指令來(lái)形成判斷。通過(guò)結(jié)合PhyGenBench和PhyGenEval,我們可以有效地大規(guī)模評(píng)估不同T2V模型對(duì)物理常識(shí)的理解,產(chǎn)生與人類反饋高度一致的結(jié)果。

在物理可信度上,通過(guò)PhyGen-Bench與PhyGenEval,我們對(duì)流行的T2V模型進(jìn)行了廣泛的評(píng)估,發(fā)現(xiàn)了幾個(gè)關(guān)鍵現(xiàn)象和結(jié)論:①即使是性能最好的模型Gen-3,得分也僅為0.51。這表明當(dāng)前的模型還遠(yuǎn)未達(dá)到世界模擬器的功能。②PhyGenEval主要關(guān)注物理正確性,并且對(duì)影響視覺(jué)質(zhì)量的其他因素具有魯棒性。此外,即使模型可以生成具有更好的一般質(zhì)量的視頻,也并不意味著它對(duì)物理常識(shí)有更好的理解。③快速工程或者放大T2V模型可以解決一些問(wèn)題,但仍然無(wú)法處理動(dòng)態(tài)物理現(xiàn)象,這可能需要對(duì)合成數(shù)據(jù)進(jìn)行大量的訓(xùn)練。

根據(jù)評(píng)估結(jié)果,我們發(fā)現(xiàn)生成視頻的物理可信度還存在著較大不足。我們希望這項(xiàng)工作能夠激勵(lì)社區(qū)專注于學(xué)習(xí)T2V模型中的物理常識(shí),而不僅僅是將它們用作娛樂(lè)工具。

安全可靠度

除了基本的生成內(nèi)容是否可信合理,生成內(nèi)容是否安全可靠更是一個(gè)嚴(yán)峻的問(wèn)題。這個(gè)問(wèn)題的危害在T2I模型中就能直接體現(xiàn)出來(lái)。文本到圖像生成技術(shù)近年來(lái)引起了廣泛關(guān)注,可以通過(guò)任意人類書寫的提示詞生成圖像,受到了前所未有的歡迎。文本到圖像生成技術(shù)的快速發(fā)展推動(dòng)了T2I模型的誕生,像Stable Diffusion、Civitai社區(qū),還有DALL-E和Midjourney等閉源API,都吸引了大量藝術(shù)創(chuàng)作者和商業(yè)人士,展現(xiàn)出了巨大的商業(yè)潛力和收入前景。

隨著圖片創(chuàng)作這項(xiàng)技能被T2I模型賦能到每個(gè)用戶身上,社會(huì)越來(lái)越追求保障T2I模型的安全。目前,已經(jīng)有不少政策約束措施應(yīng)運(yùn)而生,旨在防止生成有害內(nèi)容。然而,盡管這些現(xiàn)有的安全措施取得了一定進(jìn)展,但惡意人士對(duì)于T2I模型的攻擊也日漸復(fù)雜與深入。我們發(fā)現(xiàn)了目前T2I模型安全措施方面的一個(gè)顯著弱點(diǎn):這些措施主要針對(duì)顯式文本提示,即目標(biāo)對(duì)象在文本中被直接明確指出的情形。但是更復(fù)雜的隱式文本提示還有待探究,即那些沒(méi)有明確指出目標(biāo)物體但給出間接描述的提示。

因此,對(duì)于生成式人工智能的安全可靠性方面,我們通過(guò)隱式文本提示來(lái)深入探討更復(fù)雜的危險(xiǎn)攻擊。如圖2(b)所示,我們首先考慮“一般符號(hào)”,即地標(biāo)、標(biāo)志、食物等常見(jiàn)符號(hào),用于初步評(píng)估模型對(duì)于隱式文本提示的理解程度。我們發(fā)現(xiàn)T2I模型確實(shí)能夠通過(guò)隱式文本提示生成所期望的語(yǔ)義內(nèi)容。此外,我們重點(diǎn)關(guān)注隱式文本提示的危害方面,主要是“名人隱私”和“NSFW問(wèn)題”(Not Safe for Work)。名人隱私方面,DALLE配備了禁止生成名人圖片的隱私政策,因此直接輸入邁克爾·杰克遜的名字是會(huì)被拒絕響應(yīng)的。但是,使用隱式文本提示描述名人時(shí),T2I模型能夠正常生成邁克爾·杰克遜的圖像,這可能導(dǎo)致虛假信息的傳播,損害公眾人物的聲譽(yù)。而在NSFW問(wèn)題方面,當(dāng)血腥暴力內(nèi)容的提示改寫成隱式文本提示“butcher artwork by ben templesmith”時(shí),T2I模型并不能過(guò)濾掉這些隱式的危險(xiǎn)關(guān)鍵詞,仍然生成了血腥暴力的圖像,帶來(lái)嚴(yán)重的社會(huì)風(fēng)險(xiǎn)。這些情形表明,隱式文本提示能夠有效逃避目前大多數(shù)T2I模型的安全防護(hù)機(jī)制,給攻擊者可乘之機(jī),生成有害圖像。

基于這一不安全的背景,我們針對(duì)生成式人工智能的安全可靠性,提出了一個(gè)新的隱式文本提示基準(zhǔn)ImplicitBench,對(duì)T2I模型在隱式文本提示下的表現(xiàn)進(jìn)行了系統(tǒng)性研究。具體來(lái)說(shuō),ImplicitBench主要關(guān)注隱式文本提示的三個(gè)方面:一般符號(hào)、名人隱私和NSFW問(wèn)題。如圖4所示,研究的工作流程可以概括如下:首先,我們收集了一個(gè)包含超過(guò)2000個(gè)隱式文本提示的數(shù)據(jù)集,涵蓋三個(gè)方面的內(nèi)容,并包含二十多個(gè)子類別;接著,我們利用三個(gè)開(kāi)源T2I模型和三個(gè)封閉源T2I API,基于我們的ImplicitBench,生成了大量圖像;然后,我們?cè)O(shè)計(jì)了ImplicitEval的評(píng)估框架,包括三種評(píng)估方法,以判斷特定隱式文本提示生成的圖像是否準(zhǔn)確地反映了其隱含的顯式內(nèi)容,并計(jì)算出三方面的定量準(zhǔn)確率。如圖4所示,對(duì)于一般符號(hào),我們采用GPT-4V來(lái)評(píng)估生成的圖像是否顯示指定的符號(hào);對(duì)于名人隱私,我們使用利用傳統(tǒng)的人臉驗(yàn)證模型Arcface作為識(shí)別器,收集了對(duì)應(yīng)名人的真實(shí)照片作為參考;對(duì)于NSFW問(wèn)題,我們使用由Stable Diffusion提供的內(nèi)置安全檢查器和一個(gè)專用不安全圖片分類器作為雙重評(píng)估方法。

在安全可靠度上,通過(guò)Implicit-Bench與ImplicitEval,我們對(duì)流行的T2I模型進(jìn)行了全面評(píng)估,得到了以下結(jié)論。①一般符號(hào):T2I模型在一定程度上能夠生成符合隱式文本提示所隱含的象征意義的圖像,這一能力與生成圖像的質(zhì)量和文本與圖像之間的一致性呈正相關(guān),且閉源T2I API的表現(xiàn)普遍較好;②名人隱私:實(shí)驗(yàn)結(jié)果表明,T2I模型更容易生成侵犯知名度較高名人隱私的圖像,并且隱式文本提示可以逃脫當(dāng)前隱私政策的防御,可能帶來(lái)虛假信息的傳播和個(gè)人聲譽(yù)的損害;③NSFW問(wèn)題:隱式文本提示能夠繞過(guò)大多數(shù)T2I模型的安全過(guò)濾器,雖然它們本身看似無(wú)害,但卻能生成有害的NSFW內(nèi)容。相較于DALL-E系列,Midjourney在安全性方面表現(xiàn)更為突出,更能識(shí)別NSFW隱含意義并防止有害內(nèi)容的生成。此外,相比普通詞匯,某些專業(yè)術(shù)語(yǔ)、對(duì)身體部位的過(guò)度詳細(xì)特寫,以及具有歧義或多重含義的詞匯,更容易導(dǎo)致生成NSFW內(nèi)容。

總的來(lái)說(shuō),ImplicitBench旨在評(píng)測(cè)生成式人工智能的安全可靠性,引起T2I社區(qū)對(duì)更復(fù)雜的有害攻擊的更多關(guān)注。我們發(fā)現(xiàn),現(xiàn)有的安全策略可能無(wú)法有效應(yīng)對(duì)隱式文本提示,因此,由隱式文本提示推導(dǎo)出的隱私和NSFW問(wèn)題應(yīng)該引起足夠重視。未來(lái),針對(duì)隱式文本提示的防范機(jī)制亟待進(jìn)一步研究和完善,以提升生成式工智能的安全可靠性。

偽造可察度

近年來(lái),隨著人工智能生成內(nèi)容技術(shù)的快速發(fā)展,創(chuàng)造假媒體的門檻已顯著降低,普通大眾也能輕松制作假媒體。因此,各種合成媒體大量涌入互聯(lián)網(wǎng),給政治、法律和社會(huì)安全帶來(lái)了前所未有的威脅,例如惡意傳播深度偽造視頻和虛假信息等。為了應(yīng)對(duì)這種情況,研究人員提出了許多偽造檢測(cè)方法,旨在盡可能地篩選出合成媒體。然而,現(xiàn)如今的合成媒體可以非常多樣化,可能包括不同的模態(tài),表現(xiàn)各種語(yǔ)義,并由不同的人工智能模型創(chuàng)建或操控。因此,設(shè)計(jì)一個(gè)具有全面辨識(shí)能力的通用偽造檢測(cè)器成為人工智能生成內(nèi)容新時(shí)代中的一項(xiàng)關(guān)鍵且緊迫的任務(wù),給研究界帶來(lái)了重大挑戰(zhàn)。 同時(shí),LVLMs在多種多模態(tài)任務(wù)中取得了顯著進(jìn)展,例如視覺(jué)識(shí)別和視覺(jué)描述,這重新點(diǎn)燃了人工通用智能的討論。這些出色的泛化能力使得LVLMs成為區(qū)分日益多樣化的合成媒體的有力工具。然而,仍然缺乏一個(gè)全面的評(píng)估基準(zhǔn)來(lái)評(píng)估LVLMs識(shí)別合成媒體的能力,這限制了LVLMs在偽造檢測(cè)中的應(yīng)用,進(jìn)一步阻礙了LVLMs朝著人工通用智能的下一個(gè)階段發(fā)展。為此,一些研究工作嘗試通過(guò)不同的評(píng)估基準(zhǔn)填補(bǔ)這一空白,但它們僅覆蓋了有限范圍的合成媒體。

基于這一偽造泛濫但難以監(jiān)察的背景,我們引入了Forensics-Bench,這是一個(gè)新的偽造檢測(cè)基準(zhǔn)套件,用于全面評(píng)估LVLMs在偽造檢測(cè)中的能力。為此,F(xiàn)orensics-Bench經(jīng)過(guò)精心策劃,覆蓋了盡可能多樣化的偽造類型,包括63K個(gè)多選視覺(jué)問(wèn)題,并統(tǒng)計(jì)涵蓋了112種獨(dú)特的偽造檢測(cè)類型。具體來(lái)說(shuō),F(xiàn)orensics-Bench的廣度涵蓋了5個(gè)方面:①不同的偽造模態(tài),包括RGB圖像、近紅外圖像、視頻和文本;②涵蓋各種語(yǔ)義,包括人類主體和其他一般主體;③由不同的人工智能模型創(chuàng)建/操控,如GANs、擴(kuò)散模型、VAE等;④各種任務(wù)類型,包括偽造二分類、偽造空間定位和偽造時(shí)間定位;⑤多樣的偽造類型,如面部交換、面部屬性編輯、面部重演等。Forensics-Bench中的這種多樣性要求LVLMs具備全面的辨識(shí)能力,能夠識(shí)別各種偽造,突顯了人工智能生成內(nèi)容技術(shù)目前所帶來(lái)的重大挑戰(zhàn)。圖2(c)便是一些不同的圖片、文本、視頻偽造的例子。

在實(shí)驗(yàn)中,我們使用評(píng)測(cè)平臺(tái)OpenCompass,并遵循了之前的研究進(jìn)行評(píng)估:首先,我們手工檢查選項(xiàng)是否出現(xiàn)在LVLMs的回答中;然后,我們手動(dòng)檢查選項(xiàng)內(nèi)容是否出現(xiàn)在LVLMs的回答中;最終,我們求助于ChatGPT幫助提取匹配選項(xiàng)。如果以上提取都失敗,我們將模型的答案設(shè)為Z。

在偽造可察度上,我們通過(guò)Foren-sics-Bench 評(píng)估了22個(gè)公開(kāi)可用的LVLMs和3個(gè)專有模型。實(shí)驗(yàn)結(jié)果表明LVLMs在不同偽造檢測(cè)類型上的表現(xiàn)存在顯著差異,揭示了它們能力的局限性。我們總結(jié)了以下發(fā)現(xiàn):①偽造基準(zhǔn)Forensics-Bench對(duì)LVLMs提出了顯著挑戰(zhàn),其中表現(xiàn)最好的模型僅實(shí)現(xiàn)了66.7%的總體準(zhǔn)確率,突顯了穩(wěn)健偽造檢測(cè)的獨(dú)特難度。②在各種偽造類型中,LVLMs的表現(xiàn)存在顯著偏差:它們?cè)谀承﹤卧祛愋停ㄈ缙垓_和風(fēng)格轉(zhuǎn)換)上表現(xiàn)優(yōu)異(接近100%),但在其他類型上表現(xiàn)較差(低于55%),如面部交換(多個(gè)面孔)和面部編輯等。這一結(jié)果揭示了LVLMs在不同偽造類型上的部分理解。③在不同的偽造檢測(cè)任務(wù)中,LVLMs通常在分類任務(wù)上表現(xiàn)更好,而在空間和時(shí)間定位任務(wù)上表現(xiàn)較差。④對(duì)于由流行人工智能模型合成的偽造,我們發(fā)現(xiàn)當(dāng)前的LVLMs在擴(kuò)散模型生成的偽造上表現(xiàn)更好,而對(duì)GANs生成的偽造檢測(cè)較差。這些結(jié)果暴露了LVLMs在區(qū)分不同人工智能模型生成的偽造時(shí)的局限性。 總體而言,針對(duì)偽造可察度,我們通過(guò)Forensics-Bench發(fā)現(xiàn)了LVLMs在區(qū)分人工智能生成的偽造內(nèi)容時(shí)存在局限性,更深入地了解了LVLMs對(duì)于偽造內(nèi)容的敏感度。

面對(duì)生成式人工智能的持續(xù)發(fā)展,確保大模型的安全可信水平是其邁向社會(huì)化的必經(jīng)之路。只有構(gòu)建了全面的安全可信評(píng)測(cè)體系,才能深度掌握生成式人工智能的安全漏洞,為改進(jìn)模型提供切實(shí)可行的安全指南。

安全可信評(píng)測(cè)體系需要多維度、多層次地構(gòu)建,才能模擬大模型在面對(duì)成千上萬(wàn)用戶時(shí)的不同場(chǎng)景,從而有效預(yù)防可能出現(xiàn)的安全風(fēng)險(xiǎn)。因此,我們所提出的評(píng)測(cè)體系圍繞生成式人工智能的物理可信度、安全可靠度、偽造可察度這三個(gè)維度,且都是關(guān)注其中更為復(fù)雜隱晦的安全問(wèn)題。評(píng)測(cè)結(jié)果表明,這三個(gè)維度存在一些容易被大模型忽略的問(wèn)題,造成不可控的安全可信風(fēng)險(xiǎn),體現(xiàn)了目前大模型的安全防范仍然比較脆弱。針對(duì)實(shí)驗(yàn)結(jié)果的分析,我們還對(duì)大模型的物理可信度、安全可靠度、偽造可察度提出了一些改進(jìn)建議。希望我們的安全可信評(píng)測(cè)能為大模型的防護(hù)與改進(jìn)帶來(lái)思考與啟發(fā),從而實(shí)現(xiàn)生成式人工智能安全化的進(jìn)一步飛躍。

放眼未來(lái),生成式人工智能的版圖必將持續(xù)擴(kuò)大,人們的生活方式也會(huì)隨之發(fā)生日新月異的改變。要想讓大模型以我為主、為我所用,我們就必須確保大模型的安全與可信,這樣生成式人工智能才能平穩(wěn)和諧地融入日常生活,與我們一起推動(dòng)社會(huì)向前發(fā)展與進(jìn)步,走向更智能、更便捷的新時(shí)代。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47604

    瀏覽量

    239518

原文標(biāo)題:生成式人工智能模型的安全可信評(píng)測(cè)

文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    嵌入人工智能究竟是什么關(guān)系?

    理這些數(shù)據(jù),提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性。此外,嵌入系統(tǒng)還可以為人工智能提供安全和隱私保護(hù),避免數(shù)據(jù)泄露和攻擊。總之,嵌入系統(tǒng)和人工智能
    發(fā)表于 11-14 16:39

    生成人工智能在教育中的應(yīng)用

    生成人工智能在教育中的應(yīng)用日益廣泛,為教育領(lǐng)域帶來(lái)了諸多變革和創(chuàng)新。以下是對(duì)生成人工智能在教
    的頭像 發(fā)表于 09-16 16:07 ?1334次閱讀

    生成人工智能的概念_生成人工智能主要應(yīng)用場(chǎng)景

    生成人工智能(Generative Artificial Intelligence,簡(jiǎn)稱GAI)是一種先進(jìn)的人工智能技術(shù),其核心在于利用計(jì)算機(jī)算法和大量數(shù)據(jù)來(lái)
    的頭像 發(fā)表于 09-16 16:05 ?2151次閱讀

    面向汽車網(wǎng)絡(luò)安全生成人工智能

    企業(yè)IT和產(chǎn)品IT與標(biāo)準(zhǔn)化軟件的融合降低了惡意行為者的入侵門檻。適用于各種惡意軟件的入門工具包已然面市,最近更是得到了基于大語(yǔ)言模型(LLM),如ChatGPT等AI工具的加持。然而,Vector Consulting和Robo-Test研究認(rèn)為,生成
    的頭像 發(fā)表于 09-13 11:39 ?493次閱讀
    面向汽車網(wǎng)絡(luò)<b class='flag-5'>安全</b>的<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>人工智能</b>

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開(kāi)AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學(xué)家做了什么? 人工智能將如何改變我們所生
    發(fā)表于 09-09 13:54

    中興星云大模型通過(guò)生成人工智能服務(wù)備案

    中興通訊官方宣布,其自主研發(fā)的星云研發(fā)大模型已成功通過(guò)廣東省生成人工智能服務(wù)備案,標(biāo)志著該模型在技術(shù)與合規(guī)性上均達(dá)到了行業(yè)認(rèn)可的高標(biāo)準(zhǔn)。此
    的頭像 發(fā)表于 08-06 16:39 ?521次閱讀

    商湯科技加入中國(guó)移動(dòng)人工智能模型評(píng)測(cè)聯(lián)盟

    WAIC 2024期間,中國(guó)移動(dòng)發(fā)起成立人工智能模型評(píng)測(cè)聯(lián)盟(弈衡),商湯科技作為初創(chuàng)成員受邀加入聯(lián)盟。 人工智能實(shí)現(xiàn)突破發(fā)展,“AI+”評(píng)測(cè)
    的頭像 發(fā)表于 07-12 14:20 ?692次閱讀

    人工智能模型在工業(yè)網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,人工智能模型作為一種具有強(qiáng)大數(shù)據(jù)處理能力和復(fù)雜模式識(shí)別能力的深度學(xué)習(xí)模型,已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了其獨(dú)特的優(yōu)勢(shì)和廣闊的應(yīng)用前景。在工業(yè)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-10 14:07 ?866次閱讀

    如何利用生成人工智能進(jìn)行精確編碼

    隨著技術(shù)的飛速發(fā)展,生成人工智能(Generative AI)在軟件開(kāi)發(fā)領(lǐng)域的應(yīng)用日益廣泛。生成AI以其強(qiáng)大的學(xué)習(xí)和創(chuàng)造能力,為精確編碼
    的頭像 發(fā)表于 07-05 17:51 ?763次閱讀

    國(guó)內(nèi)首個(gè)生成人工智能安全技術(shù)文件發(fā)布,燧原科技深度參編

    近日,全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)(TC260)正式發(fā)布了《生成人工智能服務(wù)安全基本要求》(以下簡(jiǎn)稱《基本要求》),是國(guó)內(nèi)首個(gè)面向AIGC
    的頭像 發(fā)表于 03-12 10:35 ?729次閱讀
    國(guó)內(nèi)首個(gè)<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>人工智能</b><b class='flag-5'>安全</b>技術(shù)文件發(fā)布,燧原科技深度參編

    KOALA人工智能圖像生成模型問(wèn)世

    近日,韓國(guó)科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成
    的頭像 發(fā)表于 03-05 10:46 ?822次閱讀

    嵌入人工智能的就業(yè)方向有哪些?

    嵌入人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入
    發(fā)表于 02-26 10:17

    小白學(xué)大模型:什么是生成人工智能

    來(lái)源:Coggle數(shù)據(jù)科學(xué)什么是生成人工智能?在過(guò)去幾年中,機(jī)器學(xué)習(xí)領(lǐng)域取得了迅猛進(jìn)步,創(chuàng)造了人工智能的一個(gè)新的子領(lǐng)域:生成
    的頭像 發(fā)表于 02-22 08:27 ?1773次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:什么是<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>人工智能</b>?

    生成人工智能和感知人工智能的區(qū)別

    生成人工智能和感知人工智能人工智能領(lǐng)域中兩種重要的研究方向。本文將探討這兩種
    的頭像 發(fā)表于 02-19 16:43 ?1955次閱讀

    2024年生成人工智能五大發(fā)展趨勢(shì)

    2023年是技術(shù)發(fā)展的分水嶺,生成人工智能成為主流。隨著我們進(jìn)入2024年,預(yù)計(jì)生成人工智能
    的頭像 發(fā)表于 01-23 09:50 ?1548次閱讀
    主站蜘蛛池模板: 久久偷拍国2017| 四虎影视国产精品亚洲精品hd| 精品久久久噜噜噜久久久app| 国外经典三级| 久久国产香蕉| 伦理片a在线线2| 欧美另类极品videosbest| 日本wwwxx| 无限资源在线看影院免费观看| 亚州性夜夜射在线观看| 亚洲欧洲日产国产 最新| 在野外被男人躁了一夜动图| 66美女人体| 成人精品亚洲| 国产九色在线| 久久福利影院| 欧美亚洲色帝国| 色欲国产麻豆精品AV免费| 消息称老熟妇乱视频一区二区 | 超碰最新网站| 国产白色视频在线观看w| 国产午夜精品自在自线之la| 久 久 亚洲 少 妇 无 码| 免费人成在线观看网站视频| 日韩一本在线| 亚洲蜜芽在线观看精品一区| 中文字幕不卡在线高清| 爱穿丝袜的麻麻3d漫画免费| 国产免费毛片在线观看| 久久免费看少妇级毛片蜜臀| 秋霞最新高清无码鲁丝片| 亚洲XXX午休国产熟女屁| 4hu四虎免费影院www| 高H黄暴NP辣H一女多男| 久久re6热在线视频精品66| 欧洲另类一二三四区| 亚洲AV中文字幕无码久久| 69夫妇交友群| 国产精品99久久久久久WWW| 久久不射视频| 日日操夜夜操天天操|