色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2025-01-21 09:45 ? 次閱讀

自 Hinton 等人的開創(chuàng)性工作以來,基于 Kullback-Leibler 散度(KL-Div)的知識蒸餾一直占主導(dǎo)地位。 然而,KL-Div 僅比較教師和學生在相應(yīng)類別上的概率,缺乏跨類別比較的機制,應(yīng)用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結(jié)構(gòu)。

20c8471a-d62a-11ef-9310-92fbcf53809c.gif

為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾方法。所提出方法在圖像分類和目標檢測任務(wù)上均取得了當前最好的性能,論文已被 NeurIPS 2024 接受為 Poster。

20ed0b68-d62a-11ef-9310-92fbcf53809c.png

論文標題: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation

論文地址:

https://arxiv.org/abs/2412.08139

項目地址:

https://peihuali.org/WKD/

代碼地址:

https://github.com/JiamingLv/WKD

背景與動機介紹

知識蒸餾(KD)旨在將具有大容量的高性能教師模型中的知識遷移到輕量級的學生模型中。近年來,知識蒸餾在深度學習中受到了越來越多的關(guān)注,并取得了顯著進展,在視覺識別、目標檢測等多個領(lǐng)域得到了廣泛應(yīng)用。 在其開創(chuàng)性工作中,Hinton 等人引入了 Kullback-Leibler 散度(KL-Div)用于知識蒸餾,約束學生模型的類別概率預(yù)測與教師模型相似。 從那時起,KL-Div 在 Logit 蒸餾中占據(jù)主導(dǎo)地位,并且其變體方法 DKD、NKD 等也取得了令人矚目的性能。此外,這些 Logit 蒸餾方法還可以與將知識從中間層傳遞的許多先進方法相互補充。 盡管 KL-Div 取得了巨大的成功,但它存在的兩個缺點阻礙了教師模型知識的遷移。 首先,KL-Div 僅比較教師和學生在相應(yīng)類別上的概率,缺乏執(zhí)行跨類別比較的機制。 然而,現(xiàn)實世界中的類別呈現(xiàn)不同程度的視覺相似性,例如,哺乳動物物種如狗和狼彼此間的相似度較高,而與汽車和自行車等人工制品則有很大的視覺差異,如圖1所示。

不幸的是,由于 KL-Div 是類別對類別的比較,KD 和其變體方法無法顯式地利用這種豐富的跨類別知識。

210e0c6e-d62a-11ef-9310-92fbcf53809c.jpg

▲圖1. 左圖使用t-SNE展示了100個類別的嵌入分布。可以看出,這些類別在特征空間中表現(xiàn)出豐富的相互關(guān)系 (IR)。然而,右圖中的KL散度無法顯式地利用這些相互關(guān)系。

其次,KL-Div 在用于從中間層特征進行知識蒸餾時存在局限性。圖像的深度特征通常是高維的且空間尺寸較小,因此其在特征空間中非常稀疏,不僅使得 KL-Div 在處理深度神經(jīng)網(wǎng)絡(luò)特征的分布時存在困難。 KL-Div 無法處理不重疊的離散分布,并且由于其不是一個度量,在處理連續(xù)分布時能力有限,無法感知底層流形的幾何結(jié)構(gòu)。

2124e89e-d62a-11ef-9310-92fbcf53809c.png

▲圖2. 基于Wasserstein距離(WD)的知識蒸餾方法的總覽圖

為了解決這些問題,研究人員提出了一種基于Wasserstein距離的知識蒸餾方法,稱為WKD,同時適用于Logit蒸餾(WKD-L)和Feature蒸餾(WKD-F),如圖2所示。 在WKD-L中,通過離散WD最小化教師和學生之間預(yù)測概率的差異,從而進行知識轉(zhuǎn)移。 通過這種方式,執(zhí)行跨類別的比較,能夠有效地利用類別間的相互關(guān)系(IRs),與KL-Div中的類別間比較形成鮮明對比。 對于WKD-F,研究人員利用WD從中間層特征中蒸餾知識,選擇參數(shù)化方法來建模特征的分布,并讓學生直接匹配教師的特征分布。 具體來說,利用一種最廣泛使用的連續(xù)分布(高斯分布),該分布在給定特征的1階和2階矩的情況下具有最大熵。 論文的主要貢獻可以總結(jié)如下:

提出了一種基于離散WD的Logit蒸餾方法(WKD-L),可以通過教師和學生預(yù)測概率之間的跨類別比較,利用類別間豐富的相互關(guān)系,克服KL-Div無法進行類別間比較的缺點。

將連續(xù)WD引入中間層進行Feature蒸餾(WKD-F),可以有效地利用高斯分布的Riemann空間幾何結(jié)構(gòu),優(yōu)于無法感知幾何結(jié)構(gòu)的KL-Div。

在圖像分類和目標檢測任務(wù)中,WKD-L優(yōu)于非常強的基于KL-Div的Logit蒸餾方法,而WKD-F在特征蒸餾中優(yōu)于KL-Div的對比方法和最先進的方法。WKD-L和WKD-F的結(jié)合可以進一步提高性能。

用于知識遷移的WD距離

用于Logit蒸餾的離散WD距離 類別之間的相互關(guān)系(IRs) 如圖1所示,現(xiàn)實世界中的類別在特征空間中表現(xiàn)出復(fù)雜的拓撲關(guān)系。相同類別的特征會聚集并形成一個分布,而相鄰類別的特征有重疊且不能完全分離。 因此,研究人員提出基于CKA量化類別間的相互關(guān)系(IRs),CKA是一種歸一化的Hilbert-Schmidt獨立性準則(HSIC),通過將兩個特征集映射到再生核希爾伯特空間(RKHS)來建模統(tǒng)計關(guān)系。 首先將每個類別中所有訓練樣本的特征構(gòu)成一個特征矩陣,之后通過計算任意兩個類別特征矩陣之間的CKA得到類間相互關(guān)系(IR)。計算IR的成本可以忽略,因為在訓練前僅需計算一次。 由于教師模型通常包含更豐富的知識,因此使用教師模型來計算類別間的相互關(guān)系213f777c-d62a-11ef-9310-92fbcf53809c.png損失函數(shù)21491dae-d62a-11ef-9310-92fbcf53809c.png215455ac-d62a-11ef-9310-92fbcf53809c.png分別表示教師模型和學生模型的預(yù)測類別概率,其通過softmax函數(shù)和溫度對Logit計算得到。將離散的WD表示為一種熵正則化的線性規(guī)劃:

218e6e0e-d62a-11ef-9310-92fbcf53809c.png

其中21a4add6-d62a-11ef-9310-92fbcf53809c.png21b5b338-d62a-11ef-9310-92fbcf53809c.png分別表示每單位質(zhì)量的運輸成本和在將概率質(zhì)量從21c7e9c2-d62a-11ef-9310-92fbcf53809c.png移動到21d41440-d62a-11ef-9310-92fbcf53809c.png 時的運輸量;21efd144-d62a-11ef-9310-92fbcf53809c.png是正則化參數(shù)。 定義運輸成本21a4add6-d62a-11ef-9310-92fbcf53809c.png與相似度度量220d7dac-d62a-11ef-9310-92fbcf53809c.png成負相關(guān)。 因此,WKD-L的損失函數(shù)可以定義為:

221f48b6-d62a-11ef-9310-92fbcf53809c.png

用于Feature蒸餾的連續(xù)WD距離 特征分布建模 將模型某個中間層輸出的特征圖重塑為一個矩陣,其中第i列2231dddc-d62a-11ef-9310-92fbcf53809c.png表示一個空間特征。 之后,估計這些特征的一階矩2240e4b2-d62a-11ef-9310-92fbcf53809c.png和二階矩

224b5d52-d62a-11ef-9310-92fbcf53809c.png

,并將二者作為高斯分布的參數(shù)來建模輸入圖像特征的分布。 損失函數(shù) 設(shè)教師的特征分布為高斯分布

225bcfac-d62a-11ef-9310-92fbcf53809c.png

。類似地,學生的分布記為2265fb76-d62a-11ef-9310-92fbcf53809c.png。 兩者之間的連續(xù)Wasserstein距離(WD)定義為:

226dc3c4-d62a-11ef-9310-92fbcf53809c.png

其中,227e7ce6-d62a-11ef-9310-92fbcf53809c.png22932e3e-d62a-11ef-9310-92fbcf53809c.png是高斯變量,q表示聯(lián)合分布。最小化上式可以得到閉集形式的WD距離。此外,為了平衡均值和協(xié)方差的作用,引入了一個均值-協(xié)方差比率γ,最后損失定義為:

22a50258-d62a-11ef-9310-92fbcf53809c.png

實驗分析和比較 研究人員在ImageNet和CIFAR-100上評估了WKD在圖像分類任務(wù)中的表現(xiàn),還評估了WKD在自蒸餾(Self-KD)中的有效,并且將WKD擴展到目標檢測,并在MS-COCO上進行了實驗。 在ImageNet上的圖像分類 研究人員在ImageNet的在兩種設(shè)置下與現(xiàn)有工作進行了比較。設(shè)置(a)涉及同質(zhì)架構(gòu),其中教師和學生網(wǎng)絡(luò)分別為ResNet34和ResNet18;設(shè)置(b)涉及異質(zhì)架構(gòu),在該設(shè)置中,教師網(wǎng)絡(luò)為ResNet50,學生網(wǎng)絡(luò)為MobileNetV1。 對于Logit蒸餾,WKD-L在兩種設(shè)置下均優(yōu)于經(jīng)典的KD及其所有變體。對于特征蒸餾,WKD-F也超過當前的最佳方法ReviewKD;最后,WKD-L和WKD-F的結(jié)合進一步提升了性能,超越了強有力的競爭方法。

22c3f190-d62a-11ef-9310-92fbcf53809c.png

▲表1. 在ImageNet上的圖像分類結(jié)果

在CIFAR-100上的圖像分類 研究人員在教師模型為CNN、學生為Transformer或反之的設(shè)置下評估了WKD方法,使用的CNN模型包括ResNet(RN)、MobileNetV2(MNV2)和ConvNeXt;Transformer模型包括ViT、DeiT和Swin Transformer。 對于Logit蒸餾,WKD-L在從Transformer到CNN遷移知識或反之的設(shè)置下始終優(yōu)于最新的OFA方法。對于特征蒸餾,WKD-F在所有實驗設(shè)置中排名第一; 研究人員認為,對于跨CNN和Transformer的知識轉(zhuǎn)移,考慮到兩者特征差異較大,WKD-F比像FitNet和CRD這樣直接對原始特征進行對齊的方法更為合適。

22e1ad20-d62a-11ef-9310-92fbcf53809c.png

▲表2. CIFAR-100上跨CNN和Transformer的圖像分類結(jié)果(Top-1準確率) 在ImageNet上的自蒸餾 研究人員在Born-Again Network(BAN)框架中將WKD方法用于自蒸餾任務(wù)(Self-KD)。 使用ResNet18在ImageNet上進行實驗,結(jié)果如表3所示,WKD-L取得了最佳結(jié)果,比BAN的Top-1準確率高出約0.9%,比第二高的USKD方法高出0.6%。這一比較表明,WKD方法可以很好地推廣到自蒸餾任務(wù)中。

22efcd74-d62a-11ef-9310-92fbcf53809c.png

▲表3. 在ImageNet上自蒸餾(Self-KD)的結(jié)果

在MS-COCO上的目標檢測 研究人員將WKD擴展到Faster-RCNN框架下的目標檢測中。對于WKD-L,使用檢測頭中的分類分支進行Logit蒸餾。對于WKD-F,直接從輸入到分類分支的特征中進行知識遷移,即從RoIAlign層輸出的特征來計算高斯分布。 對于Logit蒸餾,WKD-L顯著優(yōu)于經(jīng)典的KD,并略微優(yōu)于DKD。對于特征蒸餾,WKD-F在兩個設(shè)置中均顯著超過之前的最佳特征蒸餾方法ReviewKD。最后,通過結(jié)合WKD-L和WKD-F,表現(xiàn)超過了DKD+ReviewKD。當使用額外的邊框回歸進行知識遷移時,WKD-L+WKD-F進一步提高并超越了之前的最先進方法FCFD。

22ff3d5e-d62a-11ef-9310-92fbcf53809c.png

▲表4. 在MS-COCO上的目標檢測結(jié)果。?:使用了額外的邊框回歸進行知識遷移

總結(jié)

Wasserstein距離(WD)在生成模型等多個領(lǐng)域中已展現(xiàn)出相較于KL散度(KL-Div)的顯著優(yōu)勢。 然而,在知識蒸餾領(lǐng)域,KL散度仍然占據(jù)主導(dǎo)地位,目前尚不清楚Wasserstein距離能否實現(xiàn)更優(yōu)的表現(xiàn)。 研究人員認為,早期基于Wasserstein距離的知識蒸餾研究未能充分發(fā)揮該度量的潛力。 因此,文中提出了一種基于Wasserstein距離的全新知識蒸餾方法,能夠從Logit和Feature兩個方面進行知識遷移。 大量的實驗表明,離散形式的Wasserstein距離在Logit蒸餾中是當前主流KL散度的極具潛力的替代方案,而連續(xù)形式的Wasserstein距離在中間層特征遷移中也取得了令人信服的性能表現(xiàn)。

盡管如此,該方法仍存在一定局限性:WKD-L相比基于KL散度的Logit蒸餾方法計算開銷更高,而WKD-F假設(shè)特征服從高斯分布。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像分類
    +關(guān)注

    關(guān)注

    0

    文章

    93

    瀏覽量

    11956
  • 目標檢測
    +關(guān)注

    關(guān)注

    0

    文章

    211

    瀏覽量

    15657

原文標題:NeurIPS 2024 | 超越KL!大連理工提出WKD:基于WD距離的知識蒸餾新方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    知行科技大模型研發(fā)體系初見效果

    Transformer)模型作為教師,CNN網(wǎng)絡(luò)作為學生進行學習。推進異構(gòu)神經(jīng)網(wǎng)絡(luò)間知識蒸餾研究的具體范式/方法,被收錄于NeurIPS 2024(第38屆神經(jīng)信息處理系統(tǒng)會議)。
    的頭像 發(fā)表于 12-27 09:38 ?178次閱讀
    知行科技大模型研發(fā)體系初見效果

    大連理工和南信大-紫光同創(chuàng)FPGA創(chuàng)新實踐基地揭牌

    為了深化產(chǎn)教融合,加快推進國產(chǎn)FPGA人才培養(yǎng),紫光同創(chuàng)與大連理工大學軟件學院及南京信息工程大學工程訓練中心達成合作,共同建設(shè)FPGA聯(lián)合創(chuàng)新實踐基地。
    的頭像 發(fā)表于 12-06 09:25 ?367次閱讀

    華旋傳感亮相大工汽車人產(chǎn)業(yè)論壇,共研新能源產(chǎn)業(yè)升級

    11月30日,大連理工大學汽車產(chǎn)業(yè)論壇企業(yè)家·閉門會在上海盛大召開,匯聚企業(yè)界與學術(shù)界精英,共謀汽車行業(yè)技術(shù)創(chuàng)新、產(chǎn)業(yè)升級與可持續(xù)發(fā)展之道。此次論壇秉持ESG責任理念,全程無紙化操作,以實際行動助力
    的頭像 發(fā)表于 12-04 11:32 ?387次閱讀
    華旋傳感亮相大工汽車人產(chǎn)業(yè)論壇,共研新能源產(chǎn)業(yè)升級

    大連理工大學EMBA走進研華科技

    近日, 來自大連理工大學EMBA的企業(yè)家們走進研華科技,研華(中國)工業(yè)物聯(lián)網(wǎng)總經(jīng)理蔡奇男熱情接待,并分享研華在智能制造的先進經(jīng)驗,及制造業(yè)企業(yè)數(shù)智化轉(zhuǎn)型的成果。
    的頭像 發(fā)表于 11-18 15:47 ?298次閱讀

    觸覺傳感重磅《Nature》!無線、低功耗、多刺激模式觸覺電子皮膚(附原論文)

    中有廣泛的應(yīng)用。在觸覺傳感方面,已有眾多Nature、Science子刊發(fā)表,但是Nature正刊卻仍十分稀少。 ? ? ????? 近日,美國西北大學John A. Rogers/黃永剛大連理工大學解兆謙聯(lián)合團隊提出了一個微型化的機電結(jié)構(gòu),當與皮膚結(jié)合時,能
    的頭像 發(fā)表于 11-14 18:13 ?940次閱讀
    觸覺傳感重磅《Nature》!無線、低功耗、多刺激模式觸覺電子皮膚(附原論文)

    普源精電和大連理工大學校企合作交流會成功舉辦

    普源精電科技股份有限公司與大連理工大學創(chuàng)新創(chuàng)業(yè)學院校企合作交流會于創(chuàng)新創(chuàng)業(yè)學院402會議室成功舉辦。會議由創(chuàng)新創(chuàng)業(yè)學院副院長吳振宇主持,普源精電中國區(qū)市場總監(jiān)孫曉川、教育計劃經(jīng)理江佳慧、渠道銷售經(jīng)理
    的頭像 發(fā)表于 10-12 09:07 ?440次閱讀

    OpenHarmony年度技術(shù)俱樂部、個人及活動評選結(jié)果公示

    蘭州大學OpenHarmony技術(shù)俱樂部 華中科技大學OpenHarmony技術(shù)俱樂部 菁英教育OpenHarmony技術(shù)俱樂部 大連理工大學Ope
    的頭像 發(fā)表于 10-05 08:07 ?303次閱讀

    西部數(shù)據(jù)發(fā)布WD Blue SN5000 NVMe SSD

    西部數(shù)據(jù)近期宣布,正式推出其WD Blue系列的最新成員——WD Blue? SN5000 NVMe? SSD,專為追求極致性能的內(nèi)容創(chuàng)作者與專業(yè)人士量身打造。這款SSD的推出,標志著西部數(shù)據(jù)在高端存儲解決方案領(lǐng)域的又一重要里程碑。
    的頭像 發(fā)表于 09-02 18:25 ?1025次閱讀

    中軟國際信創(chuàng)服務(wù)助力大連信創(chuàng)產(chǎn)業(yè)發(fā)展

    為進一步激發(fā)大連本地信創(chuàng)產(chǎn)業(yè)生態(tài)的活力與潛力,搭建一個高效、開放的交流平臺。由大連軟件行業(yè)協(xié)會攜手大連市信息技術(shù)應(yīng)用創(chuàng)新綜合服務(wù)中心主辦,中軟國際協(xié)辦的,2024年大連市信息技術(shù)應(yīng)用創(chuàng)
    的頭像 發(fā)表于 08-27 16:49 ?947次閱讀

    使用什么EDA工具打開EVAL-AD2428WD1BZ-layout.pcb的PCB文件?

    使用什么EDA工具打開EVAL-AD2428WD1BZ-layout.pcb的PCB文件
    發(fā)表于 07-05 06:38

    逆變器電池用蒸餾水理由,金屬觸點完全浸沒

    如果不使用正確的水,逆變器電池將損壞且無法使用。因此,保持其加滿正確的水非常重要。在本文中,我們將介紹逆變器電池中使用的水、為什么它很重要以及“給電池澆水”的頻率。逆變器電池使用蒸餾水您應(yīng)始終在
    的頭像 發(fā)表于 06-07 11:52 ?369次閱讀
    逆變器電池用<b class='flag-5'>蒸餾</b>水理由,金屬觸點完全浸沒

    谷歌提出大規(guī)模ICL方法

    谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監(jiān)督兩種新型的ICL(In-Context Learning)學習方法,這一創(chuàng)新技術(shù)能夠在多個領(lǐng)域顯著提升模型的性能。
    的頭像 發(fā)表于 05-14 14:17 ?397次閱讀

    阿里達摩院提出知識鏈”框架,降低大模型幻覺

    近日,阿里巴巴達摩院(湖畔實驗室)攜手新加坡南洋理工大學等研究機構(gòu),共同推出了大模型知識鏈(CoK)框架。該框架不僅可實時檢索異構(gòu)知識源,還能逐步糾正推理錯誤,有效提高了大模型在回答知識
    的頭像 發(fā)表于 05-10 11:46 ?740次閱讀

    大連理工大學發(fā)布氮化鎵氣體傳感器專利

    該發(fā)明的核心在于一種以氮化鎵薄膜為主要材料的氣體傳感器的制備與運用。其制法包括:首先,通過對襯底進行鍍膜工藝生成非晶氮化鎵薄膜,然后將其加熱至特定溫度,使之轉(zhuǎn)化為多晶氮化鎵薄膜;
    的頭像 發(fā)表于 03-29 09:34 ?700次閱讀
    <b class='flag-5'>大連理工</b>大學發(fā)布氮化鎵氣體傳感器專利

    工業(yè)鏡頭中常見的參數(shù)之工作距離、物距、法蘭距及鏡頭接口

    工業(yè)鏡頭中常用的一些關(guān)于距離的參數(shù),別再傻傻分不清了。工作距離WD)是指鏡頭最下端機械面到物體的距離。物像距離(O/I)指物平面到相機芯片
    的頭像 發(fā)表于 03-11 15:29 ?5894次閱讀
    工業(yè)鏡頭中常見的參數(shù)之工作<b class='flag-5'>距離</b>、物距、法蘭距及鏡頭接口
    主站蜘蛛池模板: 中国老妇xxxhd| 欧洲亚洲精品A片久久99果冻 | 亚洲国产精品天堂在线播放 | 好大好硬好湿再深一点网站 | 无人在线观看免费高清视频播放 | YELLOW视频直播在线观看高清 | 成人免费一区二区无码视频 | 国产精品久久久久久无码专区 | 好色美女小雅 | 午夜片无码区在线观看 | 国产无遮挡色视频免费观看性色 | 日韩中文字幕欧美在线视频 | 考试考90就可以晚上和老师C | 快穿之诱受双性被灌满h | 国产亚洲精品久久久久久禁果TV | 国产精品外围在线观看 | 我年轻漂亮的继坶2中字在线播放 | 亚洲免费黄色 | 久久三级网站 | 亚洲福利视频导航 | 羞羞影院午夜男女爽爽免费 | 啪啪激情婷婷久久婷婷色五月 | 亚洲spank男男实践网站 | 初中XXXXXL| 久久精品麻豆国产天美传媒果冻 | 国产色偷偷男人的天堂 | 亚洲国产系列一区二区三区 | 久久99热这里只有精品66 | 国产私拍福利精品视频 | 旧里番YY6080在线播放 | 久久re热线视频精品99 | 午夜国产精品影院在线观看 | 暖暖日本在线手机免费完整版 | a级毛片高清免费视频 | 精品亚洲国产成AV人片传媒 | 乳色吐息未增删樱花ED在线观看 | 红杏俱乐部| 色欲AV精品人妻一二三区 | 野花视频在线观看免费最新动漫 | 亚洲高清无码在线 视频 | 国产真实乱对白精彩 |