色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度神經(jīng)網(wǎng)絡(luò)的多領(lǐng)域?qū)崟r(shí)目標(biāo)檢測算法

3D視覺工坊 ? 來源:自動駕駛之心 ? 作者:汽車人 ? 2022-11-04 17:27 ? 次閱讀

基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測器不斷發(fā)展,并用于多種應(yīng)用,每個(gè)應(yīng)用都有自己的一組要求。安全關(guān)鍵型的應(yīng)用程序需要高精度和可靠性,而低延遲的任務(wù)需要節(jié)約資源的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)時(shí)目標(biāo)檢測器在有高影響力的現(xiàn)實(shí)世界應(yīng)用中是必不可少的,并不斷有新方法提出,但它們過分強(qiáng)調(diào)精度和速度上的改進(jìn),而忽略了其他方面,如多功能性、魯棒性、資源和能源效率。現(xiàn)有網(wǎng)絡(luò)的參考基準(zhǔn)不存在,新網(wǎng)絡(luò)設(shè)計(jì)的標(biāo)準(zhǔn)評估指南也不存在,這導(dǎo)致比較模棱兩可和不一致。因此,作者在大規(guī)模的數(shù)據(jù)集上對多個(gè)實(shí)時(shí)檢測器(anchor-based、anchor-free和Transformer)進(jìn)行了全面調(diào)研,并輸出了一組指標(biāo)結(jié)果。作者還研究了圖像大小、anchor尺寸、置信度閾值和層結(jié)構(gòu)等變量對整體性能的影響。作者分析了檢測網(wǎng)絡(luò)對分布變化、自然損壞和對抗性攻擊的魯棒性。此外,作者提供校準(zhǔn)分析來衡量預(yù)測的可靠性。最后,為了突出現(xiàn)實(shí)世界的影響,作者針對自動駕駛和醫(yī)療保健應(yīng)用進(jìn)行了案例研究。為了進(jìn)一步衡量網(wǎng)絡(luò)在關(guān)鍵實(shí)時(shí)應(yīng)用中的能力,作者測試了在邊緣設(shè)備上部署檢測網(wǎng)絡(luò)后的性能。作者大量的實(shí)證研究可以作為工業(yè)界在現(xiàn)有網(wǎng)絡(luò)上進(jìn)行選擇的指南。作者還希望激勵(lì)研究界朝著網(wǎng)絡(luò)設(shè)計(jì)和評估的新方向發(fā)展,專注于更大和整體的綜述,以產(chǎn)生更深遠(yuǎn)的影響。

概述

深度神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展帶來了目標(biāo)檢測領(lǐng)域的顯著突破。目標(biāo)檢測通過提供目標(biāo)的位置以及類別標(biāo)簽和置信度分?jǐn)?shù)來同時(shí)完成分類和定位。目標(biāo)檢測器可用于多種應(yīng)用場景,例如自動駕駛系統(tǒng)(ADS)、監(jiān)控、機(jī)器人和醫(yī)療保健。ADS需要實(shí)時(shí)準(zhǔn)確地檢測車輛、交通標(biāo)志和其他障礙物,此外,為了確保安全,它們需要檢測器在不同的光照和天氣條件下可靠且一致地執(zhí)行。醫(yī)療保健應(yīng)用需要高精度,即使它不是非常快。低延遲應(yīng)用程序需要部署在邊緣設(shè)備上,因此需要快速且緊湊的檢測器以適應(yīng)低功耗硬件設(shè)備。不同的應(yīng)用程序有不同的標(biāo)準(zhǔn),現(xiàn)實(shí)世界的設(shè)置伴隨著時(shí)間和資源的限制。因此,檢測器需要資源和能源效率高,以確保部署在高影響力的實(shí)際應(yīng)用中。這需要對不同標(biāo)準(zhǔn)的實(shí)時(shí)檢測網(wǎng)絡(luò)進(jìn)行詳細(xì)分析。

目前人們已經(jīng)提出了許多實(shí)時(shí)檢測網(wǎng)絡(luò),它們實(shí)現(xiàn)了SOTA性能,但它們主要關(guān)注精度和速度,但省略了其他指標(biāo),如簡單性、適用性和能源效率等。而這些指標(biāo),還包括泛化、魯棒性和可靠性等網(wǎng)絡(luò)能力的評估都是很重要的。因此,作者進(jìn)行了全面的、在不同數(shù)據(jù)集上、多個(gè)檢測器上,進(jìn)行實(shí)時(shí)目標(biāo)檢測以及目標(biāo)檢測基準(zhǔn)的研究,作者還提供了兩個(gè)關(guān)于自動駕駛和醫(yī)療保健應(yīng)用的案例研究。除了精度和推理時(shí)間外,作者還評估每個(gè)模型的資源和能源消耗,以估計(jì)環(huán)境影響。作者選擇了眾多網(wǎng)絡(luò)并創(chuàng)建了一個(gè)統(tǒng)一的框架,可以輕松分析骨干網(wǎng)(或特征提取器)和檢測頭的不同組合(見下表)。

f02bfce2-3481-11ed-ba43-dac502259ad0.png

為了進(jìn)一步詳細(xì)評估性能增益/損失,作者解耦了不同變量的影響,例如圖像大小、anchor大小、置信度閾值和架構(gòu)層類型。為了進(jìn)行統(tǒng)一的評估,作者遵循標(biāo)準(zhǔn)的實(shí)驗(yàn)流程并詳述使用的所有參數(shù)。每個(gè)組合都在兩個(gè)廣泛使用的通用數(shù)據(jù)集(PASCALVOC(Everinghametal.,2010)和MSCOCO(Linetal.,2014))上進(jìn)行訓(xùn)練和測試。網(wǎng)絡(luò)應(yīng)該對實(shí)時(shí)應(yīng)用中不斷變化的光照和天氣條件具有魯棒性,因此,作者進(jìn)一步進(jìn)行了大量的魯棒性分析,以分析網(wǎng)絡(luò)在分布變化和自然損壞方面的結(jié)果。對于安全關(guān)鍵型應(yīng)用,網(wǎng)絡(luò)也應(yīng)該對對抗性具有魯棒性,包含人眼無法察覺的變化的圖像,因此作者評估網(wǎng)絡(luò)對此類攻擊的魯棒性。同樣,對于這些應(yīng)用程序,不確定性的度量有助于及時(shí)做出決策,因此作者還提供了每個(gè)網(wǎng)絡(luò)的可靠性分析。最后,為了展示對現(xiàn)實(shí)世界的影響,作者對自動駕駛和醫(yī)療保健領(lǐng)域進(jìn)行了兩個(gè)獨(dú)家案例研究。對于前者,將檢測器性能移植到Berkeley Deep Drive(BDD)(Yuetal.,2018)數(shù)據(jù)集上,這與ADS應(yīng)用更相關(guān)。作者還展示了分布外(OOD)數(shù)據(jù)集Cityscapes(Cordtsetal.,2016)的泛化能力和性能報(bào)告。為了突出檢測器實(shí)時(shí)部署的可行性,作者在嵌入式硬件部署上使用NVIDIA TensorRT優(yōu)化模型,并詳述了低功耗設(shè)備上的實(shí)時(shí)性能。對于醫(yī)療保健案例研究,作者展示了網(wǎng)絡(luò)從醫(yī)學(xué)圖像中檢測息肉的能力,這些息肉用于檢測患者是否得癌癥。這些應(yīng)用涵蓋了兩個(gè)具有不同要求的不同領(lǐng)域,作者的案例研究提供了超越標(biāo)準(zhǔn)的獨(dú)特視角基準(zhǔn)測試,并衡量檢測器在實(shí)時(shí)應(yīng)用中更相關(guān)和適用的不同數(shù)據(jù)集的能力。

作者制定了8種度量標(biāo)準(zhǔn),即精度、對自然和對抗性破壞的魯棒性、速度、參數(shù)量、MAC (Multiply-Accumulate operations)計(jì)數(shù)、能耗和校準(zhǔn)誤差(衡量可靠性)。如下圖,理想的網(wǎng)絡(luò)應(yīng)該占據(jù)整個(gè)八邊形,這樣的網(wǎng)絡(luò)具有最高的精度、魯棒性和速度,參數(shù)量和MAC計(jì)數(shù),同時(shí)消耗最低的能量,是被校準(zhǔn)的最好的。唯一一個(gè)實(shí)時(shí)兩階段檢測器ThunderNet是為移動設(shè)備設(shè)計(jì)的,在資源方面效率很高,但在準(zhǔn)確性、自然魯棒性方面不足,是最慢的網(wǎng)絡(luò)之一。YOLO是一種基于anchor的檢測器,其能量消耗排名第二,處于校準(zhǔn)的中間范圍,但在速度、精度和魯棒性方面落后。SSD是另一種基于anchor的檢測器,在精度和速度之間提供了很好的平衡。它具有最佳的校準(zhǔn)評分,更可靠。DETR是一種基于transformer的檢測器,它的MAC計(jì)數(shù)最低,在對抗魯棒性方面排名第二,但它的校準(zhǔn)分?jǐn)?shù)最低,因此預(yù)測的可靠性較低。CenterNet對對抗性攻擊具有最高的魯棒性,是第二快的,并且在所有其他指標(biāo)上也處于良好的位置。TTFNet位于中間位置。FCOS具有最高的準(zhǔn)確性和穩(wěn)健性,但在其他指標(biāo)上不穩(wěn)定。NanoDet在速度方面是最快的,精度上是第二好的,并且資源消耗最低。這四種檢測器都屬于anchor-free的,是基于關(guān)鍵點(diǎn)的檢測器范疇。總的來說,NanoDet在大多數(shù)頂點(diǎn)上都達(dá)到了最高點(diǎn),并且在校準(zhǔn)上獲得了平均值,因此,對于需要在低功耗設(shè)備上運(yùn)行、速度和精度高的應(yīng)用程序來說,NanoDet是一個(gè)較好的選擇。

f0415ca4-3481-11ed-ba43-dac502259ad0.png

作者總結(jié)發(fā)現(xiàn),基于關(guān)鍵點(diǎn)(anchor-free)的方法在精度和速度上普遍優(yōu)于基于anchor的方法和兩階段方法。作者還注意到,雖然較高的MAC計(jì)數(shù)可能導(dǎo)致更高的能量消耗,但它們不一定會導(dǎo)致準(zhǔn)確性的提高。所有的檢測器對大中型目標(biāo)的檢測精度較高,但對小目標(biāo)的檢測精度較低。FCOS在與較重的骨干(如HarDNet-68)配對時(shí),在檢測小目標(biāo)方面表現(xiàn)相對較好。增加輸入圖像尺寸不總是有益的,因?yàn)樗俣鹊南陆低^精度的提高。anchor大小影響基于anchor檢測器預(yù)測的不確定性使得它們難以適應(yīng)較新的數(shù)據(jù)集。基于關(guān)鍵點(diǎn)的檢測器對于跨多個(gè)數(shù)據(jù)集有較好的泛化能力。不同的置信度閾值在精度和速度上的變化顯示了再現(xiàn)結(jié)果的模糊性。由于transformer使用注意力模塊來捕捉全局信息,它們對不同的圖像大小不那么敏感,并獲取比較一致的性能。校準(zhǔn)結(jié)果表明,基于關(guān)鍵點(diǎn)的方法是謹(jǐn)慎和不自信的,從而證明在安全關(guān)鍵應(yīng)用中有用。但是,有趣的是,DETR是所有網(wǎng)絡(luò)中最自負(fù)的。隨著transformers獲得越來越多的關(guān)注,這種詳細(xì)的分析將為這種新的架構(gòu)范式的功能和缺陷提供更多的見解。ADS的案例研究表明,在一臺設(shè)備上看到的性能趨勢并不一定會轉(zhuǎn)化到部署中使用的嵌入式硬件。醫(yī)療保健案例研究表明,精度相對較高的網(wǎng)絡(luò)可能沒有更高的召回值,而這些召回值在醫(yī)療數(shù)據(jù)中更重要(因?yàn)榧訇幮员燃訇栃愿泻?。

本文的貢獻(xiàn)總結(jié)如下:對九個(gè)特征提取網(wǎng)絡(luò)和八個(gè)檢測頭的組合進(jìn)行了廣泛的實(shí)證研究,范圍從two-stage、one-stage、anchor-based、keypoint-based到transformer-based架構(gòu)。

結(jié)果詳細(xì),包括基準(zhǔn)數(shù)據(jù)集上的精度、速度、可學(xué)習(xí)參數(shù)量、MAC計(jì)數(shù)和能耗。

變量的影響,例如圖像大小、anchor大小、置信度閾值和特定架構(gòu)設(shè)計(jì)對整體性能的影響。

針對15種不同的自然損壞和強(qiáng)度不同的對抗性攻擊對所有網(wǎng)絡(luò)進(jìn)行魯棒性分析。

通過評估所有網(wǎng)絡(luò)的校準(zhǔn)分?jǐn)?shù)進(jìn)行可靠性分析。

通過對更相關(guān)的BDD數(shù)據(jù)集進(jìn)行分析,對自動駕駛系統(tǒng)進(jìn)行案例研究。并且,通過在Cityscapes數(shù)據(jù)集上測試網(wǎng)絡(luò)對分布外數(shù)據(jù)的泛化性能。

在邊緣設(shè)備上部署TensorRT優(yōu)化檢測器:Jetson-Xavier和Jetson-Tx2。

通過對醫(yī)療保健應(yīng)用進(jìn)行分析的案例研究,用于檢測癌性息肉的Kvasir-SEG數(shù)據(jù)集。

目標(biāo)檢測回顧

目標(biāo)檢測通過提供目標(biāo)實(shí)例的類別標(biāo)簽和邊界框坐標(biāo)來同時(shí)進(jìn)行分類和定位。基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)檢測器通常分為兩類,即兩階段和單階段檢測方法,詳見下表。

f0544468-3481-11ed-ba43-dac502259ad0.png

two-stage

兩階段檢測器由一個(gè)單獨(dú)的region proposal網(wǎng)絡(luò)(RPN)進(jìn)行前景背景分類。從RPN中提出的感興趣區(qū)域(ROI)中提取的特征被傳遞給分類頭以確定類標(biāo)簽,并傳遞給回歸頭以確定邊界框位置(參考Faster RCNN系列)。基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(RCNN)使用選擇性搜索算法來查找圖像中可能是目標(biāo)的像素區(qū)域,然后將Proposal輸入CNN(Girshicketal.,2014)。從CNN中提取的特征支持向量機(jī)(SVM)進(jìn)行分類和并回歸邊界框。RCNN需要漸進(jìn)式多階段訓(xùn)練,而且速度很慢。為了克服RCNN的缺點(diǎn),F(xiàn)ast-RCNN提出了一些修改(Girshick,2015)。首先,不是提取selective search后的圖像區(qū)域的特征,而是使用CNN直接提取整個(gè)圖像的特征。然后使用一個(gè)ROI pooling層來得到和圖像proposal區(qū)域?qū)?yīng)的特征。其次,將SVM分類器和回歸器分別替換為全連接層。Faster-RCNN提出了進(jìn)一步的改進(jìn),以擺脫對速度較慢的Region proposal選擇性搜索算法。由主干CNN提取的特征被發(fā)送到一個(gè)額外的基于CNN的region proposal網(wǎng)絡(luò)(RPN),該網(wǎng)絡(luò)提供region proposal(Renetal.,2015)。然而,盡管精度很高,但上述兩階段檢測方法并不適合實(shí)時(shí)應(yīng)用。一種名為ThunderNet(Qinetal.,2019)的輕量級兩階段檢測器,該檢測器具有高效的RPN和用于實(shí)時(shí)檢測的小型骨干網(wǎng)絡(luò)。

one-stage

單階段目標(biāo)檢測器由單個(gè)端到端前饋網(wǎng)絡(luò)組成,整體執(zhí)行分類和回歸。這些檢測器沒有單獨(dú)的proposal生成階段,而是將圖像上的所有位置視為潛在proposal。這些proposal中的每一個(gè)都用于預(yù)測類的概率、邊界框位置和置信度分?jǐn)?shù)。置信度分?jǐn)?shù)決定了網(wǎng)絡(luò)對其類別預(yù)測的確定程度。

單階段檢測器中的主要兩類是anchor-based和anchor-free的檢測器。anchor-based的檢測器使用預(yù)定的anchor框(或先驗(yàn))來輔助預(yù)測。這種方法的突出例子是You Only Look Once(YOLO;Redmonetal.(2016);Redmon&Farhadi(2017;2018))和Single Shot Detector (SSD;Liuetal.(2016))。YOLO的工作原理是將輸入圖像抽象為單元格網(wǎng),其中每個(gè)單元格負(fù)責(zé)預(yù)測邊界框(如果框的中心落在單元格內(nèi))。每個(gè)網(wǎng)格單元預(yù)測多個(gè)邊界框并輸出位置和類別標(biāo)簽以及它的置信度。SSD是第一個(gè)在保持實(shí)時(shí)速度的同時(shí)與當(dāng)代兩階段檢測器精度相匹配的單階段檢測器。SSD在FPN上的特征圖上的每個(gè)位置,預(yù)測一組固定的但不同尺度anchor的目標(biāo)置信度和目標(biāo)框偏移量。FPN主要用于生成多分辨率特征(Linetal.,2017a)。

Anchor-based的檢測器需要處理高度依賴數(shù)據(jù)集的anchor數(shù)量、縱橫比和大小等超參數(shù),這個(gè)缺點(diǎn)無法避免。這導(dǎo)致引入了anchor-free(又名基于關(guān)鍵點(diǎn))目標(biāo)檢測器這種新范式。anchor-free的方法將目標(biāo)視為點(diǎn),而不是將它們建模為邊界框。預(yù)測關(guān)鍵點(diǎn),例如目標(biāo)的角或中心,并且寬度和高度是從這些點(diǎn)而不是預(yù)定的anchor來回歸。引入了幾個(gè)基于關(guān)鍵點(diǎn)的網(wǎng)絡(luò),即CornerNet、CenterNet、FCOS、NanoDet和TTFNet(Law&Deng,2018;Zhou等人,2019a;Tian等人,2019;Lyu,2020;Liu等人,2020)。盡管anchor-based和anchor-free的檢測器在通用目標(biāo)檢測中都取得了顯著的精度,但它在很大程度上被缺乏全局上下文信息的基于CNN的架構(gòu)所主導(dǎo)。此外,現(xiàn)代檢測器通常對大量proposal、anchors或窗口中心執(zhí)行回歸和分類。因此,它們的性能受到復(fù)雜的后處理任務(wù)(例如NMS)的影響。

Vision transformers已被引入作為CNN的替代架構(gòu)范式。基于Transformer的檢測器,例如DETR(Carionetal.,2020),利用自注意力模塊顯式地對給定序列中元素之間的所有交互進(jìn)行建模,從而提供全局上下文信息。Transformer的整體設(shè)計(jì)還通過對給定輸入進(jìn)行直接預(yù)測,繞過了NMS等手工操作過程。

目標(biāo)檢測配方

基礎(chǔ)概念

目標(biāo)檢測問題可以形式化為:給定任意圖像和預(yù)定義的目標(biāo)類別列表,目標(biāo)檢測模型不僅對圖像中存在的目標(biāo)實(shí)例類型進(jìn)行分類{c1,c2,...,cm},還返回邊界框形式的每個(gè)目標(biāo)的位置{b1,b2,...,bm},其中bi={(x1,y1),(x2,y2)}是邊界框的左上角和右下角坐標(biāo)。目標(biāo)檢測器,包括單階段和兩階段,通常由特征提取器(以下簡稱主干)和檢測頭組成。主干通常是基于CNN的網(wǎng)絡(luò),它提取場景中最突出的表示(從低級到高級特征)。大多數(shù)主干使用池化/卷積層來逐步減小特征圖的大小并增加網(wǎng)絡(luò)的感受野。然后將輸出特征圖傳遞給檢測頭,該檢測頭執(zhí)行分類和回歸以確定目標(biāo)實(shí)例的標(biāo)簽和位置(下圖顯示了通用目標(biāo)檢測的組成)。

f0694a02-3481-11ed-ba43-dac502259ad0.png

損失函數(shù)

作者簡要概述了用于訓(xùn)練目標(biāo)檢測器的損失函數(shù)。兩個(gè)目標(biāo)函數(shù)通常用于訓(xùn)練基于CNN的檢測器,即分類和回歸損失。分類損失通常由交叉熵(CE)損失定義,如下:

f0737cac-3481-11ed-ba43-dac502259ad0.png

其中ti是ground-truth標(biāo)簽,pi是第i類的softmax概率。然而,CE損失并沒有考慮不平衡的數(shù)據(jù)集,與頻繁出現(xiàn)的目標(biāo)相比,不太頻繁的目標(biāo)更難學(xué)習(xí)。因此,研究人員(2017b)提出了FocalLoss(FL),它通過對困難樣本分配更多的權(quán)重,同時(shí)降低容易學(xué)習(xí)樣本的損失貢獻(xiàn)來解決類別平衡問題:

f0806228-3481-11ed-ba43-dac502259ad0.png

其中αi是加權(quán)參數(shù),γ≥0是可調(diào)制參數(shù)。回歸損失通常是在ground-truth和預(yù)測邊界框之間的所有四個(gè)邊界框坐標(biāo)上的L1(最小絕對偏差)或L2(最小二乘誤差)損失。

Anchor-based 和 Keypoint-based

f08c6eec-3481-11ed-ba43-dac502259ad0.png

anchor-based的目標(biāo)檢測技術(shù)使用anchor框的概念(在文獻(xiàn)中也可稱為先驗(yàn)框)。在這種方法中,圖像被劃分為網(wǎng)格,其中每個(gè)網(wǎng)格單元可以分配給多個(gè)預(yù)定義的anchor框(上圖b)。這些框被定義為捕獲特定目標(biāo)類的比例和縱橫比,通常根據(jù)訓(xùn)練數(shù)據(jù)集中的目標(biāo)大小進(jìn)行選擇。計(jì)算anchors和ground-truth邊界框之間的交集(IoU),具有最高重疊的anchor用于預(yù)測該目標(biāo)的位置和類別。當(dāng)anchor與ground-truth box的重疊較高且超過一個(gè)給定的閾值時(shí),它被認(rèn)為是一個(gè)正anchor。該網(wǎng)絡(luò)不是直接預(yù)測邊界框,而是預(yù)測平鋪的anchor框的偏移量,并為每個(gè)框返回一組唯一的預(yù)測。anchor框的使用有助于檢測多個(gè)、不同尺度的目標(biāo)和重疊的目標(biāo)。然而,anchor-based的方法有兩個(gè)主要缺點(diǎn)。首先,需要大量的anchor框來確保與真實(shí)框有足夠的重疊,而在實(shí)踐中,只有一小部分與真實(shí)框重疊。這在正負(fù)anchor之間造成了巨大的不平衡,從而增加了訓(xùn)練時(shí)間。其次,anchor框的大小、形狀和縱橫比高度依賴于數(shù)據(jù)集,因此需要對每個(gè)數(shù)據(jù)集進(jìn)行微調(diào)。然而,這些anchor是使用數(shù)據(jù)集的ground-truth框得出的,這在多尺度架構(gòu)中變得更加復(fù)雜,其中每個(gè)尺度使用不同的特征和自己的一組anchor。為了緩解上述問題,提出了不使用anchor的anchor-free的目標(biāo)檢測技術(shù)(Law&Deng,2018;Zhouetal.,2019a;Tianetal.,2019)。檢測問題被重新表述為逐像素預(yù)測,類似于分割。CNN的特征用于創(chuàng)建熱力圖,其中強(qiáng)度峰值代表關(guān)鍵點(diǎn),例如相關(guān)目標(biāo)的角點(diǎn)或中心點(diǎn)。除了這些,還有一些額外的分支可以預(yù)測外接框的尺寸(寬度和高度)。熱力圖預(yù)測與嵌入一起用于估計(jì)預(yù)測框的正確位置和大小。對于中心關(guān)鍵點(diǎn),預(yù)測從中心到目標(biāo)邊界框四個(gè)邊的距離以進(jìn)行目標(biāo)檢測(上圖c)。

NMS

目標(biāo)檢測器產(chǎn)生了太多的proposal,其中許多是多余的。為了去除密集的重復(fù)預(yù)測結(jié)果,檢測器通常使用稱為NMS的后處理步驟。NMS模塊首先根據(jù)每個(gè)實(shí)例的置信度分?jǐn)?shù)對預(yù)測的proposal進(jìn)行排序,并選擇具有最高置信度的proposal。隨后,計(jì)算其它proposal分別于最高置信度的proposal執(zhí)行IoU,公式如下:

f0a04f5c-3481-11ed-ba43-dac502259ad0.png

其中,bm是具有最高置信度的proposal,bi表示為真值生成的其它proposal。如果此值大于設(shè)置的NMS閾值(通常為0.5),則刪除重復(fù)項(xiàng)。然而,與NMS相關(guān)的問題之一是,當(dāng)proposals(針對不同實(shí)例)彼此接近或在某些情況下重疊時(shí),有效的proposal會被抑制。對于擁擠場景尤其如此。因此,研究人員提出了Soft-NMS來改進(jìn)NMS約束。在Soft-NMS中,與bm 重疊稍小的檢測proposal(對于其他實(shí)例)的置信度分?jǐn)?shù)衰減,同時(shí)確保與bm重疊較高的proposal置信度分?jǐn)?shù)衰減更多,從而可以去除重復(fù)項(xiàng),又不至于完全抑制掉。這是通過計(jì)算(一個(gè)proposal bi)置信度得分和IoU與bm的負(fù)值的乘積來完成的:

f0af3738-3481-11ed-ba43-dac502259ad0.png

anchor-free的檢測器不使用這種基于IoU的NMS,因?yàn)樗鼈兲幚淼氖菬崃D上的點(diǎn)而不是重疊框。這些網(wǎng)絡(luò)中的NMS是一個(gè)簡單的基于峰值的maxpool操作,計(jì)算成本低。

目標(biāo)檢測中的挑戰(zhàn)

目標(biāo)檢測作為計(jì)算機(jī)視覺問題本身就具有挑戰(zhàn)性,因?yàn)槔硐氲臋z測器必須以合理的能耗和計(jì)算成本提供高精度和高性能。稍后作者討論了幾種主干和檢測頭組合的優(yōu)缺點(diǎn),以展示精度和速度之間的權(quán)衡。檢測精度和推理速度還取決于圖像大小和目標(biāo)大小。雖然通過從場景中提取更多信息,更高的圖像分辨率會產(chǎn)生更好的準(zhǔn)確性,但它也會降低推理速度。因此,選擇在精度和速度之間提供適當(dāng)平衡的圖像尺寸至關(guān)重要。此外,目標(biāo)大小在檢測精度中起著重要作用。雖然檢測器可以在大中型目標(biāo)上實(shí)現(xiàn)高精度,但幾乎所有檢測器都難以檢測場景中的較小目標(biāo)(Liuetal.,2021)。作者研究了目標(biāo)大小和圖像大小對檢測精度和速度的影響。為了提供高精度,檢測器需要具有魯棒性,并對具有顯著類內(nèi)變化(例如,變化目標(biāo)的大小、形狀和類型)、姿勢和非剛性變形。對于使用anchor-based的檢測器,anchor的優(yōu)化是一個(gè)挑戰(zhàn),因?yàn)樗鼈円蕾囉跀?shù)據(jù)集。后面作者展示了不同的anchor大小如何影響檢測精度。另一個(gè)主要挑戰(zhàn)是在不同的天氣(雨、雪、暴風(fēng)雪)和光照條件下保持一致的性能。對于自動駕駛等應(yīng)用,檢測器還必須考慮雜亂的背景、擁擠的場景和相機(jī)效果。作者在后面提供了關(guān)于檢測器魯棒性的詳細(xì)研究。最后,深度神經(jīng)網(wǎng)絡(luò)傾向于依賴訓(xùn)練數(shù)據(jù)的監(jiān)督進(jìn)行快捷學(xué)習(xí),因此過度擬合訓(xùn)練數(shù)據(jù)分布(分布內(nèi)),而不是泛化到分布外(OOD)數(shù)據(jù)。真實(shí)場景的沒見過的數(shù)據(jù)才是至關(guān)重要的,作者在后面提供了對分布內(nèi)數(shù)據(jù)和分布外數(shù)據(jù)的詳細(xì)分析。

目標(biāo)檢測中的Head

由于作者的研究范圍是實(shí)時(shí)目標(biāo)檢測,作者專注于一個(gè)兩階段檢測器:ThunderNet(Qinetal.,2019),兩個(gè)anchor-based的檢測器:SSD(Liuetal.,2016),YOLO(Redmon&Farhadi,2017),四個(gè)(anchor-free)基于關(guān)鍵點(diǎn)的檢測器:CenterNet(Zhou等人,2019a)、FCOS(Tian等人,2019)、NanoDet(Lyu,2020)和TTFNet(Liu等人,2020),和一個(gè)基于Transformer的檢測器:DETR(Carionetal.,2020)

ThunderNet

f0be1c58-3481-11ed-ba43-dac502259ad0.png

ThunderNet重新審視了兩階段檢測器架構(gòu)并改進(jìn)了Lighthead-RCNN(Lietal.,2017),并使用ShuffleNet-v2(Maetal.,2018)的變體作為主干。檢測頭在網(wǎng)絡(luò)的早期階段增加了通道數(shù),以編碼低級特征,這樣提升了精度。ThunderNet使用了兩個(gè)新模塊:上下文增強(qiáng)模塊(CEM)和空間注意力模塊(SAM)。CEM聚合來自三個(gè)不同尺度的特征,通過利用局部和全局特征擴(kuò)大感受野。SAM通過加強(qiáng)前景特征同時(shí)抑制背景特征來細(xì)化特征(上圖所示)。SAM模塊的輸出為:

f0d27df6-3481-11ed-ba43-dac502259ad0.png

其中FSAM、FCEM和FRPN分別表示SAM、CEM和RPN模塊的輸出特征。σ(.)是sigmoid函數(shù)和T(.)表示維度變換函數(shù),以匹配來自FCEM和FRPN的輸出通道數(shù)。

f0dbe792-3481-11ed-ba43-dac502259ad0.png

其中Lcls是兩個(gè)類(目標(biāo)或非目標(biāo)).bi和bg分別表示第i個(gè)anchor的預(yù)測框和對應(yīng)ground-truth目標(biāo)框。與任何高于給定閾值的ground-truth重疊的anchor被認(rèn)為是正樣本(ti=1),其余的anchor被認(rèn)為是負(fù)的(ti=0)。因此,乘法項(xiàng)確保回歸損失僅對正anchor激活。Na和Nb表示anchor位置的數(shù)量和batch大小,λ是平衡權(quán)重。與FastR-CNN類似,執(zhí)行ROI pooling并將這些區(qū)域發(fā)送到兩個(gè)分支進(jìn)行分類和回歸,目標(biāo)函數(shù)如下:

f0e88812-3481-11ed-ba43-dac502259ad0.png

其中Lcls是真實(shí)類u的對數(shù)損失,λ是平衡權(quán)重。Lreg計(jì)算類u的ground-truth目標(biāo)框和預(yù)測框的回歸損失。[u≥1]是逆向指標(biāo)函數(shù),當(dāng)u≥1(u=0是背景類)。

YOLO

f0f3de38-3481-11ed-ba43-dac502259ad0.png

YOLO(Redmonetal.,2016)是一個(gè)針對實(shí)時(shí)任務(wù)的單階段目標(biāo)檢測網(wǎng)絡(luò)。YOLO將圖像劃分為網(wǎng)格單元,每個(gè)單元預(yù)測一個(gè)由邊界框和置信度分?jǐn)?shù)。如果一個(gè)目標(biāo)的中心位于某個(gè)特定的網(wǎng)格單元中,則稱該目標(biāo)屬于該網(wǎng)格單元。YOLO快速簡單,但召回率低。Redmon&Farhadi(2017)提出了YOLOv2來提高YOLO的精度和速度。YOLOv2不是對邊界框進(jìn)行任意預(yù)測,而是在每個(gè)網(wǎng)格中使用不同大小和縱橫比的anchor來覆蓋整個(gè)圖像的不同位置和不同尺度。通過在特定數(shù)據(jù)集上使用基于IoU的k-Means聚類計(jì)算anchor大小,可以使anchor變得更準(zhǔn)確。網(wǎng)絡(luò)預(yù)測是每個(gè)anchor框的偏移量。YOLOv2在合并不同尺度的特征圖獲得的單個(gè)特征圖上進(jìn)行邊界框預(yù)測(如上圖)。

其它YOLO都是建立在YOLOv2基本概念之上,但有許多技巧和竅門來實(shí)現(xiàn)更高的性能。由于作者試圖在簡單的框架上進(jìn)行評估,因此在本研究中,作者僅考慮YOLOv2版本,因?yàn)樗唵巍⒖焖偾揖哂凶钌俚募记伞p失函數(shù)由分類損失、定位損失、和置信度損失(判斷bbox是目標(biāo)還是背景):

f101cb06-3481-11ed-ba43-dac502259ad0.png

其中Lcls是Focal Loss,Lreg和Lconf都是L2 loss。Lconf是衡量bbox是否為目標(biāo)的置信度損失(例如,如果一個(gè)框其實(shí)是背景,則其目標(biāo)的置信度將降低),λ和λ'是平衡權(quán)重。

SSD

f10fd73c-3481-11ed-ba43-dac502259ad0.png

SSD(Liuetal.,2016)有一個(gè)前饋CNN,它為場景中的多個(gè)目標(biāo)實(shí)例生成邊界框、置信度分?jǐn)?shù)和分類標(biāo)簽。SSD使用多個(gè)特征圖從逐漸降低的分辨率模擬不同大小的輸入圖像,同時(shí)跨尺度共享計(jì)算。淺層的特征圖用于學(xué)習(xí)較小目標(biāo)的低級特征,而較深層的特征用于定位場景中較大的目標(biāo)。檢測頭為每個(gè)尺度的特征圖采用單獨(dú)的預(yù)定義anchor,最后結(jié)合所有預(yù)設(shè)anchor在不同尺度和縱橫比下的預(yù)測結(jié)果。每個(gè)特征圖的anchor的尺度和大小定義為:

f11eebdc-3481-11ed-ba43-dac502259ad0.png

其中k∈[1,m],smin和smax的默認(rèn)值分別為0.2和0.9。SSD中用了m=6個(gè)特征圖。SSD產(chǎn)生一組不同預(yù)測結(jié)果,涵蓋各種形狀和大小的目標(biāo)。SSD使用匹配策略來確定哪些anchor對應(yīng)于ground-truth,而與ground-truth最高重疊的那個(gè)anchor用于預(yù)測該目標(biāo)的位置和類別。目標(biāo)函數(shù)源自多目標(biāo)(Heetal.,2015),并擴(kuò)展到多個(gè)類別。總體目標(biāo)函數(shù)是

f1373458-3481-11ed-ba43-dac502259ad0.png

其中Lcls是交叉熵?fù)p失,Lreg是所有與ground-truth匹配的正樣本框的SmoothL1損失之和。N是正樣本的數(shù)量,λ是平衡權(quán)重。

CenterNet

f14812be-3481-11ed-ba43-dac502259ad0.png

anchor-based的檢測器必須處理與數(shù)據(jù)集高度相關(guān)的超參數(shù),例如anchor的數(shù)量、縱橫比和大小。CornerNet被提出作為anchor-based的方法的第一個(gè)替代方法,該方法將目標(biāo)檢測問題簡化為關(guān)鍵點(diǎn)估計(jì)問題(Law&Deng,2018)。在(Lawetal.,2019;Zhouetal.,2019b)提出的多種方法中;a),作者使用CenterNet(Zhouetal.,2019a),因?yàn)樗粌H比CornerNet獲得更高的精度,而且還簡化了關(guān)鍵點(diǎn)估計(jì)。檢測算法通過三個(gè)轉(zhuǎn)置卷積層來增強(qiáng)主干,以產(chǎn)生高分辨率輸出。第一個(gè)分支輸出一個(gè)熱力圖來估計(jì)目標(biāo)的關(guān)鍵點(diǎn)或中心點(diǎn),熱力圖的數(shù)量等于目標(biāo)類別的數(shù)量。Ground-truth 熱力圖是通過在ground-truth box的中心使用高斯核來創(chuàng)建的。峰值用于估計(jì)實(shí)例目標(biāo)的中心并確定實(shí)例目標(biāo)的類別。還有兩個(gè)生成熱力圖的分支:embedding分支回歸目標(biāo)框的尺寸,即寬度和高度,offsets分支解釋了將中心坐標(biāo)映射到原始輸入維度引起的離散化誤差。總體目標(biāo)函數(shù)給出為:

f15f7cf6-3481-11ed-ba43-dac502259ad0.png

其中Lcls是使用FocalLoss減少像素級邏輯回歸的懲罰(Linetal.,2017b),Loff是L1損失,以最小化中心坐標(biāo),最后Lembis也是一個(gè)L1損失,以最大限度地減少計(jì)算預(yù)測框的寬度和高度時(shí)的錯(cuò)誤,λ和λ'是平衡權(quán)重。

FCOS

f16d2874-3481-11ed-ba43-dac502259ad0.png

FCOS是一種全卷積的anchor-free檢測器,將目標(biāo)檢測重新表述為類似于語義分割的逐像素預(yù)測問題(Tian等人,2019年)。檢測器使用FPN的多級預(yù)測(Linetal.,2017a)來提高召回率并解決重疊邊界框歧義。以不同的尺度獲得五個(gè)特征圖,并在每個(gè)層上執(zhí)行逐像素回歸。這會增加召回率,但會在遠(yuǎn)離目標(biāo)中心的位置產(chǎn)生低質(zhì)量的預(yù)測。為了避免這種情況,并行添加了一個(gè)額外的分支,以預(yù)測位置的中心位置。整體損失函數(shù)為:

f1802f8c-3481-11ed-ba43-dac502259ad0.png

其中Lcls是FocalLoss,Lreg是IoU回歸損失,Lcent是使用二元交叉熵(BCE)loss的中心損失。N是正樣本的數(shù)量,λ是平衡權(quán)重。IoU回歸基于UnitBox(Yuetal.,2016),是輸入為IoU值的交叉熵?fù)p失的一種形式。與獨(dú)立優(yōu)化坐標(biāo)值的L2 loss不同,IoU loss將其視為一個(gè)單元。最終的目標(biāo)分?jǐn)?shù)是由centerness得分加權(quán)得到。因此,這個(gè)分支會降低距離目標(biāo)中心較遠(yuǎn)的預(yù)測框的分?jǐn)?shù),這有助于最終的NMS過濾掉低質(zhì)量的預(yù)測結(jié)果。

NanoDet

f18d483e-3481-11ed-ba43-dac502259ad0.png

受FCOS的啟發(fā),NanoDet作為一種輕量級的anchor-free檢測器被提出(Lyu,2020)。NanoDet使用ATSS模塊(Zhangetal.,2020),該模塊根據(jù)目標(biāo)特征自動選擇正負(fù)訓(xùn)練樣本。檢測器使用Generalized Focal Loss(GFL)(Lietal.,2020)進(jìn)行分類和回歸。GFL旨在將FocalLoss從離散域擴(kuò)展到連續(xù)域,以實(shí)現(xiàn)更好的優(yōu)化。這是 Quality FocalLoss(QFL)和Distributed FocalLoss(DFL)的組合。QFL將分類置信度和IoU質(zhì)量相結(jié)合,最終輸出一個(gè)分?jǐn)?shù),DFL將預(yù)測框視為連續(xù)分布并對其進(jìn)行優(yōu)化。Generalized IoU loss(GIoU)對于非重疊情況很有用,因?yàn)樗ㄟ^緩慢地向目標(biāo)框移動來增加預(yù)測框的大小以與目標(biāo)框重疊。用于訓(xùn)練NanoDetis的整體損失函數(shù)為:

f1992794-3481-11ed-ba43-dac502259ad0.png

其中LQFL和LDFL是QFL和DFL,LGIoU是GIoU損失。Npos是正樣本的數(shù)量,λ和λ′是平衡權(quán)重。z表示金字塔特征圖上的所有位置。FCOS使用五個(gè)特征圖傳遞給多級FPN,而NanoDet使用三個(gè)特征圖傳遞給三個(gè)單獨(dú)的路徑聚合網(wǎng)絡(luò)(PAN)(Liuetal.,2018b)塊。PAN類似于FPN,但通過添加自下而上的路徑來增強(qiáng)較低級別特征。PAN塊的輸出連接到單獨(dú)的檢測頭,這些檢測頭計(jì)算特定特征圖的分類標(biāo)簽和邊界框。NanoDet還刪除了FCOS中的centerness分支,因此使其成為更快的變體。三個(gè)頭的輸出最終傳遞給NMS以實(shí)現(xiàn)輸入圖像的最終目標(biāo)框和分類標(biāo)簽的預(yù)測。

DETR

f1aa96e6-3481-11ed-ba43-dac502259ad0.png

Transformer是計(jì)算機(jī)視覺中一種新的設(shè)計(jì)范式,它依賴于注意力機(jī)制,并首次被DETR引入目標(biāo)檢測中(Carion等人,2020年)。DETR將目標(biāo)檢測任務(wù)轉(zhuǎn)換為集合預(yù)測問題,消除了重復(fù)的邊界框預(yù)測。Transformers通過使用自注意力模塊基于整個(gè)圖像上下文捕獲目標(biāo)之間的成對關(guān)系,從而避免重復(fù)預(yù)測。與使用NMS等后處理步驟來消除重復(fù)預(yù)測的傳統(tǒng)目標(biāo)檢測器相比,有減少計(jì)算成本的優(yōu)勢。DETR由編碼器-解碼器轉(zhuǎn)換器和進(jìn)行最終預(yù)測的前饋網(wǎng)絡(luò)(FFN)組成(上圖)。編碼器由一個(gè)多頭自注意力(MHSA)模塊(Vaswanietal.,2017)和一個(gè)FFN組成。這些塊是排列不變的,因此,固定位置編碼被添加到每個(gè)注意力層的輸入中。解碼器使用編碼器特征并使用多個(gè)MHSA模塊將目標(biāo)查詢轉(zhuǎn)換為輸出嵌入。N個(gè)輸出嵌入被兩個(gè)不同的FFN層使用,一個(gè)用于預(yù)測類標(biāo)簽,另一個(gè)用于預(yù)測框坐標(biāo)。DETR使用唯一的二分匹配為每個(gè)給定的ground-truth找到最佳預(yù)測框。使用匈牙利優(yōu)化算法有效地計(jì)算每N個(gè)查詢到每N個(gè)ground-truth的一對一映射。在獲得該集合的所有匹配對后,使用標(biāo)準(zhǔn)交叉熵?fù)p失進(jìn)行分類,并使用L1和GIoU損失的線性組合進(jìn)行回歸。在每個(gè)解碼器層之后添加輔助損失,以幫助模型在每個(gè)類中輸出正確數(shù)量的目標(biāo)。給定λ和λ′是平衡權(quán)重,總損失如下:

f1c70178-3481-11ed-ba43-dac502259ad0.png

TTFNet

f1d9af12-3481-11ed-ba43-dac502259ad0.png

受CenterNet(Zhouetal.,2019a)的啟發(fā),TTFNet使用相同的策略,其中檢測被視為中心定位和邊界框尺寸回歸的兩部分問題(Liuetal.,2020)。對于中心定位,TTFNet采用高斯核在目標(biāo)中心附近產(chǎn)生激活較高的熱力圖,類似于CenterNet,但另外還考慮了邊界框的縱橫比。對于尺寸回歸,TTFNet提出將高斯區(qū)域中的所有像素作為訓(xùn)練樣本,而不是只選擇中心像素作為訓(xùn)練樣本。此外,這些樣本通過目標(biāo)大小和高斯概率計(jì)算的權(quán)重進(jìn)行加權(quán),從而利用更多信息。這樣做的原因是更多的訓(xùn)練樣本類似于增加批量大小,這有助于擴(kuò)大學(xué)習(xí)率并加快訓(xùn)練過程。TTFNet通過圍繞目標(biāo)中心構(gòu)建一個(gè)子區(qū)域并僅從中提取訓(xùn)練樣本來修改高斯核區(qū)域(詳見上圖)。使用高斯概率作為權(quán)重,以重點(diǎn)關(guān)注靠近目標(biāo)中心的樣本,從而減輕重疊歧義。由于目標(biāo)尺寸的巨大差異,較大的目標(biāo)比較小的目標(biāo)產(chǎn)生更多的樣本,因此較小目標(biāo)的損失貢獻(xiàn)可以忽略不計(jì),這會影響檢測精度。因此,引入了一種損失平衡策略,該策略充分利用大目標(biāo)中的更多注釋信息,同時(shí)保留較小目標(biāo)的信息。

f1e79690-3481-11ed-ba43-dac502259ad0.png

其中,真值bm,采用高斯核,將子區(qū)域內(nèi)的每個(gè)像素Am視為回歸樣本。^bij是預(yù)測框,Wij是平衡權(quán)重,Ni是回歸樣本數(shù)。因此,整體損失如下:

f1fa1aa4-3481-11ed-ba43-dac502259ad0.png

其中λ=1.0和λ′=5.0是分類和回歸平衡權(quán)重,Lcls是Kong等人提出的FocalLoss的修改版本。(2019)

Backbones

在這項(xiàng)研究中,作者根據(jù)速度、能耗和內(nèi)存效率等因素選擇了九個(gè)特征提取器作為主干,專門針對實(shí)時(shí)應(yīng)用。在下文中,作者按時(shí)間順序介紹了主干網(wǎng)絡(luò)。

ResNet:Heetal。(2016)將網(wǎng)絡(luò)層重新定義為具有殘差跳躍連接的學(xué)習(xí)殘差函數(shù)。具有跳躍連接的網(wǎng)絡(luò)更容易優(yōu)化,并且可以在增加深度的情況下獲得相當(dāng)大的精度。ResNet-18是深度殘差網(wǎng)絡(luò)的輕量級變體,由四個(gè)殘差塊組成,每個(gè)殘差塊有兩個(gè)卷積,然后是BN層。

DarkNet:Redmon&Farhadi(2017)提出了一種計(jì)算輕量級的特征提取器DarkNet作為他們提出的實(shí)時(shí)目標(biāo)檢測算法YOLO的一部分。Darknet通過減少參數(shù)量對VGG-16進(jìn)行了改進(jìn)。出于實(shí)時(shí)檢測的目的,本研究僅考慮了DarkNet-19。

Xception:Chollet(2017)提出的Xception作為對 Inception-V3的改進(jìn),完全基于深度可分離卷積(DWS;Kaiser等人(2017年))。所提出的架構(gòu)是一個(gè)由36個(gè)深度可分離卷積層組成的線性堆疊,結(jié)構(gòu)為14個(gè)模塊,除了第一個(gè)和最后一個(gè)之外,所有模塊都有殘差連接。

MobileNet:Sandler等人(2018年)將MobileNet-v2設(shè)計(jì)為輕量級骨干網(wǎng),專門用于嵌入式設(shè)備上的實(shí)時(shí)目標(biāo)檢測。該架構(gòu)使用具有線性瓶頸和深度可分離卷積的反向殘差塊。它被稱為倒置,因?yàn)樵诰W(wǎng)絡(luò)的狹窄部分之間存在跳躍連接,導(dǎo)致參數(shù)數(shù)量較少。此外,該網(wǎng)絡(luò)包含跳過連接,以實(shí)現(xiàn)輸入和輸出瓶頸之間的特征可重用性。

ShuffleNet-v2:Ma等人(2018)設(shè)計(jì)了ShuffleNet-v2,通過降低內(nèi)存訪問成本來優(yōu)化推理延遲。該架構(gòu)的構(gòu)建塊由通道拆分操作組成,該操作將輸入分成兩部分,每一個(gè)都前饋到一個(gè)殘差塊。引入了通道混洗操作以實(shí)現(xiàn)兩個(gè)拆分之間的信息傳輸以提高準(zhǔn)確性。每個(gè)構(gòu)建塊的高效率使得可以使用更多的特征通道和更大容量的網(wǎng)絡(luò)。

VoVNet:Leeetal(2019)提出VoVNet作為能耗低的實(shí)時(shí)檢測的主干網(wǎng)絡(luò)。它是使用One-Shot Aggregation(OSA)模塊構(gòu)建的,該模塊僅在最后一個(gè)特征圖中將所有中間特征連接一次。OSA塊中的卷積層具有相同的輸入/輸出通道,從而最大限度地減少了MAC計(jì)數(shù),從而提高了GPU計(jì)算效率。本研究中使用了速度更快、更節(jié)能的變體VoVNet-39。

EfficientNet:Tan&Le(2019)設(shè)計(jì)了EfficientNet,一種特征提取器,使用針對精度和MAC計(jì)數(shù)進(jìn)行優(yōu)化的自動多目標(biāo)結(jié)構(gòu)搜索算法。所提出的架構(gòu)通過重新調(diào)整和平衡網(wǎng)絡(luò)深度、寬度和分辨率來實(shí)現(xiàn)高精度。該架構(gòu)的構(gòu)建塊使用Mobile Inverted Bottleneck Convolutions(MBConv),還包括Squeeze 和 Excitation(SE)模塊(Huetal.,2018)。在提出的幾個(gè)版本中,作者使用了EfficientNet-B0,該架構(gòu)中最輕量級的版本。

HarDNet:Chaoetal(2019)提出諧波密集連接網(wǎng)絡(luò)(HarDNet)以在MAC計(jì)數(shù)和內(nèi)存訪問方面實(shí)現(xiàn)高效率。在減少DRAM(動態(tài)隨機(jī)存取存儲器)方面,HarDNet在所有其他主干中脫穎而出。稀疏化方案提出了層之間的連接模式,使其類似于二次諧波的冪(因此得名)的重疊。所提出的連接模式形成了一組稱為諧波密集塊(HDB)的層,而不是考慮所有層,HDB中的梯度只有“l(fā)ogL”層。HDB的輸出是L層以及之前所有奇數(shù)層的concat,一旦HDB完成,偶數(shù)層的輸出將被丟棄。此外,使用stride-8代替stride-16(在許多CNN網(wǎng)絡(luò)中采用)來增強(qiáng)局部特征提取。除了減少特征圖的訪問外,它還提供了其他優(yōu)勢,例如低延遲、更高的精度和更快的速度。在提出的幾個(gè)版本中,HarDNet-68用于本研究。

DeiT:Touvronetal(2021)修改了視覺Transformer以用作密集預(yù)測任務(wù)的特征提取器。所提出的架構(gòu),數(shù)據(jù)高效的圖像Transformer(DeiT),由重復(fù)的自注意力模塊、前饋層和一個(gè)額外的蒸餾模塊組成。為了提取有意義的圖像表示,將來自最終Transformer塊的學(xué)習(xí)嵌入發(fā)送到一個(gè)額外的模塊,以在將其發(fā)送到檢測頭之前獲得不同尺度的特征。該架構(gòu)的最小版本,即DeiT-T(其中T代表tiny)用于本研究。

驗(yàn)證評價(jià)

數(shù)據(jù)集

PASCAL VOC,以下稱為VOC(Everingham等人,2010),由20個(gè)目標(biāo)類別組成,分為兩個(gè)數(shù)據(jù)集,即VOC 2007和VOC 2012,共有21,493張圖像,包含52,090個(gè)標(biāo)注。

COCO(Linetal.,2014)是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集,由80個(gè)目標(biāo)類別組成。作者使用包含118,287個(gè)圖像(860,001個(gè)標(biāo)記實(shí)例)的數(shù)據(jù)集的2017年拆分進(jìn)行訓(xùn)練。

BDD(Yu等人,2018年)是最大和最具挑戰(zhàn)性的自動駕駛數(shù)據(jù)集之一。它包含各種駕駛場景,包括城市、高速公路和農(nóng)村地區(qū),以及代表現(xiàn)實(shí)駕駛挑戰(zhàn)的各種天氣和晝/夜駕駛條件。訓(xùn)練集包含約128萬個(gè)標(biāo)記實(shí)例的69,863張圖像,測試集包含10個(gè)目標(biāo)類別的10,000張圖像和185,526個(gè)標(biāo)注實(shí)例。

Cityscapes(Cordtsetal.,2016)是一個(gè)記錄完整的數(shù)據(jù)集,用于城市場景。作者從實(shí)例分割中提取邊界框,然后將標(biāo)記的注釋分組為10個(gè)超類別以匹配BDD的類別。對于OOD評估,作者使用了500張圖像和15949個(gè)邊界框的測試集。

COCO有損,為了測試模型的穩(wěn)健性,作者創(chuàng)建了一個(gè)數(shù)據(jù)集,通過添加損壞到原始COCO數(shù)據(jù)集來模擬在現(xiàn)實(shí)世界場景中發(fā)現(xiàn)的不同外部影響(Michaelis等人,2019)。有15種不同的損壞,作者將它們分為四組:噪聲、模糊、天氣和數(shù)字化影響。噪聲包括高斯噪聲、脈沖噪聲和散粒噪聲。模糊包括散焦、透明度、運(yùn)動和變焦模糊效果。作者使用亮度、霧、霜和雪來模擬不同的天氣條件。最后,作者通過添加對比度、彈性變換、JPEG壓縮和像素化的變化來解釋數(shù)字化影響。這15種損壞適用于5種不同的嚴(yán)重程度。嚴(yán)重性級別范圍從1(不太嚴(yán)重的損壞)到5(最嚴(yán)重的損壞)。

Kvasir-SEG(Jha等人,2020)是用于定位胃腸道息肉的生物醫(yī)學(xué)數(shù)據(jù)集。該數(shù)據(jù)集由1000張圖像組成,每張圖像中都存在息肉的分割掩碼。該數(shù)據(jù)集還具有從分割掩碼獲得的邊界框。這里,數(shù)據(jù)集分為800張圖像用于訓(xùn)練和200張圖像用于測試。

評價(jià)指標(biāo)

目標(biāo)檢測器根據(jù)邊界框和類別標(biāo)簽進(jìn)行預(yù)測。在這里,作者首先通過計(jì)算IoU來測量預(yù)測邊界框與ground-truth之間的重疊。基于IoU閾值,預(yù)測框分為真正例(TP)、假正例(FP)),或假反例(FN)。接下來,作者計(jì)算精度和召回率:

f2081744-3481-11ed-ba43-dac502259ad0.png

Precision衡量預(yù)測的精度,而召回率則顯示模型找到所有正例的能力。高精度但低召回率意味著更多的FN(漏檢),而相反則意味著更多的FP(誤檢)。精確召回(PR)曲線顯示了不同閾值的精確度和召回值之間的權(quán)衡。

PR曲線向下傾斜,因?yàn)殡S著閾值的降低,會做出更多的預(yù)測(高召回率),而它們的精確度會降低(低精度)。作者計(jì)算各種IoU閾值下所有召回值(0到1之間)的平均精度(AP),這可以解釋為PR曲線下的面積。最后,mAP(平均平均精度)是通過對所有類的AP進(jìn)行平均來計(jì)算的。PASCAL VOC(Everingham等人,2010)以0.5IoU閾值(@IoU:0.5)評估m(xù)AP,而COCO(Lin等人,2014)使用0.05步設(shè)置十個(gè)不同的閾值@IoU:[0.5-0.95]尺寸。在醫(yī)療保健等一些應(yīng)用中,召回度量具有更大的價(jià)值,因?yàn)閾碛懈嗟腇N比FP更有害。平均召回是通過對所有IoU進(jìn)行平均召回來衡量的,并且這些平均值被稱為mAR。

作者還使用了F1分?jǐn)?shù)指標(biāo),它衡量精度和召回率之間的平衡。F1分?jǐn)?shù)計(jì)算如下:

f216c7da-3481-11ed-ba43-dac502259ad0.png

作者計(jì)算檢測器的卷積層、BN層和全連接層的MAC(乘法累加操作)計(jì)數(shù),并得到可學(xué)習(xí)參數(shù)的數(shù)量(以百萬為單位)。作者還得到了每個(gè)主干和檢測頭組合的每秒幀數(shù)(FPS)的推理速度。推理速度是針對500張圖像計(jì)算得到的,并取平均值以消除偏差。最后,考慮到最近的節(jié)能AI趨勢(Schwartz等人)al.,2019),作者在整個(gè)測試數(shù)據(jù)集上計(jì)算模型的推理能耗。作者使用NVIDIA Management Library(NVDIA,2019)來計(jì)算GPU在推理過程中的近似功耗。數(shù)據(jù)集的推理能耗以千焦(KJ)為單位顯示,不包括其他組件的功耗。

實(shí)驗(yàn)設(shè)置

作者的完整框架在PyTorch 1.7(Paszkeetal.,2019)中實(shí)現(xiàn),包括執(zhí)行所有訓(xùn)練和評估的所有主干網(wǎng)絡(luò)和檢測頭。需要注意的是,一些檢測頭(例如YOLO和DETR)在其原始實(shí)現(xiàn)中使用了多尺度訓(xùn)練,但是對于統(tǒng)一的訓(xùn)練方案,作者使用圖像大小為512的單尺度訓(xùn)練。所有圖像首先進(jìn)行歸一化,通過使用ImageNet均值(Russakovskyetal.,2015),數(shù)據(jù)集的每個(gè)通道減去該均值。對于檢測頭,使用默認(rèn)的PyTorch權(quán)重初始化(具有固定的種子值),使用ImageNet預(yù)訓(xùn)練的權(quán)重用于主干網(wǎng)絡(luò)。

對于數(shù)據(jù)增強(qiáng),作者使用expand、隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)光照,其中包括[0.5,1.5]范圍內(nèi)的隨機(jī)對比度、飽和度[0.5,1.5]和色調(diào)[-18,+18]。作者使用batchsize=32,并使用隨機(jī)梯度下降(SGD)優(yōu)化器(Bottou,2010)訓(xùn)練模型,動量為0.9,學(xué)習(xí)率衰減因子為0.1。選擇學(xué)習(xí)率調(diào)度器以確保所有模型的收斂。該規(guī)則的唯一例外是DETR,作者跟隨作者并使用AdamW(Loshchilov&Hutter,2017)優(yōu)化器。NMS閾值設(shè)置為0.45,置信度閾值設(shè)置為0.01。對于所有實(shí)驗(yàn),作者在NVIDIA RTX 2080Ti GPU上評估模型。Pytorch模型使用NVIDIA TensorRT(8.0版)轉(zhuǎn)換為其優(yōu)化的高性能推理模型,以促進(jìn)嵌入式硬件的部署。TensorRT轉(zhuǎn)換通過融合網(wǎng)絡(luò)中的多個(gè)層(包括卷積和BN層)來優(yōu)化網(wǎng)絡(luò),以實(shí)現(xiàn)并行處理。推理能耗是使用NVIDIA NVML API(Corporation,2020)在單機(jī)上運(yùn)行得到的。

結(jié)果

f2224a88-3481-11ed-ba43-dac502259ad0.png

上圖展示了三個(gè)指標(biāo)的總體趨勢:COCO數(shù)據(jù)集上的推理準(zhǔn)確性、速度和能耗。以“精度”為關(guān)鍵指標(biāo)對主干和檢測頭進(jìn)行排序,并將結(jié)果從低到高排序。為了更容易進(jìn)行性能分析,作者將主干和頭分為三個(gè)頻譜,即低、中和高,其中低和高是最不準(zhǔn)確和最準(zhǔn)確的主干和頭組合,中間頻譜包含具有平均性能的網(wǎng)絡(luò)。

精度:從主干網(wǎng)絡(luò)來看,VoVNet-39、HarDNet-68和Xception在所有頭上始終保持高精度,屬于高頻譜主干。VoVNet和HardDNet的準(zhǔn)確性可以分別歸功于One-Shot Aggregation(OSA)模塊和局部特征增強(qiáng)模塊,而36個(gè)CNN層的線性堆棧有助于Xception。中譜被ResNet-18、DarkNet-19和DeiT-T占據(jù)。ResNet和DarkNet都是輕量級架構(gòu),而DeiT享有自注意力模塊的好處,有助于利用全局信息。最后,EfficientNet-B0、MobileNet-v2和ShuffleNet-v2這些主要為減少M(fèi)AC計(jì)數(shù)而設(shè)計(jì)的網(wǎng)絡(luò),精度最低。

對于檢測頭,處于精度高頻譜的基本都是anchor-free的方法,比如NanoDet,FCOS,TTFNetandCenterNet等。它們沒有根據(jù)目標(biāo)大小定義anchor大小的麻煩。FCOS的FPN執(zhí)行多尺度預(yù)測,并有一個(gè)中心分支來過濾低質(zhì)量的預(yù)測。NanoDet使用PAN增強(qiáng)低級特征并使用有助于優(yōu)化位置的GIoU損失。TTFNet和CenterNet還包含多個(gè)分辨率并進(jìn)一步優(yōu)化目標(biāo)框定位。DETR中的注意力模塊提高了精度,但由于主干仍然是CNN,因此性能掉到了中間頻譜。SSD也占據(jù)了中間頻譜,較低的頻譜由YOLO和ThunderNet組成,它們分別是anchor-based的檢測器和兩階段檢測器。

速度:推理速度與精度相比呈現(xiàn)出不同的趨勢。在主干網(wǎng)絡(luò)中,“精度”位于中間頻譜的網(wǎng)絡(luò)最快,即ResNet-18、DarkNet-19和DeiT-T,從而促進(jìn)準(zhǔn)確性和速度之間的良好平衡。盡管ShuffleNet-v2是最不準(zhǔn)確的一種,但由于其為低延遲而設(shè)計(jì)的架構(gòu),推理速度相當(dāng)高。準(zhǔn)確度最高的VoVNet-39和HardDNet-68在速度方面位于中等頻譜范圍。然而,Xception是最慢的之一,因?yàn)樗写罅康木€性卷積層。

在檢測頭中,CenterNet、TTFNet和NanoDet是最快的,并且比其他檢測器有很大的優(yōu)勢。CenterNet和TTFNet沒有NMS瓶頸(因?yàn)樗褂没跓崃D峰值的max-pooling NMS而不是基于IoU的NMS),這有助于提高推理速度。FCOS,具有最高的精度,但在速度方面處于最低頻譜,因?yàn)樗哂形鍌€(gè)特征圖和一個(gè)額外的中心分支的重型架構(gòu)。NanoDet類似于FCOS,但具有更輕量級的架構(gòu),只有三個(gè)特征圖并且沒有單獨(dú)的分支,從而提高了推理速度。DETR在這里處于中間頻譜,因?yàn)門ransformer架構(gòu)沒有像CNN那樣進(jìn)行硬件優(yōu)化(Ivanov等人,2020)。SSD和YOLO也位于中間頻譜,達(dá)到平均速度。基于兩階段的檢測器,ThunderNet是最慢的。此外,下圖顯示了COCO數(shù)據(jù)集上所有檢測頭和主干(72種組合)的速度、準(zhǔn)確性和參數(shù)權(quán)衡。

f24e92a0-3481-11ed-ba43-dac502259ad0.png

每個(gè)氣泡的大小表示網(wǎng)絡(luò)中的參數(shù)量。大多數(shù)組合在15到50FPS的速度范圍,而NanoDet和CenterNet為所有主干網(wǎng)實(shí)現(xiàn)了更高的速度。能源和資源。在骨干網(wǎng)中,低頻譜網(wǎng)絡(luò)消耗的能量最少因?yàn)檫@些網(wǎng)絡(luò)的規(guī)模非常小,這也反映在較少的參數(shù)量上。DeiT-T證明是非常節(jié)能的。

在這些檢測頭中,除了FCOS之外,高頻譜檢測器的表現(xiàn)相當(dāng)不錯(cuò),因?yàn)镕COS比其他anchor-free的檢測器更重型。NanoDet消耗的能量最少,因?yàn)槠鋵iT設(shè)計(jì)用于在移動硬件上運(yùn)行。SSD和DETR在能耗方面保持中等頻譜。ThunderNet除了分類和回歸階段外,還有proposal階段,比單階段檢測器消耗更多的能量。詳細(xì)分析:下表提供了兩個(gè)不同數(shù)據(jù)集VOC和COCO的八個(gè)檢測頭、九個(gè)主干的更詳細(xì)信息。

f27a0ad4-3481-11ed-ba43-dac502259ad0.png

f2adb686-3481-11ed-ba43-dac502259ad0.png

FCOS+VoVNet-39組合具有最高的準(zhǔn)確度,而NanoDet+DarkNet-19組合具有最高的推理速度。Transformer組合DETR+DeiT-T有最低的MAC計(jì)數(shù),因?yàn)镈ETR在單個(gè)特征圖上工作,而最新的DeiT-T(帶有5M參數(shù))可謂足智多謀。兩個(gè)數(shù)據(jù)集的資源占用是相似的,除了在SSD中,在將數(shù)據(jù)集從VOC更改為COCO時(shí)參數(shù)量增加(在某些情況下約為2倍)。由于SSD使用六個(gè)特征圖,每個(gè)特征圖都有單獨(dú)的anchor,因此當(dāng)類數(shù)量增加時(shí)會產(chǎn)生資源開銷。這種效果在anchor-free設(shè)計(jì)中的放大程度較小。

總體而言,在主干網(wǎng)中,高頻譜網(wǎng)絡(luò)HardNet-68和VoVNet-39在所有指標(biāo)上都表現(xiàn)良好,Xception除了精度外,在所有指標(biāo)上都表現(xiàn)不佳。中間頻譜由ResNet-18、DarkNet-19和DeiT-Toff組成,在精度、速度和資源占用之間取得了良好的平衡。DeiT-T因?yàn)闆]有卷積,是資源占用最友好且MAC數(shù)量最少的。

在檢測頭中,NanoDet實(shí)現(xiàn)了高精度和速度,同時(shí)還具有較高的計(jì)算效率。CenterNet和TTFNet也提供了良好的平衡,而TTFNet有更快的訓(xùn)練時(shí)間。DETR(同樣,NanoDet)在與較輕的主干配對時(shí)顯示較低的MAC計(jì)數(shù)。為了進(jìn)一步證明在不同指標(biāo)上評估網(wǎng)絡(luò)的重要性,正如所見,精度與所有其他指標(biāo)正相關(guān),GMAC在F1得分之后是最高相關(guān)的。速度僅與推理能耗高度負(fù)相關(guān)。能耗與GMAC的正相關(guān)性最高,表明MAC操作較多的網(wǎng)絡(luò)往往會消耗更多的能量。

f2bc9fc0-3481-11ed-ba43-dac502259ad0.png

解耦影響

目標(biāo)尺寸的影響

對于大多數(shù)目標(biāo)檢測器來說,小目標(biāo)的檢測是一個(gè)具有挑戰(zhàn)性的問題(Liuetal.,2021)。為了展示網(wǎng)絡(luò)在不同尺度目標(biāo)上的性能,作者比較了三種不同大小(即小、中、大)的主干和檢測頭的精度。下圖顯示所有主干和檢測頭的組合在不同尺度的上表現(xiàn)。TTFNet、NanoDet和FCOS優(yōu)于其他網(wǎng)絡(luò),主要是因?yàn)榈玫叫阅茏罴训闹匦椭鞲删W(wǎng)的加持,如HardDNet-68或VoVNet-39。重型主干的更高分辨率的特征圖與這些檢測頭中的FPN/PAN相結(jié)合能得到更好性能,使得中型和大型目標(biāo)的精度要好得多。在檢測頭中,F(xiàn)COS和NanoDet對各種尺寸的目標(biāo)總體表現(xiàn)更好。TTFNet、CenterNet和SSD,位于中頻譜,配上更快的主干網(wǎng)絡(luò)對于需要更高推理速度的應(yīng)用來說是不錯(cuò)的選擇。FCOS的穩(wěn)定性能歸功于其更重型的架構(gòu),其使用了五個(gè)不同尺度的特征圖。為了進(jìn)一步分析,作者考慮所有具有HardNet-68主干的檢測頭,因?yàn)樗诟鼜?fù)雜的數(shù)據(jù)集COCO上提供了最佳平衡。

f2cf296a-3481-11ed-ba43-dac502259ad0.png

輸入圖像尺寸的影響

用于訓(xùn)練的輸入圖像的分辨率對最終精度起著重要作用。所有先前實(shí)驗(yàn)中使用的圖像分辨率均為512×512。為了分析其他輸入分辨率在精度和速度上的權(quán)衡,作者使用不同圖像尺寸進(jìn)行訓(xùn)練,包括256、384、512和736。圖像尺寸選擇為“16的偶數(shù)倍”。

f2dcdea2-3481-11ed-ba43-dac502259ad0.png

上圖表明,檢測頭的精度遵循“收益遞減”的趨勢。在大多數(shù)情況下,從256到384的圖像分辨率有顯著的精度跳躍。但是,隨著圖像尺寸的進(jìn)一步增加,增益會降低,當(dāng)圖像尺寸從512變?yōu)?36時(shí)增益最小(在某些情況下,它也會降低精度)。此外,作者觀察到更高圖像尺寸的精度增益被更大的速度下降所掩蓋。例如,F(xiàn)COS中從512到736的4.4%精度增益被37%的速度降低所掩蓋,因此FCOS切換到高分辨率不是最優(yōu)選擇。對于YOLO、TTFNet和FCOS,速度隨著分辨率的增加而明顯下降,因?yàn)閅OLO和其它FPN中的多分辨率尺度特征連接中的操作數(shù)量隨著圖像大小的增加而增加。DETR使用注意力塊來捕獲圖像的全局上下文信息,而ThunderNet具有單獨(dú)的區(qū)域每個(gè)樣本的proposal,它們對不同的圖像大小不太敏感。

anchor尺寸的影響

anchor大小和縱橫比需要與數(shù)據(jù)集中存在的目標(biāo)的大小一致,因此是anchor-based網(wǎng)絡(luò)中的重要參數(shù)。anchor大小也需要先驗(yàn),因此很難適應(yīng)新的數(shù)據(jù)集。在作者研究的八個(gè)檢測頭中,SSD、YOLO和Thundernet使用anchor-based的方法進(jìn)行檢測。為了分析anchors對檢測性能的影響,作者對所有三個(gè)anchor的檢測頭進(jìn)行了實(shí)驗(yàn),這些檢測頭具有不同的anchor尺寸,由它們各自的寬度和高度定義。目的是為anchor的寬度和高度添加一些偏移量,并分析網(wǎng)絡(luò)速度和準(zhǔn)確性的變化。作者不是線性增加/減少anchor尺寸,而是從具有不同sigma的高斯分布中采樣偏移量,并將其添加到原始anchor的寬度和高度以創(chuàng)建修改后的anchor尺寸。此外,修改后的anchor在整個(gè)特定實(shí)驗(yàn)中保持不變。原始anchor的寬度和高度(來自這些網(wǎng)絡(luò)的原始架構(gòu))被視為基線。

下表顯示了修改后的anchor相對于基線(第一行)的精度和推理速度方面的變化。作者觀察到不同大小的anchor的精度變化遵循隨機(jī)模式,精度和速度之間沒有相關(guān)性。ThunderNet在精度上,對anchor框大小的變化不敏感,而其推理速度不斷提高。SSD對這些變化非常敏感,因?yàn)樗腥Manchor框大小的準(zhǔn)確性都降低了,而其中一個(gè)的速度增加了。這些變化提高了YOLO的精度,但并不是都影響其推理速度。anchor尺寸影響檢測的非確定性方式證明,修改anchors以提高檢測效果不是一項(xiàng)簡單而直接的做法。

f2f0d3c6-3481-11ed-ba43-dac502259ad0.png

置信度閾值的影響

目標(biāo)檢測器會產(chǎn)生許多框,并使用一個(gè)閾值來過濾掉冗余和低置信度預(yù)測。改變這個(gè)閾值會影響準(zhǔn)確率和召回率。因此,置信度閾值在計(jì)算精度和推理速度方面起著至關(guān)重要的作用。由于未明確提及此類參數(shù),因此從先前的目標(biāo)檢測文獻(xiàn)中再現(xiàn)結(jié)果存在差異。使用不同的閾值顯示出精度和推理數(shù)量的顯著差異。ThunderNet有基于區(qū)域的proposal,并利用Soft-NMS,分?jǐn)?shù)衰減而不是固定硬閾值,因此這個(gè)參數(shù)不影響結(jié)果。CenterNet和TTFNet使用maxpool來選擇預(yù)測,而DETR去除了傳統(tǒng)的檢測模塊,因此不使用這個(gè)閾值。因此,本研究僅考慮了YOLO、SSD、FCOS和NanoDet。下表顯示了使用較高閾值時(shí)準(zhǔn)確度的下降以及使用較低閾值時(shí)速度的降低。例如,通過將閾值從0.01更改為0.4,YOLO的mAP下降了~22%,而速度提高了~71%。

f312763e-3481-11ed-ba43-dac502259ad0.png

可變形卷積的影響

引入了可變形卷積(DCN)層,有助于檢測具有幾何變形的目標(biāo)。傳統(tǒng)的卷積根據(jù)定義的內(nèi)核大小在圖像上使用固定的矩形網(wǎng)格。在DCN中,每個(gè)網(wǎng)格點(diǎn)都可以移動一個(gè)可學(xué)習(xí)的偏移量,即網(wǎng)格是可變形的。DCN基準(zhǔn)測試主要關(guān)注精度的提升,而不是其他指標(biāo)。為了獲得有關(guān)速度和資源需求的更多信息,作者分析了DCN層對在其最初提出的架構(gòu)中使用DCN的兩個(gè)檢測器的影響,即CenterNet和TTFNet。下表提供了上述兩個(gè)檢測器的精度、速度、參數(shù)數(shù)量和能耗并且沒有DCN層。在兩個(gè)數(shù)據(jù)集COCO和BDD上測試結(jié)果。在BDD數(shù)據(jù)集上,將CenterNet中的DCN層替換為標(biāo)準(zhǔn)卷積層,導(dǎo)致準(zhǔn)確率下降1.8%,速度提升8%以上。DCN層的使用也增加了參數(shù)量,導(dǎo)致能耗增加13%。在COCO數(shù)據(jù)集上,將TTFNet中的DCN改為標(biāo)準(zhǔn)卷積層后,精度下降不到5%,而速度提高了10%,能耗提高了約6%。這些結(jié)果表明,使用DCN層時(shí)存在固有的精度、速度和資源需求權(quán)衡。

f3216568-3481-11ed-ba43-dac502259ad0.png

目標(biāo)檢測器的可靠性

許多應(yīng)用程序,尤其是對安全至關(guān)重要的應(yīng)用程序,需要檢測網(wǎng)絡(luò)高度準(zhǔn)確和可靠。檢測器不僅必須精確,還應(yīng)該指出它們何時(shí)可能不正確。模型校準(zhǔn)提供了對模型不確定性的洞察,隨后可以將其傳達(dá)給最終用戶或協(xié)助進(jìn)一步處理模型輸出。它是指與一個(gè)預(yù)測相關(guān)的概率反映整體精度可能性的度量。大多數(shù)工作只專注于提高網(wǎng)絡(luò)的預(yù)測精度,但必須有一個(gè)經(jīng)過良好校準(zhǔn)的模型。大型且精度高的網(wǎng)絡(luò)往往過于自信(Guoetal.,2017)并且校準(zhǔn)錯(cuò)誤。因此,迫切需要重新審視和測量SOTA檢測器的校準(zhǔn),以獲得完整的評估。校準(zhǔn)的大部分工作都集中在分類領(lǐng)域,但Kuppers等人。(2020)包括邊界框預(yù)測以及分類標(biāo)簽,以評估檢測器的整體校準(zhǔn)。預(yù)期校準(zhǔn)誤差(ECE)(Naeinietal.,2015)是衡量校準(zhǔn)的常用指標(biāo)之一,用于衡量預(yù)測置信度和準(zhǔn)確度之間的期望差異。在分類領(lǐng)域,該分?jǐn)?shù)表示分類準(zhǔn)確度與估計(jì)的信心。檢測ECE(D-ECE)(Kuppersetal.,2020)測量觀察到的平均精度(AP)與分類和邊界框?qū)傩缘钠睢V眯趴臻g和邊界框空間被劃分為相等的bin,通過迭代所有bin并在每個(gè)bin中累積AP和置信度之間的差異來計(jì)算D-ECE。一維案例只考慮置信度,但作者使用多維D-ECE案例,它結(jié)合了所有因素:p、cx、cy、w、h,分別表示預(yù)測的類別概率、中心坐標(biāo)、寬度和高度。

可靠性圖(DeGroot&Fienberg,1983)用于直觀地表示模型校準(zhǔn),其中準(zhǔn)確度被繪制為置信度的函數(shù)。下表和圖分別提供了可靠性分?jǐn)?shù)和圖表。

f33fc968-3481-11ed-ba43-dac502259ad0.png

在可靠性圖中,對角線表示完美校準(zhǔn),綠色陰影表示校準(zhǔn)中的差距。在anchor-based的檢測器中,SSD校準(zhǔn)得很好,而YOLO則更不自信。所有基于關(guān)鍵點(diǎn)的方法(上圖中的最后一行)都更傾向于不自信,并且對他們的預(yù)測更加謹(jǐn)慎,因此可能更適合安全關(guān)鍵型應(yīng)用。但是,基于Transformer(DETR)和基于兩階段(ThunderNet)的檢測器過于自信,在安全關(guān)鍵型應(yīng)用中可能不受歡迎。當(dāng)還包括定位時(shí),校準(zhǔn)誤差會增加(如D-ECE中所反映的)。作者注意到有幾個(gè)分類領(lǐng)域的校準(zhǔn)解決方案,例如直方圖分箱(Zadrozny&Elkan,2001)、邏輯校準(zhǔn)/普拉特縮放(Plattetal.,1999)、溫度縮放(Guoetal.,2017)和beta校準(zhǔn)(Kulletal..,2017)。然而,將這些應(yīng)用于目標(biāo)檢測可能沒有那么有效,因此已經(jīng)提出了其他工作(Neumann等人,2018年;Kuppers等人,2020年)來采納專門針對目標(biāo)檢測的經(jīng)過良好校準(zhǔn)的估計(jì)。在這項(xiàng)研究中,作者專注于比較不同檢測器的可靠性,而不是深入研究解決方案以改進(jìn)其校準(zhǔn)。

自然魯棒性

自動駕駛等實(shí)時(shí)目標(biāo)檢測應(yīng)用非常重視安全性和精度。在此類應(yīng)用中使用的目標(biāo)檢測器需要在其預(yù)測中保持一致,并且對各種因素(例如不斷變化的天氣條件、光照和各種其他成像效果)具有魯棒性。公共數(shù)據(jù)集沒有充分覆蓋所有這些影響,因此作者通過在它們上添加不同的損壞來模擬它們。Corrupted COCO數(shù)據(jù)集創(chuàng)建有15種不同的損壞。下圖顯示了每個(gè)檢測頭在四種損壞類別上的結(jié)果:噪聲、模糊、天氣和數(shù)字化影響。精度值是該特定類別中不同損壞的平均值。這些 level0是網(wǎng)絡(luò)在原始數(shù)據(jù)上的表現(xiàn)。所有網(wǎng)絡(luò)的性能在所有損壞上都會惡化,并且隨著嚴(yán)重性的增加而下降得更快。在噪聲、模糊和數(shù)字化影響方面,與天氣類別相比,這些網(wǎng)絡(luò)的性能下降幅度相對較大。對于所有損壞類別,F(xiàn)COS是最穩(wěn)健的,而YOLO是最不穩(wěn)健的。就IID數(shù)據(jù)的準(zhǔn)確度而言,檢測器的頂部、中部和低譜在OOD設(shè)置上仍然保持良好。FCOS在IID測試集中被證明是最準(zhǔn)確的,即使在具有挑戰(zhàn)性的OOD設(shè)置(即自然損壞的數(shù)據(jù))上也能保持這種性能。

f35b9846-3481-11ed-ba43-dac502259ad0.png

為了提供更詳細(xì)的分析,作者在下圖中顯示了每個(gè)網(wǎng)絡(luò)的所有15種不同損壞的結(jié)果。在每個(gè)熱圖中,作者通過對所有損壞進(jìn)行平均來計(jì)算平均損壞準(zhǔn)確度(mCA)。所有檢測器在所有三種噪聲(高斯噪聲、散粒噪聲和脈沖噪聲)上都顯示出類似的性能下降趨勢。與其他噪聲相比,F(xiàn)COS和TTFNet的下降最少,并且對噪聲損壞相對更穩(wěn)健。在模糊損壞中,散焦和運(yùn)動模糊的下降更為穩(wěn)定,而對于玻璃模糊,精度最初逐漸下降,但在嚴(yán)重級別3之后急劇下降。在變焦模糊中,所有檢測器的性能下降都從嚴(yán)重級別1開始。與霜和雪相比,所有檢測器對不同亮度和霧的破壞都具有魯棒性。最差的性能出現(xiàn)在下雪的條件下,并且趨勢相似。在數(shù)字效果中,與像素化和對比度相比,網(wǎng)絡(luò)對彈性變換和JPEG壓縮的魯棒性更強(qiáng)。所有模型對對比變化的魯棒性都較低,而YOLO是最不魯棒的。

f36bcd1a-3481-11ed-ba43-dac502259ad0.png

f3940582-3481-11ed-ba43-dac502259ad0.png

對抗魯棒性

一些工作已經(jīng)表明深度神經(jīng)網(wǎng)絡(luò)對對抗性攻擊的脆弱性。對抗性擾動是難以察覺的噪聲,當(dāng)添加到數(shù)據(jù)中時(shí),人眼無法察覺,但可能導(dǎo)致網(wǎng)絡(luò)做出錯(cuò)誤的預(yù)測。在自動駕駛等安全關(guān)鍵型應(yīng)用中,穩(wěn)健性對于防止網(wǎng)絡(luò)做出不合時(shí)宜的決策更為重要。因此,對抗魯棒性是目標(biāo)檢測的關(guān)鍵指標(biāo)。然而,它在文獻(xiàn)中并不突出。在這里,作者評估了所有八個(gè)檢測器網(wǎng)絡(luò)對對抗性攻擊的魯棒性。

作者采用基于梯度的攻擊,利用網(wǎng)絡(luò)的梯度信息來產(chǎn)生擾動。投影梯度下降(PGD)(Madryetal.,2017)是一種常見的非目標(biāo)攻擊,它最大化訓(xùn)練損失以產(chǎn)生對抗性擾動,該擾動被限制在epsilon范圍內(nèi)。作者同時(shí)使用分類損失和回歸損失作為PGD攻擊的目標(biāo)。作者以不同的攻擊強(qiáng)度執(zhí)行PGD攻擊,并在下圖中展示精度。Epsilon=0時(shí)的精度是指原始測試集上的干凈準(zhǔn)確度。隨著攻擊強(qiáng)度的增加,性能下降。與其他檢測器相比,CenterNet和DETR表現(xiàn)出穩(wěn)定且更好的魯棒性。FCOS具有最高的自然精度,并且對非常弱的攻擊表現(xiàn)出良好的抵抗力,但在更高的擾動下性能急劇下降。TTFNet和ThunderNet表現(xiàn)次之。YOLO、NanoDet和SSD占據(jù)下一個(gè)頻譜。

f3aac18c-3481-11ed-ba43-dac502259ad0.png

案例研究:自動駕駛

實(shí)時(shí)目標(biāo)檢測在自動駕駛(AD)領(lǐng)域具有高度相關(guān)性,網(wǎng)絡(luò)需要學(xué)習(xí)各種目標(biāo),例如城市道路和高速公路上的行人、車輛和路標(biāo)。檢測網(wǎng)絡(luò)的大多數(shù)基準(zhǔn)都在VOC和COCO上提供數(shù)據(jù)集,主要由家常目標(biāo)組成。這些數(shù)據(jù)集的結(jié)果不足以衡量網(wǎng)絡(luò)在AD場景中的性能。因此,作者使用BDD數(shù)據(jù)集(Yuetal.,2018)對AD進(jìn)行了實(shí)際案例研究,該數(shù)據(jù)集是該領(lǐng)域中最大和最多樣化的數(shù)據(jù)集之一。

首先,作者展示了這個(gè)復(fù)雜數(shù)據(jù)集上所有網(wǎng)絡(luò)的性能。然后,作者通過使用在BDD上訓(xùn)練的模型并在不同的數(shù)據(jù)集(即Cityscapes(Cordtsetal.,2016))上進(jìn)行測試來解決分布外(OOD)泛化問題。最后,作者將所有在BDD上訓(xùn)練的模型部署在嵌入式設(shè)備上,并展示每個(gè)網(wǎng)絡(luò)的實(shí)時(shí)應(yīng)用能力。因?yàn)榕c速度下降相比,DCN獲得的準(zhǔn)確度并不顯著。因此,在本節(jié)中,作者統(tǒng)一考慮所有沒有DCN層的網(wǎng)絡(luò)。

下表是作者展示了在BDD驗(yàn)證集上獲得的結(jié)果。類似于趙等人。(2018a),作者以IoU=0.7計(jì)算了模型的準(zhǔn)確度(mAP)。NanoDetex表現(xiàn)出最好的準(zhǔn)確度。FCOS是次之最準(zhǔn)確的,但速度慢,能耗也最高。CenterNet速度最快,但準(zhǔn)確度略低。SSD消耗的能量最少,YOLO有準(zhǔn)確率最低。有趣的是,BDD數(shù)據(jù)集中目標(biāo)位置的偏差導(dǎo)致生成的區(qū)域建議更少,從而使ThunderNet更快。

f3c728fe-3481-11ed-ba43-dac502259ad0.png

分布轉(zhuǎn)移的泛化是AD場景中的主要挑戰(zhàn)之一。網(wǎng)絡(luò)在實(shí)際應(yīng)用中部署時(shí),需要適應(yīng)看不見的數(shù)據(jù)并始終如一地執(zhí)行。然而,大多數(shù)深度學(xué)習(xí)基準(zhǔn)都顯示在測試集上,其分布與訓(xùn)練數(shù)據(jù)相同(Geirhosetal.,2020)。因此,為了測試網(wǎng)絡(luò)對分布變化的魯棒性,作者在Cityscapes數(shù)據(jù)上測試了BDD訓(xùn)練模型。作者從Cityscapes數(shù)據(jù)集的實(shí)例分割注釋中提取真實(shí)邊界框。作者觀察到FCOS的準(zhǔn)確度最高,NanoDet緊隨其后。CenterNet是最快的網(wǎng)絡(luò),SSD在這兩個(gè)集合中是最節(jié)能的。一般來說,anchor-free的檢測器是跨具有挑戰(zhàn)性的AD數(shù)據(jù)集泛化的較好選擇。

AD應(yīng)用程序具有功率和資源限制,因?yàn)榫W(wǎng)絡(luò)部署在板載邊緣設(shè)備上。檢測網(wǎng)絡(luò)在低功耗設(shè)備上的實(shí)時(shí)性能對其功效至關(guān)重要。對于部署,作者使用TensorRT庫將網(wǎng)絡(luò)轉(zhuǎn)換為優(yōu)化的高性能推理引擎。TensorRT是NVIDIA的并行編程模型,可以優(yōu)化神經(jīng)網(wǎng)絡(luò)以部署在嵌入式或汽車產(chǎn)品平臺上。然后,這些引擎在NVIDIA的三個(gè)不同范圍的GPU上進(jìn)行測試:(1)2080Ti,一種常用的桌面GPU,(2)Jetson-Xavier,一種強(qiáng)大的移動GPU,以及(3)Jetson-TX2,一種低功耗的移動GPU。下表顯示了所有8個(gè)檢測器在三種精度模式下的推理速度,即FP32、FP16和INT8。

f3d41afa-3481-11ed-ba43-dac502259ad0.png

性能趨勢可能與之前看到的不同,因?yàn)樗Q于TensorRT對不同層的優(yōu)化。優(yōu)化融合了后續(xù)層并使計(jì)算并行化。anchor-based的檢測器ThunderNet、YOLO和SSD具有相對簡單的架構(gòu),優(yōu)化后的速度增益最高。YOLO是最簡單的,得到的優(yōu)化最多,是所有平臺上最快的。然而,所有anchor-free的檢測器從優(yōu)化中獲得的速度增益最小。DETR位于中間頻譜,并且由于transformer架構(gòu)相對較新,它不像其他卷積層那樣被TensorRT引擎優(yōu)化。這個(gè)獨(dú)特的案例研究表明,性能在一臺設(shè)備上看到的趨勢不一定會轉(zhuǎn)化為其他硬件。該基準(zhǔn)在選擇模型以部署在邊緣設(shè)備上以實(shí)現(xiàn)實(shí)時(shí)AD應(yīng)用程序時(shí)非常有用。

案例研究:健康領(lǐng)域

深度學(xué)習(xí)的最新進(jìn)展使人工智能模型能夠幫助外科醫(yī)生和放射科醫(yī)生診斷和治療危及生命的疾病。手動檢測需要專業(yè)知識,需要時(shí)間,并且可以也會受到人為錯(cuò)誤的影響。基于AI的檢測解決方案有助于降低成本和資源,并可以為醫(yī)學(xué)成像中的檢測提供準(zhǔn)確的工具。其中一個(gè)應(yīng)用是使用DNN檢測醫(yī)學(xué)圖像中的息肉。結(jié)腸和直腸(結(jié)腸直腸)癌通常是由結(jié)腸或直腸內(nèi)層的息肉引起的。

檢測這些息肉并在早期階段對其進(jìn)行治療對于癌癥治療至關(guān)重要。醫(yī)學(xué)圖像的分布與COCO和VOC等標(biāo)準(zhǔn)數(shù)據(jù)集截然不同。因此,標(biāo)準(zhǔn)基準(zhǔn)可能無法提供有關(guān)為此應(yīng)用程序選擇哪種模型的重要信息。此外,不同的指標(biāo)更相關(guān),具體取決于應(yīng)用程序。雖然標(biāo)準(zhǔn)基準(zhǔn)側(cè)重于準(zhǔn)確性的精度指標(biāo),但在醫(yī)療保健行業(yè),即使是一個(gè)假陰性也可能比假陽性結(jié)果造成更大的損害,召回更為重要。為了解決這種新的數(shù)據(jù)分布和指標(biāo),作者專門針對通過評估Kvasir-SEG數(shù)據(jù)集上的檢測器來評估醫(yī)學(xué)圖像。下表顯示了在Kvasir-SEG的testsplit上獲得的結(jié)果。召回與此應(yīng)用程序更相關(guān),因此,作者將平均平均召回(mAR)與mAP一起報(bào)告。某些網(wǎng)絡(luò)(如YOLO)可能沒有最高的精度,但召回低。FCOS具有最高的召回率和精度,這使其成為此類測試用例的理想候選者。在速度方面,SSD是最快的,而Nanodet次之。

f3f60520-3481-11ed-ba43-dac502259ad0.png

討論

作者在跨不同數(shù)據(jù)集的統(tǒng)一實(shí)驗(yàn)設(shè)置下對特征提取器和檢測器的組合(范圍從兩階段、單階段、anchor-based、anchor-free到基于Transformer的架構(gòu))進(jìn)行了全面研究。作者得出了一組廣泛的結(jié)果,包括精度、速度、資源和能耗,以及穩(wěn)健性和校準(zhǔn)分析。作者評估了檢測器對兩種自然對抗性破壞的魯棒性。此外,還突出顯示了詳細(xì)的見解,以全面了解不同變量對最終結(jié)果的影響。對不同的變量,如主干網(wǎng)絡(luò)的影響、圖像大小、目標(biāo)大小、置信閾值和特定架構(gòu)層進(jìn)行了解耦和研究。作者還就兩個(gè)不同的行業(yè)貢獻(xiàn)了兩個(gè)獨(dú)特的案例研究:自動駕駛和醫(yī)療保健。

作者進(jìn)一步在嵌入式硬件上優(yōu)化和基準(zhǔn)測試網(wǎng)絡(luò),以檢查網(wǎng)絡(luò)部署在邊緣設(shè)備上的可行性。結(jié)果表明,anchor-free的檢測器傾向于很好地泛化多個(gè)數(shù)據(jù)集,因?yàn)椴辉傩枰獙nchor進(jìn)行優(yōu)化。NanoDet在準(zhǔn)確性和速度方面都很好,同時(shí)對資源也很友好。CenterNet是第二快的,并且在所有其他指標(biāo)上也處于良好的范圍內(nèi),TTFNet位于中間范圍內(nèi)。FCOS的準(zhǔn)確性最高,但在其他指標(biāo)上表現(xiàn)不佳,而DETR是基于Transformer的檢測器具有最低的MAC計(jì)數(shù),位于中間頻譜。在主干網(wǎng)中,專門設(shè)計(jì)的現(xiàn)代網(wǎng)絡(luò)對于低內(nèi)存流量,例如HardDNet,在精度、推理速度和能耗之間提供最佳平衡。所有檢測器在檢測小目標(biāo)時(shí)都表現(xiàn)不佳,F(xiàn)COS的表現(xiàn)相對更好。不同的anchor以非確定性的方式影響性能,因此難以泛化。

作者指出在切換到更高圖像尺寸或使用DCN層時(shí)應(yīng)考慮的精度-速度-資源要求權(quán)衡。在對抗自然損壞的魯棒性上,所有網(wǎng)絡(luò)的性能在所有15次損壞上都下降了,并且隨著嚴(yán)重性的增加下降得更快。一般來說,anchor-free的檢測器比其他檢測器對自然損壞的魯棒性相對更強(qiáng)。FCOS是最魯棒的,而YOLO是最不魯棒的。FCOS和TTFNet對嘈雜和模糊的損壞相對更魯棒,但所有檢測器在雪天條件下表現(xiàn)都很差。CenterNet被證明是最強(qiáng)大的對對抗性擾動具有魯棒性,而FCOS和DETR對這些攻擊也具有很強(qiáng)的抵抗力。在可靠性分析方面,SSD的校準(zhǔn)相對最佳,而anchor-free的檢測器在預(yù)測中更加謹(jǐn)慎,因此使其在安全關(guān)鍵型應(yīng)用中比較推薦。ThunderNet和DETR傾向于更加過度自信。

作者對基于深度學(xué)習(xí)的實(shí)時(shí)目標(biāo)檢測網(wǎng)絡(luò)在不同數(shù)據(jù)集和不同域上進(jìn)行全面的分析。廣泛的分析了新架構(gòu)(Transformer vs. CNN)的能力和缺陷。不同的應(yīng)用有不同的標(biāo)準(zhǔn),作者的研究可以作為工業(yè)界衡量不同標(biāo)準(zhǔn)的指南,在為各自的應(yīng)用選擇檢測器時(shí)可以進(jìn)行權(quán)衡。而且由于新的檢測網(wǎng)絡(luò)正在不斷的出現(xiàn),作者也希望能啟發(fā)研究人員將這項(xiàng)研究作為設(shè)計(jì)新網(wǎng)絡(luò)的參考準(zhǔn)則。本研究強(qiáng)調(diào)了標(biāo)準(zhǔn)化、透明和公平的重要性,同時(shí)強(qiáng)調(diào)需要將重點(diǎn)從名義上的改進(jìn)轉(zhuǎn)移到更開闊的視野。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    869

    瀏覽量

    47760
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101052

原文標(biāo)題:超大超全!萬字長文詳解多領(lǐng)域?qū)崟r(shí)目標(biāo)檢測算法(2022最新)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度神經(jīng)網(wǎng)絡(luò)在雷達(dá)系統(tǒng)中的應(yīng)用

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在雷達(dá)系統(tǒng)中的應(yīng)用近年來取得了顯著進(jìn)展,為雷達(dá)信號處理、目標(biāo)檢測、跟蹤以及識別等領(lǐng)域
    的頭像 發(fā)表于 07-15 11:09 ?837次閱讀

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨(dú)特的結(jié)構(gòu)設(shè)計(jì)在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發(fā)表于 07-11 18:13 ?1164次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需
    的頭像 發(fā)表于 07-04 13:20 ?1034次閱讀

    深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)方法

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)作為人工智能領(lǐng)域的重要技術(shù)之一,通過模擬人腦神經(jīng)元之間的連接,實(shí)現(xiàn)了對復(fù)雜數(shù)據(jù)的自主學(xué)習(xí)和智能判斷。其設(shè)計(jì)方法不僅涉
    的頭像 發(fā)表于 07-04 13:13 ?526次閱讀

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法有哪些

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法深度學(xué)習(xí)領(lǐng)域中的核心技術(shù)之一,旨在通過調(diào)整網(wǎng)絡(luò)中的參數(shù)(如權(quán)重和偏差)來最小化損失函數(shù),從而提高模型的性能和效率。本文將詳
    的頭像 發(fā)表于 07-03 16:01 ?619次閱讀

    神經(jīng)網(wǎng)絡(luò)反向傳播算法的優(yōu)缺點(diǎn)有哪些

    神經(jīng)網(wǎng)絡(luò)反向傳播算法(Backpropagation Algorithm)是一種廣泛應(yīng)用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域的優(yōu)化算法,用于訓(xùn)練多層前饋
    的頭像 發(fā)表于 07-03 11:24 ?1183次閱讀

    神經(jīng)網(wǎng)絡(luò)反向傳播算法的作用是什么

    神經(jīng)網(wǎng)絡(luò)反向傳播算法(Backpropagation)是一種用于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)算法,它通過計(jì)算損失函數(shù)關(guān)于網(wǎng)絡(luò)參數(shù)的梯度來更新
    的頭像 發(fā)表于 07-03 11:17 ?1544次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-03 10:14 ?929次閱讀

    BP神經(jīng)網(wǎng)絡(luò)算法的基本流程包括

    BP神經(jīng)網(wǎng)絡(luò)算法,即反向傳播(Backpropagation)神經(jīng)網(wǎng)絡(luò)算法,是一種多層前饋神經(jīng)網(wǎng)絡(luò),通過反向傳播誤差來訓(xùn)練
    的頭像 發(fā)表于 07-03 09:52 ?573次閱讀

    神經(jīng)網(wǎng)絡(luò)算法的結(jié)構(gòu)有哪些類型

    神經(jīng)網(wǎng)絡(luò)算法深度學(xué)習(xí)的基礎(chǔ),它們在許多領(lǐng)域都有廣泛的應(yīng)用,如圖像識別、自然語言處理、語音識別等。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有很多種類型,每種類型都有其
    的頭像 發(fā)表于 07-03 09:50 ?514次閱讀

    神經(jīng)網(wǎng)絡(luò)算法的優(yōu)缺點(diǎn)有哪些

    神經(jīng)網(wǎng)絡(luò)算法是一種模擬人腦神經(jīng)元結(jié)構(gòu)的計(jì)算模型,廣泛應(yīng)用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖像識別、語音識別等領(lǐng)域。然而,
    的頭像 發(fā)表于 07-03 09:47 ?1610次閱讀

    基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法

    神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法,廣泛應(yīng)用于各種領(lǐng)域,如圖像識別、自然語言處理、語音識別等。本文詳細(xì)介紹了基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法,包
    的頭像 發(fā)表于 07-02 11:21 ?630次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型有哪些

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)是一類具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),它們在許多領(lǐng)域取得了顯著的成功,如計(jì)算機(jī)視覺、自然語言處理、語音識別等。以下是一些常見
    的頭像 發(fā)表于 07-02 10:00 ?1591次閱讀

    安全帽佩戴檢測算法

    安全帽佩戴監(jiān)控是鐵路工程施工人員安全管理中的重點(diǎn)和難點(diǎn),它對檢測算法的準(zhǔn)確 率與檢測速度都有較高的要求。本文提出一種基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的安全帽佩戴檢測算法 NAS-YOLO。該
    的頭像 發(fā)表于 06-26 22:22 ?437次閱讀
    安全帽佩戴<b class='flag-5'>檢測算法</b>

    咳嗽檢測深度神經(jīng)網(wǎng)絡(luò)算法

    [10]。許多咳嗽檢測算法在臨床行業(yè)中流行,用于識別和檢測咳嗽聲音,以獲得有價(jià)值的見解。但是,從實(shí)時(shí)音頻流中檢測咳嗽的方法仍然很少。醫(yī)生利用咳嗽聲和非咳嗽聲的良好辨別性[11]有助于早
    發(fā)表于 05-15 19:05
    主站蜘蛛池模板: 无码国产成人777爽死在线观看 | 女生扒开尿口 | 贵妃高h荡肉呻吟np杨玉环 | 有码 亚洲 制服 国产 在线 | 国产女人乱人伦精品一区二区 | 床伴在线观看免费高清完整泰剧第四集 | 国产大片51精品免费观看 | 久久精品天天中文字幕 | 久久精品一卡二卡三卡四卡视频版 | 在线高清电影理论片4399 | 公交车被CAO到合不拢腿 | 免费果冻传媒2021在线看 | 人妻夜夜爽99麻豆AV | 老子午夜伦不卡电影院 | 内射无码AV-区二区在线观看 | 老妇高潮潮喷到猛进猛出 | 亚洲不卡视频在线 | 伊人情涩网 | 收集最新中文国产中文字幕 | 国产成人教育视频在线观看 | 影音先锋色av男人资源网 | 99久久99| 国产人妻人伦精品A区 | 中字幕视频在线永久在线观看免费 | 国产精品私人玩物在线观看 | 帝王被大臣们调教高肉 | 扒开老师大腿猛进AAA片软件 | 日本最新免费区中文 | 日本二区三区欧美亚洲国 | 色偷偷亚洲天堂 | 国产精品久久久久久久久齐齐 | 我的奶头被客人吸的又肿又红 | 欧美区 bt | 亚洲精品自在在线观看 | 久欠热视频精品首页 | 日本免费无码A专区在线观看 | 91福利国产在线观看网站 | 天龙八部慕容属性加点 | 欧美亚洲另类图片 | 四虎4hu亚洲精品 | 恋夜秀场支持安卓版全部视频国产 |