近日,視頻行為理解領(lǐng)域的ImageNet競(jìng)賽——ActivityNet Challenge 2018在CVPR 會(huì)議上落下了帷幕。來(lái)自上海交通大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室的團(tuán)隊(duì)(自動(dòng)化系研究生林天威、蘇海昇,導(dǎo)師趙旭副教授),獲得了未修剪視頻中的時(shí)序動(dòng)作定位任務(wù)的冠軍,以及時(shí)序動(dòng)作提名任務(wù)的亞軍。本文將分享該團(tuán)隊(duì)在兩項(xiàng)競(jìng)賽任務(wù)中所采用的算法思路和方案。
引言
理解視頻中人的動(dòng)作和行為,是計(jì)算機(jī)視覺(jué)領(lǐng)域的挑戰(zhàn)性問(wèn)題,也是視頻內(nèi)容理解的關(guān)鍵,極具應(yīng)用前景。ActivityNet挑戰(zhàn)賽旨在催生視頻行為理解的新算法和新技術(shù),是目前視頻行為理解領(lǐng)域數(shù)據(jù)規(guī)模最大、最具影響力的技術(shù)競(jìng)賽,與每年的頂級(jí)學(xué)術(shù)會(huì)議CVPR一起召開(kāi),已成功舉辦三屆。今年ActivityNet挑戰(zhàn)賽共舉辦6項(xiàng)比賽,吸引了全球計(jì)算機(jī)視覺(jué)領(lǐng)域來(lái)自學(xué)術(shù)界和工業(yè)界的諸多團(tuán)隊(duì)積極參賽。
近日,ActivityNet Challenge在CVPR會(huì)議上公布了2018年的競(jìng)賽成績(jī)。來(lái)自上海交通大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室的團(tuán)隊(duì)(自動(dòng)化系研究生林天威、蘇海昇,導(dǎo)師趙旭副教授),獲得了未修剪視頻中的時(shí)序動(dòng)作定位任務(wù)的冠軍,以及時(shí)序動(dòng)作提名生成任務(wù)的亞軍。
本文將分享上海交通大學(xué)團(tuán)隊(duì)在兩項(xiàng)競(jìng)賽任務(wù)中的算法思路和方案。在此次競(jìng)賽中,上交團(tuán)隊(duì)主要采用了近期投稿在ECCV 2018會(huì)議上的時(shí)序動(dòng)作提名生成新方法-Boundary Sensitive Network (BSN) 。
ActivityNet挑戰(zhàn)賽
ActivityNet 挑戰(zhàn)賽是目前視頻動(dòng)作理解領(lǐng)域規(guī)模最大的競(jìng)賽,涵蓋了視頻動(dòng)作分類、時(shí)序動(dòng)作定位、視頻文本生成等多個(gè)方向。今年的ActivityNet挑戰(zhàn)賽在規(guī)模、多樣性和自然度上較往年均有顯著提升,共舉辦6項(xiàng)競(jìng)賽任務(wù),其中任務(wù)1-3基于ActivityNet數(shù)據(jù)集,任務(wù)A,B,C則為其他視頻理解領(lǐng)域內(nèi)重要的數(shù)據(jù)集。目前ActivityNet數(shù)據(jù)集的版本為1.3,包括20000個(gè)Youtube 視頻,共計(jì)約700小時(shí),平均每個(gè)視頻上有1.5個(gè)動(dòng)作片段,涵蓋了共200個(gè)動(dòng)作類別。這些比賽項(xiàng)目具體包括:
任務(wù)1: 時(shí)序動(dòng)作提名生成;
任務(wù)2: 時(shí)序動(dòng)作定位;
任務(wù)3: 視頻密集描述生成;
任務(wù)A: 視頻動(dòng)作分類(Kinetics數(shù)據(jù)集);
任務(wù)B: 時(shí)空動(dòng)作定位(AVA數(shù)據(jù)集);
任務(wù)C: 視頻事件分類(Moments-in-time 數(shù)據(jù)集)
圍繞上述6項(xiàng)競(jìng)賽任務(wù),今年的挑戰(zhàn)賽吸引了來(lái)自上海交通大學(xué)、清華大學(xué)、中科大等國(guó)內(nèi)高校,CMU、UMD、UCSB、華盛頓大學(xué)等國(guó)外高校,以及DeepMind、百度、曠視科技、七牛云、愛(ài)奇藝等企業(yè)團(tuán)隊(duì)參賽。比賽由阿卜杜拉國(guó)王科技大學(xué)視覺(jué)計(jì)算中心在CVPR 2018會(huì)議上舉辦,得到谷歌、DeepMind、Facebook等公司的贊助。
競(jìng)賽任務(wù)及測(cè)評(píng)方式
本次競(jìng)賽中,上交團(tuán)隊(duì)參加了任務(wù)1:時(shí)序動(dòng)作提名生成,以及任務(wù)2:時(shí)序動(dòng)作定位的比賽。其中,任務(wù)2要求在視頻序列中確定動(dòng)作發(fā)生的時(shí)間區(qū)間(包括開(kāi)始時(shí)間與結(jié)束時(shí)間)以及動(dòng)作的類別。這個(gè)問(wèn)題與二維圖像中的目標(biāo)檢測(cè)問(wèn)題有很多相似之處。相關(guān)算法一般可以分為兩個(gè)部分:(1) 時(shí)序動(dòng)作提名生成,產(chǎn)生候選視頻時(shí)序片段,類似于Faster-RCNN中的RPN網(wǎng)絡(luò)的作用;(2) 動(dòng)作分類: 即判斷候選視頻時(shí)序片段的動(dòng)作類別。兩個(gè)部分結(jié)合在一起,即實(shí)現(xiàn)了視頻中的時(shí)序動(dòng)作檢測(cè)。從去年起,時(shí)序動(dòng)作提名作為單項(xiàng)競(jìng)賽任務(wù)被單獨(dú)列出(任務(wù)1)。
在時(shí)序動(dòng)作定位問(wèn)題中,mean Average Precision(mAP) 是最常用的評(píng)估指標(biāo)。此次競(jìng)賽計(jì)算0.5到0.95, 以0.05為步長(zhǎng)的多個(gè)IoU閾值下的mAP,稱為 Average mAP,作為最終的測(cè)評(píng)以及排名指標(biāo)。相較于使用mAP@0.5 作為測(cè)評(píng)指標(biāo),Average mAP 更看重在較嚴(yán)格IoU閾值下的檢測(cè)精度。時(shí)序動(dòng)作提名任務(wù)由于無(wú)需對(duì)時(shí)序片段進(jìn)行分類,所以通常使用average recall (AR) 來(lái)進(jìn)行評(píng)估。在此次競(jìng)賽中,Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲線下的面積被作為最終的評(píng)測(cè)指標(biāo)。舉個(gè)例子,AN=50 時(shí)的AR分?jǐn)?shù)可以理解為對(duì)于每個(gè)視頻,使用proposal set中分?jǐn)?shù)最高的前50個(gè)proposal時(shí),所能達(dá)到的召回率。
競(jìng)賽方案介紹
此次競(jìng)賽,我們主要對(duì)我們投稿在ECCV 2018會(huì)議上的時(shí)序動(dòng)作提名生成算法-BSN模型 [1](Boundary-Sensitive Network) 進(jìn)行了優(yōu)化與改進(jìn)。下面首先對(duì)BSN方法進(jìn)行介紹,之后再介紹此次競(jìng)賽中所進(jìn)行的一些改進(jìn)。
BSN-用于時(shí)序動(dòng)作提名生成的邊界敏感網(wǎng)絡(luò)
時(shí)序動(dòng)作檢測(cè)一般包含兩個(gè)環(huán)節(jié)-提名和分類。目前行為分類的精度其實(shí)已經(jīng)比較高了,而時(shí)序動(dòng)作檢測(cè)的精度仍然比較低,所以我們認(rèn)為其瓶頸在于時(shí)序動(dòng)作提名生成階段。高質(zhì)量的時(shí)序動(dòng)作提名應(yīng)該具備(1)靈活的時(shí)序長(zhǎng)度;(2)精確的時(shí)序邊界;(3)可靠的置信度分?jǐn)?shù)。現(xiàn)有的基于滑窗或anchor的方法或是基于聚類的方法都不能同時(shí)在這幾個(gè)方面做好。因此,我們?cè)赱1]中提出了一種新的時(shí)序提名生成算法-Boundary Sensitive Network(BSN)。在BSN中,我們首先去定位時(shí)序動(dòng)作片段的邊界(開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)),再將邊界節(jié)點(diǎn)直接結(jié)合成時(shí)序提名,最后基于所設(shè)計(jì)的proposal-level的feature來(lái)對(duì)每個(gè)proposal的置信度進(jìn)行評(píng)估。算法的整體框架圖如下圖所示,之后會(huì)逐步介紹各個(gè)步驟。
1. 特征提取
在特征提取階段,我們主要將視頻切分成16幀不重疊的單元,然后采用 two-stream network 提取特征。對(duì)于spatial network, 我們使用每個(gè)單元的中心幀提取特征;對(duì)于temporal network,我們則使用每個(gè)單元的中心6幀圖像計(jì)算得到的光流圖像提取特征。最終將視頻圖像序列轉(zhuǎn)化為特征序列。
2. BSN - 時(shí)序評(píng)估模塊
基于提取的圖像特征序列,BSN中的時(shí)序評(píng)估模塊采用3層時(shí)序卷積層來(lái)對(duì)視頻序列中每個(gè)位置上動(dòng)作開(kāi)始的概率、動(dòng)作結(jié)束的概率和動(dòng)作類別概率同時(shí)進(jìn)行建模,從而生成動(dòng)作開(kāi)始概率序列,動(dòng)作結(jié)束概率序列和動(dòng)作類別概率序列。
3. BSN - 提名生成模塊
接下來(lái),基于上述的幾種概率序列,提名生成模塊要生成候選時(shí)序動(dòng)作提名,并對(duì)每個(gè)動(dòng)作提名生成對(duì)應(yīng)的特征描述。
要生成候選時(shí)序動(dòng)作提名,首先我們選擇動(dòng)作開(kāi)始和動(dòng)作結(jié)束概率序列中滿足以下兩個(gè)條件之一的時(shí)間節(jié)點(diǎn)作為候選時(shí)序邊界節(jié)點(diǎn):(1)概率高于一個(gè)閾值 或(2)該時(shí)間節(jié)點(diǎn)的概率高于前一時(shí)刻以及后一時(shí)刻的概率。然后我們將候選開(kāi)始時(shí)間節(jié)點(diǎn)和候選結(jié)束時(shí)間節(jié)點(diǎn)兩兩結(jié)合,保留時(shí)長(zhǎng)符合要求的開(kāi)始節(jié)點(diǎn)-結(jié)束節(jié)點(diǎn)組合作為候選時(shí)序動(dòng)作提名。算法示意圖如下圖所示。
接下來(lái)要為每個(gè)候選時(shí)序動(dòng)作提名生成對(duì)應(yīng)的特征描述,我們稱其為Boundary-Sensitive Proposal (BSP) feature。對(duì)于每個(gè)提名,我們?nèi)∑浔旧淼臅r(shí)序區(qū)間作為center region,再取開(kāi)始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)附近的一段區(qū)間作為starting region 以及 ending region。對(duì)于每個(gè)區(qū)域,我們都在動(dòng)作概率序列上的對(duì)應(yīng)位置采樣N個(gè)點(diǎn),拼接后則得到一個(gè)非常簡(jiǎn)短的提名特征。BSP特征的構(gòu)成示意圖如下圖所示。
4. BSN - 提名評(píng)估模塊
生成候選時(shí)序動(dòng)作提名以及對(duì)應(yīng)的提名特征后,我們采用提名評(píng)估模塊-一個(gè)簡(jiǎn)單的MLP(多層感知機(jī))模型去對(duì)每個(gè)提名的置信度分?jǐn)?shù)進(jìn)行估計(jì)。置信度分?jǐn)?shù)越高,則說(shuō)明該時(shí)序提名與真值的重疊IoU應(yīng)當(dāng)越高。
5. 結(jié)果后處理
最后,我們需要對(duì)結(jié)果進(jìn)行非極大化抑制,從而去除重疊的結(jié)果。具體而言,我們采用了soft-nms算法來(lái)通過(guò)降低分?jǐn)?shù)的方式來(lái)抑制重疊的結(jié)果。處理后的結(jié)果即為BSN算法最終生成的時(shí)序動(dòng)作提名。
6. 時(shí)序動(dòng)作檢測(cè)
基于BSN所生成的時(shí)序動(dòng)作提名,要得到時(shí)序動(dòng)作檢測(cè)結(jié)果,我們還需要對(duì)提名進(jìn)行分類。我們此處采用了一種比較簡(jiǎn)單的方式,即直接采用動(dòng)作分類網(wǎng)絡(luò)所生成的video-level的動(dòng)作類別作為提名的動(dòng)作類別。
BSN模型改進(jìn)
為了在競(jìng)賽中獲得更好的效果,我們針對(duì)BSN算法嘗試了多種改進(jìn)技巧。對(duì)于時(shí)序動(dòng)作提名任務(wù),主要的改進(jìn)方式主要包括五點(diǎn),包括:
改進(jìn)A:將提名生成模塊中的概率閾值從0.9改為0.5*max_score, 其中max_score為該視頻中的最大概率。
改進(jìn)B:除了采用在ActivityNet數(shù)據(jù)集上預(yù)訓(xùn)練的TSN網(wǎng)絡(luò)提取特征,在競(jìng)賽中,我們還額外采用了在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的TSN和P3D網(wǎng)絡(luò)提取視頻特征。
改進(jìn)C:為了獲得更好的置信度分?jǐn)?shù),我們還與我們之前提出的SSAD[2]算法所生成的結(jié)果進(jìn)行了融合。
改進(jìn)D:在ActivityNet數(shù)據(jù)集上,為了方便,在初始的BSN中,我們會(huì)將所有視頻的特征序列縮放到一個(gè)給定長(zhǎng)度。在競(jìng)賽中,我們發(fā)現(xiàn)使用原始長(zhǎng)度預(yù)測(cè)結(jié)果會(huì)得到更好的效果。
改進(jìn)E:在進(jìn)一步的分析中,我們發(fā)現(xiàn)按照原始長(zhǎng)度預(yù)測(cè)結(jié)果主要是提高了對(duì)較短的時(shí)序片段的預(yù)測(cè)結(jié)果,但損害了較長(zhǎng)的時(shí)序片段的預(yù)測(cè)效果。因此,我們將按原始長(zhǎng)度預(yù)測(cè)的結(jié)果和按給定長(zhǎng)度預(yù)測(cè)的結(jié)果進(jìn)行了融合,獲得了更好的效果。
對(duì)于時(shí)序動(dòng)作檢測(cè)任務(wù),我們同樣也采用了上述的改進(jìn),但有兩點(diǎn)不同:
在時(shí)序動(dòng)作檢測(cè)中,我們采用定長(zhǎng)的特征序列預(yù)測(cè)結(jié)果
采用較為嚴(yán)格的Soft-NMS閾值
之所以對(duì)時(shí)序動(dòng)作提名和時(shí)序動(dòng)作定位采用略為不同的策略,主要是因?yàn)闀r(shí)序動(dòng)作檢測(cè)的結(jié)果主要依賴于靠前的幾個(gè)proposals,而現(xiàn)有的時(shí)序動(dòng)作提名的評(píng)估方式則更看重較多proposals時(shí)所能達(dá)到的recall。這也反映了現(xiàn)有的時(shí)序動(dòng)作提名評(píng)估方式還存在不合理之處。
實(shí)驗(yàn)結(jié)果
此處主要介紹我們?cè)诖舜胃?jìng)賽中所做的實(shí)驗(yàn),更多關(guān)于BSN算法的實(shí)驗(yàn)見(jiàn)[1].
時(shí)序動(dòng)作提名生成任務(wù)
時(shí)序動(dòng)作提名生成任務(wù)的實(shí)驗(yàn)結(jié)果如下表所示。可以看出,BSN方法比起之前的state-of-the-art方法有明顯的效果提升,此次競(jìng)賽中所實(shí)施的各項(xiàng)改進(jìn)又帶來(lái)了顯著的效果提升。最終,在該項(xiàng)目上我們獲得了亞軍。
時(shí)序動(dòng)作定位任務(wù)
時(shí)序動(dòng)作定位任務(wù)中的實(shí)驗(yàn)結(jié)果如下表所示。可以看出,BSN方法獲得了非常好的效果,競(jìng)賽中實(shí)施的改進(jìn)也非常有效。最終,在該項(xiàng)目上我們以較大的優(yōu)勢(shì)獲得了冠軍。
其他實(shí)驗(yàn)
為了驗(yàn)證BSN算法的有效性,在[1]中我們還做了很多對(duì)比實(shí)驗(yàn),證明了BSN算法的優(yōu)越效果來(lái)自于模型結(jié)構(gòu)本身。此外,我們還通過(guò)實(shí)驗(yàn)表明了BSN算法有著良好的泛化能力,能夠?yàn)橛?xùn)練時(shí)沒(méi)有見(jiàn)過(guò)的動(dòng)作類別生成高質(zhì)量的時(shí)序動(dòng)作提名。具體的實(shí)驗(yàn)結(jié)果和內(nèi)容詳見(jiàn)論文[1]。
總結(jié)
通過(guò)我們對(duì)時(shí)序動(dòng)作提名生成和時(shí)序動(dòng)作定位任務(wù)的研究,我們主要有以下幾點(diǎn)收獲:
1. 動(dòng)作提名的質(zhì)量對(duì)后續(xù)動(dòng)作定位的效果有很大的影響, 目前改進(jìn)動(dòng)作定位的重點(diǎn)在于提高提名集的質(zhì)量;
2. 提名集中最靠前的一小部分提名片段貢獻(xiàn)大部分的定位mAP;
3. 高質(zhì)量的時(shí)序動(dòng)作提名應(yīng)當(dāng)具備(1)靈活的時(shí)長(zhǎng)(2)準(zhǔn)確的邊界(3)可靠的置信度分?jǐn)?shù)。
在后續(xù)的工作中,我們計(jì)劃開(kāi)源BSN模型,供研究者使用。相關(guān)進(jìn)展會(huì)更新在 wzmsltw.github.io 上,希望大家繼續(xù)關(guān)注我們的工作。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7597瀏覽量
89108 -
時(shí)序
+關(guān)注
關(guān)注
5文章
392瀏覽量
37389 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46075
原文標(biāo)題:CVPR大規(guī)模行為識(shí)別競(jìng)賽連續(xù)兩年奪冠,上交大詳細(xì)技術(shù)分享
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論