相比圖像,視頻多了一維時(shí)序信息。如何利用好視頻中的時(shí)序信息是研究這類(lèi)方法的關(guān)鍵。視頻理解可以用于多個(gè)領(lǐng)域,例如在智能安防領(lǐng)域中可以取代人工來(lái)對(duì)監(jiān)控視頻進(jìn)行分析。本文簡(jiǎn)要回顧視頻理解方面的近年進(jìn)展,并對(duì)未來(lái)可能的研究方向作一展望。
常用數(shù)據(jù)集
視頻分類(lèi)主要有兩種數(shù)據(jù)集,剪輯過(guò)(trimmed)的視頻和未經(jīng)剪輯的視頻。剪輯的視頻中包含一段明確的動(dòng)作,時(shí)間較短標(biāo)記唯一,而未剪輯的視頻還包含了很多無(wú)用信息。如果直接對(duì)未剪輯的視頻進(jìn)行處理是未來(lái)的一大研究方向。
HMDB-51:6,766視頻,51類(lèi)。剪輯的視頻,每個(gè)視頻不超過(guò)10秒。內(nèi)容包括人面部、肢體、和物體交互的動(dòng)作等。
UCF-101:13,320視頻,101類(lèi),共27小時(shí)。剪輯的視頻,每個(gè)視頻不超過(guò)10秒。內(nèi)容包含化妝刷牙、爬行、理發(fā)、彈奏樂(lè)器、體育運(yùn)動(dòng)等。
Charades:9.848視頻(7,985訓(xùn)練,1,863測(cè)試),157類(lèi)。未剪輯的視頻,每個(gè)視頻大約30秒。每個(gè)視頻有多個(gè)標(biāo)記,以及每個(gè)動(dòng)作的開(kāi)始和結(jié)束時(shí)間。
Sports-1M:1,100,000視頻(70%訓(xùn)練、20%驗(yàn)證、10%測(cè)試),487類(lèi),內(nèi)容包含各種體育運(yùn)動(dòng)。
ActivityNet (v1.3):19,994視頻(10,024訓(xùn)練,4,926驗(yàn)證,5,044測(cè)試),200類(lèi),共700小時(shí)。內(nèi)容包括飲食、運(yùn)動(dòng)、家庭活動(dòng)等。
Kinetics:246k訓(xùn)練視頻,20k驗(yàn)證視頻,400類(lèi)。
G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.
相比圖像分類(lèi),視頻的類(lèi)別/動(dòng)作數(shù)目要少很多,而且常常有一定歧義,例如take和put要和后面名詞結(jié)合才會(huì)有具體含義(如take medication, take shoes, take off shoes)。Sigurdsson等人發(fā)現(xiàn)人類(lèi)對(duì)這些動(dòng)詞也容易感到混淆。另外,視頻中動(dòng)作開(kāi)始和結(jié)束的時(shí)間也不夠明確。
經(jīng)典方法
H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.
H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.
Wang等人提出DT和iDT方法。DT利用光流得到視頻中的運(yùn)動(dòng)軌跡,再沿著軌跡提取特征。iDT對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行了補(bǔ)償,同時(shí)由于人的運(yùn)動(dòng)比較顯著,iDT用額外的檢測(cè)器檢測(cè)人,以去除人對(duì)相鄰幀之間投影矩陣估計(jì)的影響。這是深度學(xué)習(xí)方法成熟之前效果最好的經(jīng)典方法,該方法的弊端是特征維度高(特征比原始視頻還要大)、速度慢。實(shí)踐中,早期的深度學(xué)習(xí)方法在和iDT結(jié)合之后仍能取得一定的效果提升,現(xiàn)在深度學(xué)習(xí)方法的性能已較iDT有大幅提升,因此iDT漸漸淡出視線(xiàn)。
逐幀處理融合
這類(lèi)方法把視頻看作一系列圖像的集合,每幀圖像單獨(dú)提取特征,再融合它們的深度特征。
A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.
Karpathy等人把視頻劃分成很多固定長(zhǎng)度的片段(clip),并設(shè)計(jì)了多種融合方法。
Single frame. 逐幀單獨(dú)前饋網(wǎng)絡(luò)。
Late fusion. 兩幀相距15幀的圖像分別前饋網(wǎng)絡(luò),并融合它們的深度卷積特征。
Early fusion. 連續(xù)10幀圖像前饋網(wǎng)絡(luò),因此網(wǎng)絡(luò)第一層的卷積核由11×11×3變?yōu)?1×11×3×10。Early fusion的思路最早由Le等人提出。
Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.
Slow fusion. 即使用3D卷積。連續(xù)10幀圖像前饋網(wǎng)絡(luò),第一層卷積核時(shí)間方向大小為4,第二、三層卷積核時(shí)間方向大小為2。
此外,為了加速訓(xùn)練,由于目標(biāo)通常位于圖像中心,Karpathy等人使用了一個(gè)兩分支網(wǎng)絡(luò):一個(gè)分支輸入空間大小下采樣減半的圖像,另一個(gè)分支輸入原圖中心裁剪后的圖像。這樣,總體的輸入圖像維數(shù)只有原圖的一半。這兩個(gè)分支的深度卷積特征拼接(concatenate)起來(lái)給全連接層進(jìn)行分類(lèi)。
實(shí)驗(yàn)發(fā)現(xiàn),3D卷積的融合效果最好,而不考慮運(yùn)動(dòng)信息的single frame策略已經(jīng)是十分強(qiáng)的baseline。Early fusion策略效果最差的原因可能是直接從輸入圖像上捕獲運(yùn)動(dòng)信息難度太大。
J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.
Ng等人先提取每一幀的深度卷積特征,再設(shè)計(jì)特征融合方法得到最終輸出。其中,紫色代表沿時(shí)間方向進(jìn)行最大匯合(max-pooling),黃色代表全連接層,綠色代表3*3*10,stride 5的3D卷積,紅色代表softmax輸出。相比Karpathy等人,Ng等人的輸入視頻片段的長(zhǎng)度更長(zhǎng)(每秒采樣1幀,一個(gè)片段由120幀構(gòu)成),包含了更多的時(shí)序信息。實(shí)踐中發(fā)現(xiàn)(a)的效果最好。
B. Fernando and S. Gould. Learning end-to-end video classification with rank-pooling. ICML'16.
在得到每幀圖像的深度卷積特征vt之后,F(xiàn)ernando和Gould通過(guò)解如下的優(yōu)化問(wèn)題來(lái)對(duì)特征進(jìn)行排序匯合(rank-pooling)。其動(dòng)機(jī)是靠前的幀要小一些,而靠后的幀大一些。
X.-S. Wei, et al. Deep bimodal regression of apparent personality traits from short video sequences. TAC'17.
由于相鄰幀信息冗余度很高,Wei等人從視頻(450幀)中采樣100幀,每幀交由DAN分別進(jìn)行預(yù)測(cè)。在得到relu5-2/pool5深度特征之后,DAN將其全局最大/平均匯合以得到深度特征。
A. Kar, et al. AdaScan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. CVPR'17.
由于不同幀的重要性不同,Kar等人提出AdaScan匯合方法。其逐幀提取特征,之后判斷不同幀的重要程度,并據(jù)此進(jìn)行特征匯合。
M. Zolfaghari, et al. ECO: Efficient Convolutional network for Online video understanding. arXiv:1804.09066.
Zolfaghari等人提出ECO。由于相鄰幀有信息冗余,ECO從視頻中采樣若干幀,每幀單獨(dú)用2D卷積提取特征,之后沿時(shí)間方向拼接特征,再用3D卷積捕獲它們的時(shí)序關(guān)系。ECO和state-of-the-art方法性能相似,但速度上快了10-80倍。在測(cè)試時(shí),為了捕獲長(zhǎng)距離依賴(lài),輸入視頻片段由已看過(guò)的和未看過(guò)的視頻中采樣得到。
ConvLSTM
這類(lèi)方法是用CNN提取每幀圖像的特征,之后用LSTM挖掘它們之間的時(shí)序關(guān)系。
J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.
J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR'15.
Ng等人在深度特征上,用5層隱層結(jié)點(diǎn)數(shù)512的LSTM來(lái)提取深度特征,每個(gè)時(shí)刻都進(jìn)行輸出。訓(xùn)練時(shí),一個(gè)片段從第1幀到最后一幀輸出層獲得的梯度分別乘以0.0-1.0的權(quán)重,用以強(qiáng)調(diào)后面幀的重要性。測(cè)試時(shí),計(jì)算這些幀輸出的加權(quán)和。Donahue等人也提出了類(lèi)似的工作。此外,Ng等人和Donahue等人還利用了光流輸入。把x、y兩個(gè)方向的光流縮放到[0, 255]作為光流圖像前兩個(gè)通道,把光流的大小作為第三個(gè)通道。
W. Du, et al. RPAN: An end-to-end recurrent pose-attention network for action recognition in videos. ICCV'17.
Du等人利用人體姿態(tài)估計(jì)輔助動(dòng)作識(shí)別。
3D卷積
把視頻劃分成很多固定長(zhǎng)度的片段(clip),相比2D卷積,3D卷積可以提取連續(xù)幀之間的運(yùn)動(dòng)信息。
在視頻動(dòng)作識(shí)別中最早提出3D卷積的是
M. Baccouche, et al. Sequential deep learning for human action recognition. HBU Workshop'11.
S. Ji, et al. 3D convolutional neural networks for human action recognition. TPAMI'13.
Baccouche等人使用第一層卷積核時(shí)間方向大小為5。Ji等人使用第一、二層卷積核時(shí)間方向大小為3,第三層卷積時(shí)由于時(shí)間維度大小很小,所以采用2D卷積。
此外,為使網(wǎng)絡(luò)獲得更多先驗(yàn)信息,Ji等人使用了兩個(gè)技巧:(1). 同時(shí)使用原始圖像、圖像梯度、和相鄰幀光流作為輸入。(2). 讓網(wǎng)絡(luò)額外地學(xué)習(xí)運(yùn)動(dòng)信息接近手工運(yùn)動(dòng)特征。
D. Tran, et al. Learning spatio-temporal features with 3D convolutional networks. ICCV'15.
Tran等人提出C3D,其將3×3卷積擴(kuò)展到3×3×3卷積,2×2匯合擴(kuò)展到2×2×2匯合。輸入片段16幀。實(shí)驗(yàn)中發(fā)現(xiàn),時(shí)域方向卷積核大小為3效果最好。相比2D CNN,3D CNN的參數(shù)量很大,訓(xùn)練變得更困難,且需要更多的訓(xùn)練數(shù)據(jù)。相比其他類(lèi)型的方法,C3D一次處理多幀,所以計(jì)算效率很高。
L. Sun, et al. Human action recognition using factorized spatio-temporal convolutional networks. ICCV'15.
Sun等人把3D卷積分解為空間方向2D卷積和時(shí)間方向1D卷積。
J. Carreira and A. Zisserman. Quo vadis, action recognition? A new model and the Kinetics dataset. CVPR'17.
Carreira和Zisserman提出I3D,把two-stream結(jié)構(gòu)中的2D卷積擴(kuò)展為3D卷積。由于時(shí)間維度不能縮減過(guò)快,前兩個(gè)匯合層的卷積核大小是1×2×2,最后的匯合層的卷積核大小是2*7*7。和之前文章不同的是,two-tream的兩個(gè)分支是單獨(dú)訓(xùn)練的,測(cè)試時(shí)融合它們的預(yù)測(cè)結(jié)果。
Z. Qiu, et al. Learning spatio-temporal representation with pseudo-3D residual networks. ICCV'17.
Qiu等人提出P3D,用一個(gè)1×3×3的空間方向卷積和一個(gè)3×1×1的時(shí)間方向卷積近似原3×3×3卷積。通過(guò)組合三種不同的模塊結(jié)構(gòu),進(jìn)而得到P3D ResNet。P3D ResNet在參數(shù)數(shù)量、運(yùn)行速度等方面對(duì)C3D作出了優(yōu)化。
D. Tran, et al. A closer look at spatio-temporal convolutions for action recognition. CVPR'18.
Tran等人提出ResNet (2+1)D,把一個(gè)3D卷積分解成為一個(gè)2D卷積空間卷積和一個(gè)1D時(shí)間卷積,注意這里的參數(shù)量和原3D卷積相同。相比P3D有三種形式,(2+1)D和P3D-A最接近。
C. Lea, et al. Temporal convolutional networks for action segmentation and detection. CVPR'17.
受WaveNet啟發(fā),Lea等人提出一個(gè)編碼-解碼網(wǎng)絡(luò),并使用空洞卷積和短路連接,以捕獲長(zhǎng)距離依賴(lài)。實(shí)驗(yàn)中發(fā)現(xiàn),這種結(jié)構(gòu)效果優(yōu)于RNN。
L. Wang, et al. Appearance-and-relation networks for video classfication. CVPR'18.
Wang等人希望利用3D卷積顯式地學(xué)習(xí)類(lèi)似two-stream的結(jié)構(gòu)。Wang等人通過(guò)不同幀之間的乘性關(guān)系度量不同幀之間的關(guān)系。
K. Hara, et al. Can spatio-temporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CVPR'18.
Hara等人嘗試了多種3D網(wǎng)絡(luò)結(jié)構(gòu)。
X. Wang, et al. Non-local neural networks. CVPR'18.
可以看作是3D卷積的一個(gè)擴(kuò)展。3D卷積的感受野是有限區(qū)域,而non-local旨在解決長(zhǎng)距離依賴(lài)問(wèn)題。Non-local的響應(yīng)是所有空間和時(shí)間位置特征的加權(quán)平均
其中,用于度量相似性,計(jì)算響應(yīng),用于歸一化。當(dāng)時(shí),non-local操作退化為全連接層;當(dāng)時(shí),non-local操作退化為self-attention。實(shí)驗(yàn)中發(fā)現(xiàn)non-local block加在底層比加在高層效果要好,加多個(gè)non-local blocks會(huì)有效果提升但不是很明顯。
這類(lèi)方法的弊端是只能考慮比較短的時(shí)間片段的運(yùn)動(dòng)信息,參數(shù)量?
Two-stream
K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS'14.
采用兩個(gè)分支。一個(gè)分支輸入單幀圖像,用于提取圖像信息,即在做圖像分類(lèi)。另一個(gè)分支輸入連續(xù)10幀的光流(optical flow)運(yùn)動(dòng)場(chǎng),用于提取幀之間的運(yùn)動(dòng)信息。由于一個(gè)視頻片段中的光流可能會(huì)沿某個(gè)特別方向位移的支配,所以在訓(xùn)練時(shí)光流減去所有光流向量的平均值。兩個(gè)分支網(wǎng)絡(luò)結(jié)構(gòu)相同,分別用softmax進(jìn)行預(yù)測(cè),最后用直接平均或SVM兩種方式融合兩分支結(jié)果。
此外,為了加速訓(xùn)練,Simonyan和Zisserman預(yù)先計(jì)算出光流并保存到硬盤(pán)中。為了減小存儲(chǔ)大小,他們將光流縮放到[0, 255]后用JPEG壓縮,這會(huì)使UCF101的光流數(shù)據(jù)大小由1.5TB減小到27GB。
L. Wang, et al. Action recognition with trajectory-pooled deep-convolutional descriptors. CVPR'15.
Wang等人結(jié)合了經(jīng)典iDT手工特征和two-stream深度特征,提出TDD。經(jīng)典手工特征計(jì)算時(shí)通常分兩步:檢測(cè)圖像中顯著和有信息量的區(qū)域,并在運(yùn)動(dòng)顯著的區(qū)域提取特征。TDD將預(yù)訓(xùn)練的two-stream網(wǎng)絡(luò)當(dāng)作固定的特征提取器。得到兩者特征之后,TDD使用時(shí)空規(guī)范化以保證每個(gè)通道的數(shù)值范圍近似一致,使用通道規(guī)范化以保證每個(gè)時(shí)空位置的描述向量的數(shù)值范圍近似一致,之后用trajectory pooling并用Fisher向量構(gòu)建TDD特征,最后用SVM分類(lèi)。
C. Feichtenhofer, et al. Convolutional two-stream network fusion for video action recognition. CVPR'16.
Feichtenhofer等人研究如何融合兩分支的深度卷積特征。他們發(fā)現(xiàn)級(jí)聯(lián)兩個(gè)特征到2D維再用1×1卷積到D維的融合方法效果最好,之后再經(jīng)過(guò)3D卷積和3D匯合后輸出。
C. Feichtenhofer, et al. Spatio-temporal residual networks for video action recognition. NIPS'16.
Feichtenhofer將ResNet作為two-stream的基礎(chǔ)網(wǎng)絡(luò)架構(gòu),用預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重初始化新的3D網(wǎng)絡(luò):w(d, t, i, j)=w(d, i, j)/T。此外,有從光流分支到圖像分支的信息傳遞。此外,網(wǎng)絡(luò)輸入不是連續(xù)的,而是步長(zhǎng)5到15幀。
L. Wang, et al. Temporal segment networks: Towards good practices for deep action recognition. ECCV'16.
由于相鄰的幀信息冗余度很高,對(duì)視頻密采樣是不必要的。Wang等人提出TSN結(jié)構(gòu),其對(duì)視頻進(jìn)行稀疏采樣,在避免冗余信息的同時(shí)可以處理長(zhǎng)距離依賴(lài)。TSN把輸入視頻分成K段,每段隨機(jī)選擇一個(gè)視頻片段(snippet),之后用two-stream結(jié)構(gòu)提取特征再融合。TSN取得了ActivityNet 2016年競(jìng)賽的冠軍。
此外,除RGB和光流圖像輸入外,TSN還嘗試了RGB difference和warped光流兩種輸入,最終發(fā)現(xiàn)RGB+光流+扭曲(warped)光流的效果最好。
Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.
由于不是視頻中每幀都包含有用信息,Lan等人首先用TSN提取局部特征,之后再進(jìn)行聚合。
R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.
類(lèi)似于NetVLAD,Girdhar等人用two-stream提取特征,之后用VLAD得到視頻的表示。實(shí)驗(yàn)中發(fā)現(xiàn),圖像和光流兩個(gè)分支單獨(dú)處理效果最好。
C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.
Feichtenhofer等人發(fā)現(xiàn),two-stream網(wǎng)絡(luò)在外觀(guān)分支容易過(guò)擬合。Feichtenhofer等人加入了兩個(gè)分支之間的信息交互,并發(fā)現(xiàn)乘性的信息交互效果最好。
G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.
Sigurdsson等人利用全連接時(shí)序CRF對(duì)視頻的時(shí)序關(guān)系進(jìn)行推斷。
W. Zhu, et al. A key volume mining deep framework for action recognition. CVPR'16.
一段視頻中并非所有的幀都對(duì)識(shí)別任務(wù)同等重要,如果把它們同等看待,有價(jià)值的幀信息會(huì)淹沒(méi)在其他無(wú)關(guān)的幀中。借助多示例學(xué)習(xí)思路,Zhu等人交替優(yōu)化關(guān)鍵幀挖掘和分類(lèi)兩個(gè)目標(biāo)。網(wǎng)絡(luò)輸入N個(gè)視頻片段,輸出每個(gè)片段對(duì)應(yīng)每個(gè)類(lèi)別的分?jǐn)?shù)。如果該類(lèi)別對(duì)應(yīng)真實(shí)標(biāo)記,采用隨機(jī)匯合,否則是maxout匯合,其中響應(yīng)最強(qiáng)的視頻片段即為得到的關(guān)鍵幀。
Y. Wang, et al. Spatio-temporal pyramid network for video action recognition. CVPR'16.
Wang等人利用雙線(xiàn)性匯合融合兩個(gè)分支的特征。
A. Diba, et al. Deep temporal linear encoding networks. CVPR'17.
Diba等人對(duì)不同幀/片段的深度卷積特征逐元素相乘,再通過(guò)精簡(jiǎn)雙線(xiàn)性匯合得到最終的特征表示。
R. Girdhar and D. Ramanan. Attentional pooling for action recognition. NIPS'17.
將雙線(xiàn)性匯合用于TSN的圖像分支。在得到深度卷積特征之后,經(jīng)典雙線(xiàn)性匯合會(huì)計(jì)算輸入屬于第k個(gè)類(lèi)的分?jǐn)?shù)。Girdhar和Ramanan對(duì)參數(shù)矩陣做了一個(gè)秩-1近似
實(shí)驗(yàn)中, Girdhar和Ramanan將224大小的HMDB-51縮放到450大小,以確保最后的深度卷積特征大小不會(huì)太小(14×14)。當(dāng)特征大小太小時(shí),效果不顯著。另一方面,Girdhar和Ramanan只用了圖像分支來(lái)處理視頻,總體性能和state-of-the-art還有很大差距。
I. C. Duta, et al. Spatio-temporal vector of locally max-pooled features for action recognition in videos. CVPR'17.
Duta等人研究如何聚合不同特征。
P. Weinzaepfel, et al. DeepFlow: Large displacement optical flow with deep matching. ICCV'13.
Dosovitskiy, et al. FlowNet: Learning optical flow with convolutional networks. ICCV'15.
E. Ilg, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks. CVPR'17.
由于經(jīng)典光流算法很慢,因此有工作致力于使用深度神經(jīng)網(wǎng)絡(luò)計(jì)算光流。DeepFlow在不同粒度上進(jìn)行聚合和匹配,F(xiàn)lowNet基于類(lèi)似于視覺(jué)跟蹤的思路使用互相關(guān)濾波綜合兩張圖的深度特征最終生成光流。由于標(biāo)記數(shù)據(jù)不足,F(xiàn)lowNet使用人工合成Chairs數(shù)據(jù)集進(jìn)行訓(xùn)練。FlowNet 2.0的貢獻(xiàn)有三點(diǎn)。(1). 發(fā)現(xiàn)如何進(jìn)行訓(xùn)練對(duì)結(jié)果影響至關(guān)重要,先在簡(jiǎn)單的Chairs數(shù)據(jù)集上訓(xùn)練、再在更真實(shí)的Things3D上訓(xùn)練會(huì)比混合兩個(gè)數(shù)據(jù)集一起訓(xùn)練效果更好。(2). 多個(gè)子網(wǎng)絡(luò)堆疊,并用中間光流結(jié)果對(duì)圖像進(jìn)行扭曲輸入中間子網(wǎng)絡(luò)。(3). 有一個(gè)子網(wǎng)絡(luò)專(zhuān)注于微小運(yùn)動(dòng)。
其他視頻理解任務(wù)
時(shí)序動(dòng)作定位(temporal action localization)在一段未剪輯的視頻中找到動(dòng)作開(kāi)始和結(jié)束的時(shí)間,并對(duì)動(dòng)作進(jìn)行分類(lèi)。
Z. Shou, et al. Temporal action localization in untrimmed videos via multi-stage CNNs. CVPR'16.
Shou等人提出SCNN,用不同大小的滑動(dòng)窗產(chǎn)生視頻片段,之后用3D候選區(qū)域網(wǎng)絡(luò)判斷該視頻片段是前景/背景,用3D分類(lèi)網(wǎng)絡(luò)判斷K+1個(gè)類(lèi)別的分?jǐn)?shù)(包括背景),最后用定位網(wǎng)絡(luò)判斷開(kāi)始/結(jié)束時(shí)間。后處理使用非最大抑制(NMS)。
J. Gao, et al. TURN TAP: Temporal unit regression network for temporal action proposals. ICCV'17.
思路類(lèi)似于Faster R-CNN。
H. Xu, et al. R-C3D: Region convolutional 3D network for temporal activity detection. ICCV'17.
以C3D網(wǎng)絡(luò)為基礎(chǔ),借鑒Faster R-CNN,對(duì)輸入視頻片段先提取特征,再生成提取候選時(shí)序,最后RoI匯合后進(jìn)行檢測(cè)。
Z. Shou, et al. CDC: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR'17.
類(lèi)似于語(yǔ)義分割問(wèn)題的思路,為了得到對(duì)應(yīng)于每一幀的分類(lèi)預(yù)測(cè)分?jǐn)?shù),Shou等人在3D卷積層之后提出CDC卷積,在空間方向用卷積進(jìn)行下采樣,在時(shí)間方向上用轉(zhuǎn)置卷積進(jìn)行上采樣。
L. Wang, et al. UntrimmedNets for weakly supervised action recognition and detection. CVPR'17.
分類(lèi)模塊用于對(duì)每個(gè)視頻片段進(jìn)行分類(lèi),而選擇模塊用于給出不同視頻片段的重要性。選擇模塊的實(shí)現(xiàn)包括hard selection和soft selection。訓(xùn)練時(shí)端到端聯(lián)合優(yōu)化。
Y. Zhao, et al. Temporal action detection with structured segment networks. ICCV'17.
Zhao等人提出SSN,講視頻分為三個(gè)部分,最終構(gòu)成全局特征。分類(lèi)時(shí)有動(dòng)作性分類(lèi)器和完整性分類(lèi)器。
異常檢測(cè)(anomaly detection)通常用于判斷監(jiān)控視頻中出現(xiàn)的異常事件。
W. Sultani, et al. Real-world anomaly detection in surveillance videos. CVPR'18.
由于訓(xùn)練時(shí)只知道一段視頻中有/沒(méi)有異常,而異常事件的種類(lèi)和發(fā)生時(shí)刻未知,Sultani等人利用多示例學(xué)習(xí),將異常檢測(cè)問(wèn)題轉(zhuǎn)化為一個(gè)回歸排序問(wèn)題,讓異常樣本的排序值高于普通樣本,訓(xùn)練時(shí)讓正負(fù)樣本之間的距離盡可能遠(yuǎn)。
視頻摘要與視頻濃縮(video summarization and video synopsis)視頻摘要是從原始視頻中提取有代表性的關(guān)鍵幀,而視頻濃縮將多幀視頻合并成一幀。
M. Gygli, et al. Creating summaries from user videos. ECCV'14.
X. Li, et al. Surveillance video synopsis via scaling down objects. TIP'16.
“看視頻說(shuō)話(huà)”(video captioning)基本思路和看圖說(shuō)話(huà)一致,用編碼網(wǎng)絡(luò)提取視頻信息,用解碼網(wǎng)絡(luò)生成文字描述。
S. Venugopalan, et al. Sequence to Sequence–Video to Text. ICCV'15.
第一視角視頻(first-person video)研究第一視角視頻可以用于自動(dòng)駕駛、機(jī)器人導(dǎo)航等。
T. Yagi, et al. Future person localization in first-person videos. CVPR'18.
Yagi等人提出行人位置預(yù)測(cè)任務(wù),即根據(jù)行人歷史信息,預(yù)測(cè)下一幀行人的位置。Yagi等人用1D時(shí)域卷積來(lái)融合不同幀的特征。
視頻生成(next frame generation)有工作利用生成式模型對(duì)視頻進(jìn)行生成。
M. Mathieu, et al. Deep multi-scale video prediction beyond mean square error. ICLR'16.
C. Vondrick, et al. Generating videos with scene dynamics. NIPS'16.
目標(biāo)跟蹤(object tracking)給定視頻第一幀中目標(biāo)的位置(以包圍盒的形式),我們需要預(yù)測(cè)其他幀中該目標(biāo)的包圍盒。目標(biāo)跟蹤類(lèi)似于目標(biāo)檢測(cè),但目標(biāo)跟蹤的難點(diǎn)在于事先不知道要跟蹤的目標(biāo)具體是什么,因此無(wú)法事先收集足夠的訓(xùn)練數(shù)據(jù)以訓(xùn)練一個(gè)專(zhuān)門(mén)的檢測(cè)器。一種研究思路是利用孿生網(wǎng)絡(luò),一支輸入第一幀包圍盒內(nèi)圖像,另一支輸入其他幀的候選圖像區(qū)域,通過(guò)互相關(guān)操作(卷積),得到二維的響應(yīng)圖,其中最大響應(yīng)位置確定了需要預(yù)測(cè)的包圍盒位置。
L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV'16 Workshop.
M. Danelljan, et al. ECO: Efficient Convolution Operators for tracking. CVPR'17.
E. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR'17.
可能的未來(lái)方向
利用多示例學(xué)習(xí)進(jìn)行視頻分析。未剪輯視頻中有很多無(wú)關(guān)內(nèi)容,并非視頻中所有的幀都對(duì)應(yīng)于該視頻標(biāo)記,這符號(hào)多示例學(xué)習(xí)的設(shè)定。雖然Zhu等人在CVPR'16和Kar等人在CVPR'17的工作中對(duì)這方面已有一些探索,但仍有后續(xù)精進(jìn)的空間。
精度與效率。Two-stream和3D卷積的方法相比,大致來(lái)說(shuō)前者的效果更好,但前者需要逐幀圖像前饋網(wǎng)絡(luò),而后者一次可以處理多幀,因此前者效率不如后者,尤其是預(yù)先計(jì)算并保存光流是一個(gè)很繁重的負(fù)擔(dān)。如何能同時(shí)利用兩者的優(yōu)點(diǎn)是未來(lái)一個(gè)可能的研究方向,F(xiàn)eichtenhofer等人在CVPR'16已有初步的工作。LSTM能捕獲的長(zhǎng)距離依賴(lài)程度有限,并且更難訓(xùn)練,速度也更慢,因此ConvLSTM的方法在視頻分析中用的不多。
資源受限下的視頻分析。相比圖像數(shù)據(jù),處理視頻數(shù)據(jù)需要更大的計(jì)算和存儲(chǔ)資源。現(xiàn)實(shí)應(yīng)用中很多是資源受限的,如何在這種場(chǎng)景下進(jìn)行視頻分析是一大挑戰(zhàn)。將視頻解壓為能輸入網(wǎng)絡(luò)的一幀幀圖像也需要不小的資源開(kāi)銷(xiāo),Wu等人在CVPR'18提出直接利用原始視頻輸入,并利用視頻壓縮編碼中的運(yùn)動(dòng)信息。
更大、更通用數(shù)據(jù)集。哪種方法更好和用什么數(shù)據(jù)集(解決什么任務(wù))有很大關(guān)系。如果視頻本身就比較靜止,或者單幀圖像已經(jīng)包含了足夠的信息,那么用逐幀單獨(dú)處理的策略已經(jīng)可以取得很好的結(jié)果。
視頻=圖像+音頻。視頻是一種多模態(tài)的數(shù)據(jù)形式,能否利用音頻信息輔助視頻分析呢。Aytar等人在NIPS'16的工作中利用圖像輔助音頻分析。
Y. Aytar, et al. SoundNet: Learning sound representations from unlabeled video. NIPS'16.
最后列出一些相關(guān)的綜述文章。其中Tran等人實(shí)驗(yàn)研究了不同采樣步長(zhǎng)、不同輸入大小、不同網(wǎng)絡(luò)配置等對(duì)性能的影響。
Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782.
D. Tran, et al. ConvNet architecture search for spatio-temporal feature learning. arXiv: 1708:05038.
M. Asadi-Aghbolaghi, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences. FG'17.
S. Herath, et al. Going deeper into action recognition: A survey. IVC'17.
-
視頻
+關(guān)注
關(guān)注
6文章
1956瀏覽量
73064 -
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40535 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121410
原文標(biāo)題:【干貨】計(jì)算機(jī)視覺(jué)視頻理解領(lǐng)域的經(jīng)典方法和最新成果
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論