Abstract 主動學習試圖通過標記最少量的樣本使得模型的性能收益最大化。而深度學習則對數據比較貪婪,需要大量的數據供給來優化海量的參數,從而使得模型學會如何提取高質量的特征。近年來,由于互聯網技術的快速發展,使得我們處在一個信息洪流的時代,我們擁有海量的未標記數據。借此,深度學習引起了研究人員的強烈興趣,并且得到了快速的發展。
和深度學習相比,研究人員對于主動學習的研究興趣相對較低。這主要是由于在深度學習興起之前,傳統的機器學習所需要的標注樣本相對較少。因此,早期的主動學習很難體現出應有的價值。盡管深度學習已經在各個領域取得了突破性進展,但是這絕大部分的成功都要歸功于現有的大量標注數據集的公開。然而,大量高質量的標注數據集的獲取需要消耗大量的人力,在一些需要很高專業知識的領域這是不被允許的,尤其是在語音識別、信息提取、醫學圖像等領域。因此,主動學習逐漸受到了應有的重視。 一種很自然的想法是能否使用主動學習來減少樣本標注的成本,同時保留深度學習強大的學習能力。因此,深度主動學習出現了。盡管相關的研究已經相當的豐富,但是缺乏一個對深度主動學習全面的survey。本文正是要填補這項空白,我們為現有的工作提供了一個形式上統一的分類方法,并進行一個全面系統的概述。此外,我們還從應用的角度對DAL的發展進行了分析和總結。最后,我們對DAL中存在的困惑、問題進行了討論,并給出了一些DAL可能的發展方向。
Introduction 在機器學習社區中深度學習和主動學習都有著重要的應用。他們憑借著各自優異的特性吸引了大量研究人員的興趣。具體來說,DL已經在各種具有挑戰性的任務上取得了前所未有的突破,但這很大程度上歸功于海量標注數據集的公開。因此,DL在一些需要豐富知識的專業領域受限于高昂的樣本標注代價。另一方面,從理論上講,有效的AL算法可以實現在標注工作效率方面的指數級加速。這種巨大的標注代價節省潛力令人著迷。此外,經典的AL算法也存在難以處理高維數據的困境。
因此,這種明顯互補的優勢使得DL與AL的結合DAL被研究人員給予厚望。深度主動學習已經被廣泛的應用在了各個領域,例如圖像識別,目標檢測等。盡管相關的工作已經相當的豐富,但是深度主動學習仍然缺乏一個統一的分類框架。為了填補這項空白,在本文中我們將對現有的深度主動學習的相關工作做一個全面的概述,并提供一個形式化的分類方法。接下來,我們將首先簡要的回顧深度學習與主動學習在各自領域中的發展現狀。然后,在Section 3中進一步給出DL與AL結合必要性和所面臨的挑戰。
(a)基于池的主動學習周期:使用查詢策略在無標記池中查詢樣本交給 oracle 進行標注,然后將查詢的樣本添加到標記訓練數據集中并訓練,接著使用新學習的知識進行下一輪查詢。重復這個過程,直到標注預算被耗盡或者達到預先設定的終止條件。
(b)一個常見的深度學習 model:卷積神經網絡
(c)深度主動學習的典型例子: 深度學習 model 的參數θ在初始化標簽訓練集上進行初始化或者預訓練,無標記池的樣本通過深度學習 model 提取特征。然后基于相應的查詢策略挑選樣本,并在 oracle 中查詢標簽,形成新的標簽訓練集,接著在上訓練深度學習 model,同時更新。重復這個過程,直到標注預算被耗盡或者達到預先設定的終止條件。
Deep Learning 深度學習試圖通過模擬人類大腦的結構來構建相應的model。1943年,A提出的McCulloch-Pitts (MCP) model被認為是現代深度學習的開端。隨后,1986年B將反向傳播引入到神經網絡的優化中,這為深度學習后來的蓬勃發展奠定了基礎。同年,遞歸神經網絡被提出。1990年,LeNet網絡出現,它是最早使用深度神經網絡(DNN)的工作之一。然而,早期的這些開創性工作受限于當時的計算資源并未得到應有的廣泛的重視與應用。2006年,深度信念網絡(DBNs)被提出,并以此探究了比以往更深的網絡,這促使將神經網絡被命名為深度學習。
在2012年,在ImageNet大賽上,深度學習模型AlexNet一舉奪冠。它使用ReLU激活函數有效的抑制了梯度消失的問題,同時使用多GPU極大的提高了模型的訓練速度。隨后,深度學習開始在各個大賽中斬獲冠軍并且在各種任務中不斷刷新著記錄。從自動化的角度來看,深度學習的出現使得原本機器學習中特征的手動設計轉變為自動提取。正是由于深度學習強大的自動特征提取能力才使得它在眾多的領域表現出前所未有的優勢。深度學習經過數十年的發展,相關的研究工作已經相當的豐富。在Fig.1a,我們顯示了一個標準的深度學習模型示例:卷積神經網絡。以此為基礎類似的卷積神經網絡被應用于各種圖像處理任務。此外被廣泛應用的還有循環神經網絡、生產對抗性網絡等。從2017年開始,深度學習從最初的特征提取自動化逐漸轉變為模型架構設計的自動化。但是,這還需要很長的一段路要走。
得益于現有的大量標注數據集的公開, 近年來,深度學習在機器翻譯,語音識別,圖像分類等各個領域中都取得了突破性進展。然而,這是以大量人工標注數據集為代價的,并且深度學習對數據有著很強的貪婪屬性。在現實世界中,大量未標注的數據集的獲取是相對較為簡單的,但是數據集的人工標注面臨著高昂的代價。尤其是那些需要很高專業知識的領域,例如對COVID-19患者的肺部病變圖像的標注以及描述工作就需要經驗豐富的臨床醫生才能完成,顯然要求他們完成大量醫學圖像標注工作是不可能的。類似的領域還包括語音識別、信息提取,衛星遙感等領域。因此,我們急需一種方法可以在注釋少量樣本的情況下使得模型獲得最大的性能增益。
Active Learning 主動學習正是這樣一種方法,它試圖從未標記數據集中選擇最有用的樣本交給 oracle進行標注,從而在保持性能的情況下盡可能降低標注成本。主動學習從應用場景上來可以劃分為membership query synthesis,stream-based selective sampling和pool-based active learning. Membership query synthesis是指學習者可以請求查詢輸入空間中任何未標記樣本的標簽,包括學習者生成的樣本。而stream-based selective sampling和pool-based的區別主要在于前者是對數據流中的每個樣本獨立作出判斷是否需要查詢未標記樣本的標簽,而后者則可以基于對整個數據集的評估和排名來選擇最佳查詢樣本。相比之下,pool-based的場景似乎在論文應用中更加常見,但很顯然stream-based selective sampling的應用場景則更適合于要求時效性的小型的移動終端設備。在fig.1(a)中,我們展示了基于池的主動學習周期的框架圖。初始狀態下,我們可以從未標記池中隨機挑選一個或多個樣本并交給oracle查詢標簽得到標注數據集,然后在上以監督學習的方式訓練model。接著,利用新知識選擇下一個要查詢的樣本,并將新查詢的樣本添加到中并訓練。重復這個過程,直到標注預算被耗盡或者達到預先設定的終止條件。
與深度學習通過使用手工或者自動的方法千方百計的設計具有高性能特征提取能力的模型不同。主動學習則從數據集入手,主要通過設計精妙的查詢規則從未標記的數據集中選擇最佳的樣本并查詢其標簽,試圖盡可能的降低標注代價。因此,查詢規則的設計對主動學習的性能是至關重要的。相關的研究也相當的豐富,例如,在給定的一組未標記數據集中,主要的查詢策略有基于不確定性的方法,基于多樣性的方法和預期的模型更改。除此之外,還有很多的工作研究了混合查詢策略,同時考慮查詢樣本的不確定性和多樣性,并試圖在這兩種策略中找到平衡點。因為單獨的基于不確定性的采樣往往會造成采樣偏差:即當前選擇的樣本在未標記數據集的分布中不具有代表性。
另一方面,僅考慮多樣性策略則可能會導致標記成本增加:即可能有相當一部分信息量較低的樣本會被選擇。更多經典的查詢策略可以在A中進行查詢。雖然AL相關的研究已經相當豐富,但AL仍然面臨著向高維數據(例如,圖像、文本、視頻等)拓展的難題,因此大多數主動學習的工作都主要集中在低維問題上。此外,AL往往基于事先提取好的特征來查詢高價值的樣本,其本身并不具有特征提取的能力。
The necessity and challenge of combining DL and AL DL在高維數據處理以及自動特征提取方面有著強大的學習能力,AL在有效降低標注成本方面也有著巨大的潛力。因此,一種顯而易見的想法是將DL與AL進行結合,這將極大的拓展它們的應用潛力。DAL正是考慮結合二者優勢互補的特性而被提出的,相關的研究也被研究人員寄予厚望。盡管AL關于查詢策略的研究已經相當豐富,但是想要直接將這種策略應用到深度學習中仍然是相當困難的。這主要是由于:
標簽樣本的數據不足。主動學習往往只依賴于少量的標記樣本數據就可以實現學習和更新模型,而 DL 往往對數據有很強的貪婪性,經典 AL 方法所提供的標記訓練樣本不足以支持傳統 DL 的訓練。此外,在主動學習中常用的 one by one 樣本查詢方式在深度學習中也是不適用的。
模型不確定性問題。基于不確定性的查詢策略是主動學習的一個重要方向。在分類任務當中,盡管深度學習可以使用 softmax layer 來獲得標簽上的概率分布,然而事實表明它們過于自信。最終輸出的 softmax 分數作為置信度度量方法是不可靠的,這種方法的性能甚至會比隨機采樣的效果更差。
處理管道不一致。AL 和 DL 的處理管道是不一致的。大多數 AL 算法主要關注于分類器的訓練,各種查詢策略的很大程度上都是基于固定的特征表示。而在 DL 中,特征學習和分類器的訓練是共同優化的。僅在 AL 框架中對 DL 模型進行微調或者將它們視作兩個獨立的問題可能會引起分歧問題。
針對第一個問題,研究者考慮使用生成網絡來進行數據增強或者為高置信度樣本分配偽標簽等方式來擴充標記訓練集。也有研究者考慮在跨AL周期上同時使用標記數據和未標記數據集進行監督訓練與半監督訓練的結合。此外,基于啟發式的AL查詢策略已經被證明在應用于CNN時是無效的。
因此,針對經典AL中one-by-one的查詢策略,許多研究者聚焦于batch樣本的查詢策略的改進, 在批量的樣本中同時考慮樣本的信息量以及多樣性。 為了解決深度學習對模型不確定性的忽視,一些研究者借助貝葉斯深度學習來處理主動學習語境下高維但查詢數量較少的mini-batch樣本,從而有效的緩解了DL模型對輸出結果過于自信的問題。 對于處理管道不一致的問題,研究者考慮修改AL和DL的結合框架,使提出的DAL模型盡可能通用,方便可以拓展到各個應用領域。這對DAL的推廣有著重要的意義。例如,A將主動學習的思想嵌入深度學習提出了一個與任務無關的架構設計。 我們將在下一節中集中對deep active learning中使用到的各種策略進行詳細的討論和總結。
Deep Active Learning 在本節中,我們將對DAL的相關工作進行全面系統的概述。Fig.1c顯示了一個典型的深度主動學習的模型架構示例。深度主動學習的典型例子: 深度學習model的參數在初始化標簽訓練集上進行初始化或者預訓練,無標記池的樣本通過深度學習model提取特征。然后基于相應的查詢策略挑選樣本,并在oracle中查詢標簽,形成新的標簽訓練集,接著在上訓練深度學習model,同時更新。 重復這個過程,直到標注預算被耗盡或者達到預先設定的終止條件。從Fig.1c中的DAL框架示例中我們可以粗略的將DAL的框架分成兩大部分:在未標注數據集上的主動學習查詢策略以及deep learning model的訓練方法。為此,我們將在接下來的3.1和3.2中分別對他們進行討論和總結。最后,我們將在3.3中討論deep active learning 在模型的泛化通用性上所做的努力。
Query Policy Optimization in DAL 在基于池的方法中,我們定義為有個樣本的未標記數據集,其中,為樣本空間,為標簽空間(最初是未知的),為一個潛在的分布,其中。為有個樣本的當前標記訓練集。在DAL的標準監督環境下的,我們的主要目標是設計一個查詢策略,,使用深度模型,監督環境下的DAL的優化問題可以被表述為 其中為給定的損失方程,并且期待。我們的目標是在保證一定精度的前提下,使得盡可能的小。因此,在DAL中查詢策略對標注代價的減少是至關重要的。
Batch Mode Deep Active Learning (BMDAL)
DAL與經典AL的主要區別在于DAL采用的是基于batch的樣本查詢方式。在傳統的AL中大部分算法采用 one by one 的方式進行查詢,這導致學習模型被頻繁訓練,而訓練數據卻幾乎沒有變化。這種查詢方式得到的訓練集在DL模型的訓練中不僅低效且極易引起過擬合。 因此,BMDAL的研究是必要的。在BMDAL的語境中,在每一個獲取步驟,我們依據所使用的獲取函數以及在上訓練過的深度模型對候選的未標記數據樣本的batch進行評分, 從而選擇一批新的數據樣本$mathcal{B}^={x_1^,x_2^,。..,x_b^}$,這個問題可以被表述為: 一個天真的想法是基于one-by-one的策略,連續查詢一個批次的樣本。例如,A采用批量獲取的方法,選擇查詢BALD獲取分數最高的前個樣本。顯然,這種方法是不可行的,因為這極有可能選擇一組信息豐富但卻相似的樣本。類似的樣本為模型提供的信息基本上是相同的,這不僅浪費標注資源,模型也很難真正學到有用的信息。因此,BMDAL的核心在于查詢一組信息豐富且多樣的樣本。Fig.2展示了這種想法的一個示意圖。 基于batch查詢策略構成了AL與DL相結合的基礎,相關的研究也非常的豐富。我們將在下面幾個小節中對BMDAL上的查詢策略進行詳細的概述與討論。
Uncertainty and hybrid query strategy 由于基于不確定性的方法形式簡單且較低的計算復雜度,它是AL中是非常受歡迎的一種查詢策略。這種查詢策略主要用在一些淺層的模型(如,SVM或KNN)當中,這主要是由于這種模型的不確定性可以通過傳統的不確定性采樣方法(Margin Sampling, Least Confidence and Entropy )進行準確測量。 有很多DAL方法直接采用了這種基于不確定性的采樣策略,但是,正如3.1.1所分析的那樣這很容易導致批查詢樣本的多樣性不足(沒有充分利用數據分布的相關知識),進而導致DL模型訓練性能低下甚至失效。一種可行的策略是在一個批查詢中采用混合查詢策略,以顯式或者隱式的方式同時考慮樣本的信息量、多樣性或者表示形式。
早期的Batch Mode Active Learning (BMAL)算法性能往往過于依賴樣本之間相似性的度量。此外,這些算法往往僅善于利用(學習者傾向于僅關注當前決策邊界附近的樣本,對應于高信息量的查詢策略),導致查詢到的批量樣本集中的樣本無法代表特征空間的真實數據分布(批量樣本集的多樣性不足)。基于這個觀察,A使用深度神經網絡來學習樣本的特征表示,并顯式的計算樣本之間的相似性。同時平衡利用和探索(在模型訓練初期學習者采用隨機采樣的策略來進行探索)進程,從而更為準確的測量樣本之間的相似度。 另一方面, DBAL通過將信息量以權重的方式添加到K-means的優化目標中,深入研究了在mini-batch的樣本查詢設置下同時考慮樣本信息量與多樣性的混合查詢策略。DBAL可以方便的完成從廣義線性模型到DL的拓展,不僅增加了DBAL的可拓展性且增加了小批量主動查詢樣本的多樣性。
這種混合查詢策略是相當流行的,例如,WI-DL 主要考慮深度信念網絡(DBN)的兩個階段,在無監督特征學習階段主要考慮數據的代表性,而在監督微調階段來兼顧數據的不確定性,然后將兩個指標進行整合,最后使用提出的weighted incremental dictionary learning (WI-DL)算法進行優化。 盡管上述改進已經取得了不錯的性能,但是仍然存在一個待解的隱患。事實上,基于多樣性的策略并非對于任何數據集都是合適的。數據集的類別內容越豐富批處理的大小越大,基于多樣性的方法效果就越好。反之,使用基于不確定性的查詢策略表現效果則相對更好。這些特性取決于數據集的統計特性,而在BMAL中數據往往是不熟悉的且可能是無組織的。因此,無法知道具體哪種AL查詢策略更加合適。基于此,Batch Active learning by Diverse Gradient Embeddings (BADGE)對在幻覺梯度空間中表示時不同且大小的點組進行采樣,從而在一個批次中同時考慮模型的預測不確定性和樣本的多樣性。
最重要的是,BADGE可以實現在預測不確定性和樣本多樣性之間的自動平衡,而不需要手動的超參數調整。不同于BADGE以一種隱式的方式來考慮這種混合查詢策略,Wasserstein Adversarial Active Learning (WAAL) 提出了一種在不確定性和多樣性之間顯式的折中的混合查詢策略。此外,WAAL通過采用Wasserstein距離,將AL中的交互過程建模為分布匹配,并從中得出損失,進而將WAAL分解為兩個階段:DNN參數優化與查詢批次選擇。 TA-VAAL(2020)也探索這種混合查詢策略的平衡。TA-VAAL認為基于不確定性的方法沒有很好的利用整體的數據分布,而基于數據分布的方法往往忽視了任務中的結構。因此,TA-VAAL提出將損失預測模塊和RankCGAN概念整合到變分對抗主動學習(VAAL)中,以便同時考慮數據分布和模型的不確定性。TA-VAAL在各種平衡和不平衡的基準數據集上都取得了很好的性能。TA-VAAL與VAAL的結構圖被展示在fig6. 實際上,盡管混合查詢策略表現出更為優異的性能。但相比之下由于基于不確定性的AL查詢策略與DL的softmax層的輸出結合更為方便,因此,基于不確定性的查詢策略仍然被廣泛使用。
Deep Bayesian Active Learning (DBAL)
正如2.3中的DL與AL相結合的挑戰分析所述,基于不確定性的采集功能是許多經典的AL算法一個重要研究方向,而傳統的DL方法很少代表這種模型不確定性。
為此,Deep Bayesian Active Learning 出現了。在給定的輸入集合和屬于 類的輸出,概率神經網絡模型可以被定義為。是在參數空間 (通常是高斯)上的先驗 ,并且似然通常由給出。我們的目標是獲得在 上的后驗分布: 對于給定的新的數據點, 通過以下方式進行預測: DBAL將貝葉斯卷積神經網絡同AL方法進行結合,使BALD適應了深度學習環境,從而為高維數據開發了一個新的AL框架。它正是采用上述方法首先對CNN權重將進行了高斯先驗建模,然后使用變分推斷來獲得網絡預測的后驗分布。此外,在實踐當中,研究人員往往也使用一種功能強大成本低廉的Monte隨機正則化技術來獲得后驗樣本,并在真實數據集上有著很好的表現。并且,這種正則化技術已被證明等價于變分推理。
但是,A core-set approach 指出DBAL由于需要批量采樣的存在,并不適合大型數據集。需要指出的是,DBAL為了獲得更好的置信度估計允許在測試時使用dropout,但在Discriminative Active Learning的分析認為該方法的性能與使用神經網絡的softmax分數作為不確定性采樣的性能相似。這需要引起警惕。 此外,A指出基于不確定性的DBAL方法可能會受到對抗性示例的愚弄,一個微小的擾動可能會導致不可接受的性能損失。DEBAL認為在變分推斷方法中的模式崩潰現象導致了DBAL方法的過度自信的預測。為此,DEBAL通過將集成方法的表達能力與MC-dropout相結合在沒有交易代表性的情況下獲得更好的不確定性。
另一方面,BatchBALD則選擇拓展BALD到批量查詢,不再計算單個樣本與模型參數之間的互信息,而是重新計算了批量樣本與模型參數之間的互信息來共同對批量的樣本進行評分。因此BatchBALD可以更為準確的評估共同互信息。 受到有關貝葉斯核心集最新研究的啟發,ACS-FW重新構建了批處理結構,以優化對整個數據集引起的對數后驗的稀疏子集近似。ACS-FW通過使用這種相似性,同時使用Frank-Wolfe算法大規模啟用有效的貝葉斯AL,并且使用隨機投影使得ACS-FW得到了進一步的推廣。ACS-FW和其他查詢策略相比查詢的樣本在整個數據流行上擁有更好的覆蓋。 DPEs則引入了一種可拓展的深度概率集合技術,它使用正則化的集合來逼近深度BNN,并在一系列大規模的視覺AL實驗來評估DPEs的分類效果。
ActiveLink也是受到貝葉斯深度學習最新進展的啟發。它對現有的神經鏈接預測因子采取貝葉斯的觀點,通過利用知識圖的基礎結構拓展了不確定性采樣的方法,從而實現了一個新穎的深度主動學習方法。并且ActiveLink注意到盡管AL可以采樣高效的樣本,但在AL的過程中每次迭代都需要從頭開始重新訓練模型,這對DL模型的訓練是不可接受的。一個直接的解決方案是使用新選擇的數據增量地訓練模型,或者將它與現有的訓練數據[29]結合起來。但這會導致模型要么偏向少量新選擇的數據,要么偏向于過程早期選擇的數據。為了解決這種偏差問題,ActiveLink采用了一種基于元學習的有原則的無偏差增量訓練方法。
即,在每次AL迭代中,ActiveLink使用新選擇的樣本更新模型參數,并通過基于前一次迭代中選擇的樣本對模型進行泛化來逼近模型的未來預測的元目標。這使得ActiveLink可以在新選擇的數據和之前選擇的數據的重要性之間取得平衡,從而實現對模型參數的無偏估計。 除了上述DBAL工作外,由于BNN較少的參數量以及與傳統AL相似的不確定性采樣策略,使得DBAL的研究相當的廣泛,相關的DBAL工作還有很多。
Density-based Methods 基于密度的方法主要是指從集合(核心集)的角度來考察樣本的選擇。核心集的構建正是這樣一種具有代表性的查詢策略。這種想法主要受到核心集數據集壓縮思想的啟發,試圖使用核心集來代表整個原始數據集的特征空間的分布,從而降低AL的標注成本。Farthest First Active Learning (FF-Active) 正是基于這種想法使用表示層上神經激活空間中的最遠優先遍歷從池中查詢連續點。值得一提的是,FF-Active與Exploration-P 類似在AL的早期階段使用隨機查詢的方法增強AL的探索能力,從而避免AL陷入batch樣本多樣性不足的陷阱。
類似的為了解決批量查詢中的采樣偏差問題,增加批量查詢樣本的多樣性。Core-set approach 嘗試采用構建核心子集的方法來解決此問題。并進一步通過解決K中心問題來構建核心子集,使得在已選的核心集上學習的模型與其余數據相比更有競爭力。但由于Core-set approach需要在未標記的數據集上構建一個較大的距離矩陣,因此這個搜索過程在計算上相當的昂貴。并且這種劣勢在大規模的未標記數據集上將變得更加明顯。
cite{Du2019BuildinganActivePalmprintRecognitionSystem}將DAL應用于高維且復雜的掌紋識別數據上。與核心集的思想類似,將AL視為一個二分類任務,期待標注樣本集與未標注樣本集擁有相同的數據分布并使得二者難以區分,即試圖找到與原始數據集具有相同分布的核心標記子集。具體來說,由于啟發式的生成模型模擬數據分布難以訓練且不適合掌紋這種高維復雜的數據。因此作者考慮判斷樣本是否能被高度肯定的區分來自于未標注數據集還是標注數據集。那些可以被明確區分的樣本明顯與核心標注子集的數據分布有著顯著的差異,這些樣本將被的添加到標注數據集中,進行下一輪的訓練。
先前的基于核心集的方法往往只是嘗試查詢的數據點盡可能的覆蓋所有點的數據流行而沒有考慮密度,導致查詢到的數據點過度代表來自流行稀疏區域的樣本點。與類似cite{Du2019BuildinganActivePalmprintRecognitionSystem} ,Discriminative Active Learning (DAL) 也將主動學習是一個二元分類任務,試圖使查詢的標記數據集與未標記數據集無法區分。DAL突出的是它可以按照密度成比例的從未標記數據集中進行采樣,而不會偏向位于稀疏流行域的樣本點。并且DAL提出的方法并不局限于分類任務在概念上易于轉移到其他新的任務上。 除了相應的查詢策略外,一些研究者也考慮了批量查詢大小對查詢性能的影響,例如,cite{BatchBALD2019,Zhdanov2019Diverseminibatch,Ash2019DeepBatchActive,Pinsler2019Bayesian}主要研究了較小批量下查詢策略的優化,而cite{Chitta2019Training}建議擴大AL的查詢規模進行大規模采樣(一次采樣10k或500k)。并通過集成了數百個模型并重用中間檢查點方式用較小的計算代價高效的實現了在大規模標記數據集上的訓練數據分布式搜索。cite{Chitta2019Training}也證明了使用整個數據集進行訓練的性能并不是性能的上限,基于子集的AL可能有更好的性能。
基于密度的方法主要從數據分布的角度來考慮核心子集的選擇,相關的研究方法相對較少,它為樣本的查詢提供了一種新的可能。
Other methods 還有一些研究不像以上查詢方法那樣如此集中,我們將它們總結在下面。 A將啟發式的AL算法重新定義為強化學習問題,通過明確的選擇策略來引入一個新的描述。 與先前的大多數基于不確定性的方法不同,DFAL cite{Ducoffe2018Adversarial} 認為這些方法容易受到對抗性示例的愚弄,因此DFAL將重點放在決策邊界附近示例的研究。并主動利用這些對抗性示例在輸入空間分布上提供的信息來近似它們到決策邊界的距離,這種對抗性查詢策略可以有效提高訓練CNN的收斂速度。
另一方面,AL旨在利用數據的相對重要性標注盡可能少的的數據高效的訓練一個性能符合要求的模型。因此,數據集本身的屬性對DAL的性能也有著重要的影響。為此,GA研究了常見數據集中圖像數據的相對重要性,提出了一種通用的數據分析工具,可以幫助我們更好的了解數據集中訓練示例的多樣性。GA發現并非所有的數據集都可以在一個小的子樣本集上完成訓練,因為一些數據集中的樣本重要性的相對差異幾乎可以被忽略。因此,在AL中盲目的使用較小的子數據集也是不可取的。
cite{Beluch2018PowerEnsemblesActive}發現與MC-dropout和基于密度的方法相比,基于集合的AL可以在獲取過程中有效的抵消數據集中的類別不平衡,導致更多的校準預測不確定性,從而獲得更好的性能。 一些研究者也注意到在傳統的AL工作流程中往往將獲取函數視為固定的已知的先驗,而這種獲取函數是否合適,只有等標記預算被消耗殆盡才能進行觀察。這導致無法對獲取函數進行靈活快速的調優。因此使用強化學習對獲取函數進行動態調優或許是一個不錯的選擇。 RAL提出選擇將BNN作為獲取函數的學習預測器。然后,BNN預測器提供的所有概率信息會被合并從而得到一個全面的概率分布,接著概率分布被送到一個BNN概率策略網絡,該網絡在每個標記回合中基于oracle的反饋進行強化學習。這種反饋會對采集函數進行微調從而不斷改善獲取函數的質量。在Fig4中展示了傳統AL與RAL的管道對比。
標準的AL,RAL and DRAL的管道對比。(a)標準的AL管道通常由三個部分組成。Oracle提供一組標記數據,預測器(此處為BNN)用來學習這些數據,并為指南提供了可預測的不確定性,該指南通常是固定的,硬編碼的獲取函數,它為Oracle挑選下一個樣本從而重新開始循環。
(b)RAL用策略BNN代替固定獲取函數,該策略BNN以概率狀態進行學習,并從oracle獲得反饋,以強化學習的方式學習如何選擇下一個最優的樣本點(紅色的新部分)。因此,RAL可以更加靈活地調整獲取函數以適應現有的數據集。(c)DRAL為person Re-ID任務設計了一個深度強化主動學習框架。對于每個查詢錨點(探針),代理(增強型主動學習者)將在主動學習過程中從圖庫池中選擇實例交給oracle以獲得帶有二進制反饋(正/負)的人工注釋。狀態評估所有實例之間的相似關系,根據oracle的反饋計算獎勵從而調整代理的查詢。
DRAL采用了類似的想法,為person Re-ID任務設計了一個深度強化主動學習框架。DRAL使用強化學習的思想對獲取函數進行動態的調整,從而獲得高質量的查詢樣本。 另一方面,Active-iNAS注意到先前的大多數DAL方法都假定已經為當前的任務設計合適的DL模型,從而主要集中在研究如何設計有效的查詢機制上。而事實上已有的DL模型對當前的DAL任務并不一定是最優的。為此Active-iNAS對這一假設發起挑戰,在進行主動學習的同時使用神經架構搜索技術(NAS)動態地搜索有效的模型架構。
還有一些工作致力于為DAL提供一個方便性能對比的平臺。cite{Munjal2020Towards}對DAL方法的魯棒性和可復現性進行了詳細的探討和研究,并給出了許多有用的建議。 總的來說,這些查詢策略并非相互獨立,而是相互聯系的。基于Batch的BMDAL為AL查詢的樣本在DL模型上的更新訓練提供了基礎。盡管DAL中的查詢策略豐富且復雜,但它們大都是為了在BMDAL中兼顧查詢批次的多樣性與不確定性。而先前基于不確定性的方法往往忽視batch中的多樣性,因此,這些方法大致可以被歸為兩類。它們要么在輸入或學習表示空間中設計明確鼓勵批次多樣性的機制,要么直接測量整個批次的互信息(MI)。
Insufficient Data in DAL AL往往只需要少量的標記樣本數據就可以實現學習和更新模型,而DL需要大量的標記數據才能進行有效的訓練。因此,AL與DL的結合需要盡可能多的利用無需耗費過多人力資源的數據策略來實現對DAL 的模型訓練。先前的大多數DAL方法往往只在通過查詢策略所采樣的標記樣本集上進行訓練。而忽視了已有的未標記數據集的存在,并且相應的一些數據擴充和訓練策略也沒有得到充分的利用。這些策略有助于改善在DAL訓練中標簽數據不足的問題,且不會增加額外的人工標注代價。因此,這些策略的研究也是相當有意義的。 例如,CEAL(2017)除了使用通過查詢策略采樣的標記數據集外,還通過為具有高的模型預測置信度的樣本分配偽標簽的方式豐富訓練集。使用擴充過的訓練集一同訓練DL模型。這種策略被展示在Fig.CEAL。
另一種非常流行的策略是在標記數據集和未標記數據集上進行無監督訓練并結合其他策略來訓練整個網絡結構。 例如,WI-DL(2017)注意到對DBN進行完全訓練需要大量的訓練樣本,將DBN應用于AL語境下有限的訓練集上是不切實際的。于是為了提高DBN的訓練效率,WI-DL采用在所有數據集上進行無監督特征學習與在標記數據集上進行有監督微調相結合的方式來訓練DBN。
與此同時,也有研究者考慮借助生成對抗網絡(GAN)來進行數據增強。例如,GAAL(2017)首次將生成對抗網絡(GAN)引入到了AL的查詢方法中。GAAL旨在希望使用生成學習生成比原始數據集中擁有更多信息量的樣本。 然而,隨意的數據增強并不能保證生成的樣本比原始數據擁有更多的信息量,這反而會浪費計算資源。因此,BGADL(2019)拓展了GAAL的想法,提出了一種貝葉斯生成式主動深度學習的方法。具體的,BGADL結合了Generative Adversarial Active Learning ,Bayesian data augmentation (Tran et al., 2017), auxiliary-classifier generative adversarial networks (ACGAN) (Odena et al., 2017) and variational autoencoder (VAE) (Kingma & Welling, 2013)方法,旨在生成屬于不同類別的分歧區域樣本 。GAAL與BGADL的結構對比被展示在fig.GAAL_BGADL。
GAAL與BGADL的結構對比圖。更多細節可以查看BGADL。
隨后,VAAL(2019),ARAL(2019)借鑒了先前的方法不僅使用標記數據集與未標記數據集一同訓練網絡,而且將生成對抗學習引入到了網絡架構中進行數據增強,以便進一步的提升網絡的學習能力。
VAAL與TA-VAAL的結構對比圖。
VAAL,ARAL和TA-VAAL的結構對比。1)VAAL使用標記數據和未標記數據采用半監督的方式來學習數據的潛在的表示空間,根據潛在空間選擇信息量最大的未標記數據進行標注。2)TA-VAAL拓展了VAAL,將損失預測模塊和RankCGAN整合到變分對抗主動學習(VAAL)中,以便同時考慮數據分布和模型不確定性。3)ARAL也拓展了VAAL,ARAL不僅使用了真實數據集(由標注數據集和未標注數據集組成)和還使用了生成數據集來共同訓練網絡。整個網絡由編碼器、生成器、鑒別器、分類器和采樣器構成,模型的所有部分被共同訓練。更多的細節可以查看ARAL。
具體的,VAAL注意到基于不確定性的batch查詢策略除了容易導致樣本多樣性不足的問題,實際上還非常容易受到異常值的干擾。此外,對于高維數據基于密度的方法容易受到p-范數的限制,導致計算的距離過于集中。為此,VAAL提出使用對抗學習表示的方法來區分標記數據與未標記數據的潛在空間的編碼特征,從而削弱異常值的干擾。并且VAAL使用標記數據和未標記數據以半監督的方式來共同訓練 variational autoencoder (VAE) 試圖欺騙對抗網絡預測所有的數據點均來自標記池,以此來解決距離集中的問題。
VAAL在大規模的數據集上可以學習有效的低維潛在表示,并通過共同學習表示形式和不確定性提供了一種有效的主動學習采樣方法。 接著,ARAL拓展了VAAL,旨在使用盡可能少的人工標注樣本但充分利用已有的或生成的數據信息來提升模型的學習能力。除了使用標記數據集與未標記數據集,ARAL還使用了深度生產網絡生產的樣本來共同訓練整個模型。ARAL由VAAL與對抗表示學習兩部分組成,通過VAAL學習標記和未標記數據潛在的特征表示空間,并據此選擇信息量最大的未標記樣本,同時使用真實數據與生成數據通過對抗表示學習來增強模型的學習能力。
類似的TA-VAAL也拓展了VAAL,TA-VAAL將來自VAAL的全局數據結構和來自學習損失的局部任務相關信息用于樣本的查詢。我們將ARAL,VAAL和TA-VAAL的框架展示在Fig6. 與ARAL和VAAL利用標記數據集與未標記數據集進行對抗表示學習不同,SSAL嘗試了一種新的訓練方式。SSAL跨AL周期的使用無監督、監督和半監督學習的方式,在盡可能不增加標注成本的情況下充分利用已有的信息進行訓練。具體來說,在主動學習開始前,首先利用標記數據和未標記數據進行無監督預訓練,在每個AL學習周期首先在標記數據集上進行監督訓練,然后在所有數據集上進行半監督訓練。這在訓練方法上是一種新的嘗試,并且作者發現與采樣策略之間的差異相比,這種模型訓練方式在性能提升上有著令人驚訝的提升。 正如上面說分析的那樣,這種在訓練方式和數據利用技巧上的探索也是非常有必要的,它在性能上的增益甚至可能超過改變查詢策略所代來的性能增益。這實際上是在不增加標注代價的情況下對已有數據信息的充分利用,有助于緩解AL查詢樣本數量不足以支撐DL模型更新的問題。
通用框架DAL 如2.3中所述的,由于AL和DL在處理管道上的不一致,僅在AL框架中對DL模型進行微調或者簡單的組合AL與DL將它們視為兩個分割獨立的問題可能會引起分歧。例如,A 首先將DL模型在兩個不同類型的會話數據集上進行離線的監督訓練以使骨干網絡擁有基本的對話能力,然后啟用在線AL階段與人類用戶進行互動,根據用戶的反饋來以一種開放式的方法來改進模型。
AL-DL為有DBNs的DL模型提出了一個主動標記方法。ADN為情感分類提出了一種主動深度網絡架構。[23]為CAPTCHA的識別提出了一種使用CNN進行的主動學習算法 。然而,上述方法往往首先在標記數據集上對深度模型進行常規的監督訓練,然后基于深度模型的輸出進行主動采樣。類似的相關工作還有很多,這種將AL和深度模型的訓練視為兩個獨立問題的割裂化處理方式增加了兩個問題產生分歧的可能。盡管這種方法在當時也取得了一定的成功,但一個將DL和AL兩個任務緊密結合的通用框架對DAL的性能提升與推廣都有著至關重要的作用。
CEAL將來自未標注數據集中的樣本逐步送入到初始化后的CNN,由CNN分類器輸出兩種類別的樣本:少量不確定性的樣本和大量高預測置信度樣本。通過orcal為少量不確定性樣本進行標注,同時使用CNN分類器為大量的高預測置信度樣本自動分配偽標簽。然后,使用這兩種類型的樣本對CNN進行微調,并重復這個更新過程。
CEALcite{Wang2017CostEffectiveActive}是第一個結合AL與DL解決深度圖像分類問題的工作之一。CEAL將深度卷積神經網絡合并到AL中,提出了一個新穎的DAL框架。它通過將來自未標注數據集中的樣本逐步送入CNN,由CNN分類器輸出兩種類別的樣本:少量不確定性的樣本和大量高預測置信度樣本。通過orcal為少量不確定性樣本進行標注,同時使用CNN分類器為大量的高預測置信度樣本自動分配偽標簽。然后,使用這兩種類型的樣本對CNN進行微調,并重復這個更新過程。
在Fig2中,我們展示了CEAL的總體框架圖。類似的,HDAL也采用了類似的框架用于人臉識別任務中,它將AL與深度CNN模型進行結合從而一體化的同時考慮特征學習和AL查詢模型的訓練。 此外,Fig1(c)中展示了一個非常常見的DAL任務的通用框架,相關的工作包括cite{Yang2017Suggestive, Du2019BuildinganActivePalmprintRecognitionSystem,He2019Towards, Zhao2020Deeply, Lv2020Deep}等。具體的來講,cite{Yang2017Suggestive}提出使用全卷積網絡和AL進行結合的框架來解決使用少量標注進行醫學圖像分割的問題。它首先將FCN在少量的標注數據集上進行訓練,然后將未標注數據集中的樣本通過FCN進行特征提取,并使用這些特征來對未標注樣本進行不確定性和相似度估計。這種類似于2.1.2中的策略有助于選擇具有高度不確定性和多樣化的樣本被添加到標注數據集中,從而開始下一階段的訓練。 cite{Du2019BuildinganActivePalmprintRecognitionSystem}為掌紋識別任務提出了一個類似的DAL框架。不同的是,受到域適應的啟發,cite{Du2019BuildinganActivePalmprintRecognitionSystem}將AL視為一個二分類任務,期待標注樣本集與未標注樣本集擁有相同的數據分布并使得二者難以區分,這樣就可以直接在少量的標注數據集上進行監督訓練了,從而減輕標注負擔。
cite{Lv2020Deep}為缺陷檢測提出了一個DAL框架。它根據檢測模型輸出的特征進行不確定性抽樣以產生用于注釋的候選樣本列表。為了進一步兼顧采樣樣本中缺陷類別的多樣性,cite{Lv2020Deep}設計了平均邊距的方法來控制每個缺陷類別的采樣比例。以采樣訓練和選擇樣本的迭代模式來有效的訓練檢測模型。 不同于以上方法往往只利用DL模型的最后輸出的作為樣本不確定性或多樣性的判別依據(Active Palmprint Recognitioncite{Du2019BuildinganActivePalmprintRecognitionSystem}使用了第一個全連接層的輸出),cite{He2019Towards,Yoo2019LearningLossActive,Zhao2020Deeply}他們還使用了DL模型的中間隱藏層的輸出。正如Section 3.1.3和Section 2.3中所分析的那樣,由于深度模型與淺層模型之間學習范式的差異導致了傳統的基于不確定性的查詢策略無法直接應用于DL模型。
此外,與淺層模型不同,深層模型可以被視為由特征提取階段與任務學習階段兩部分組成。而僅僅使用DL模型最后一層的輸出作為樣本預測不確定性的評估依據是不準確的。因為DL模型的不確定性實際上是由特征提取和任務學習兩個階段的不確定性共同組成。這種思想的示意圖被展示在Fig.4。
以常見的CNN為例,展示了傳統不確定性測量方法與綜合兩個階段(即,特征提取階段與任務學習階段)信息的不確定性測量方法的對比。
為此,AL-MV cite{He2019Towards}將來自CNN中間不同隱藏層的特征視為多視圖數據,同時考慮兩個階段的不確定性,并設計了AL-MV算法來實現對各層的不確定性進行自適應加權,從而更加準確的測量樣本的不確定性。 LLAL也是用了類似的想法,LLAF設計了一個損耗預測模塊的小型參數模塊附加到目標網絡,使用目標網絡的多個隱藏層的輸出作為損耗預測模塊的輸入。
通過學習損耗預測模塊來預測未標記數據集的目標損耗,并以top-k的策略選擇查詢樣本。LLAL以較小的參數代價實現了與任務無關的AL框架設計,并在多種主流的視覺任務(即,圖像分類、目標檢測和人體姿態估計)上都取得了有競爭力的性能表現。 類似的cite{Zhao2020Deeply}采用了相似的策略實現了一個手指骨骼分割任務的DAL框架。cite{Zhao2020Deeply}將Deeply Supervised U-Net作為分割網絡,然后將多級分割隱藏層的輸出以及最后一層的輸出作為AL的輸入,綜合這些輸入信息作為樣本信息量大小的評估依據。我們以LLAL為例在Fig6中展示這種想法的總體網絡結構。
LLAL的總體框架圖。黑色的線表示訓練模型參數的階段,優化由目標損失和損失預測損失構成的總體損失。紅色的線表示AL的樣本查詢階段。將DL模型的多個隱藏層的輸出作為loss預測模塊的輸入,根據預測損失挑選top-K個未標記數據點通過oracle賦予標簽。
通用框架的研究對DAL的發展和推廣是非常有益處的,這種任務無關的框架可以更加方便的被移植到其他領域。當前的DL與AL之間融合還主要集中在DL主要負責特征提取,AL主要負責樣本查詢,因此更加深度緊密的融合有助于DAL取得更加優異的性能,當然這還需要研究人員更多的探索和努力。
DAL 的各種應用 如今,DAL已經被應用包括但不限于視覺數據處理(例如目標檢測,語義分割等),NLP(例如情感分析,問答等),語音和音頻處理 ,社交網絡分析,醫學圖像處理,野生動物保護,工業機器人和災害分析等領域。本節我們從應用的角度對DAL的相關工作進行一個系統詳盡的概述。
Visual Data Processing 如同DL在計算機視覺領域被廣泛應用一樣,DAL的提出第一個被期待發揮潛力的領域就是計算機視覺。本節我們主要討論DAL在視覺數據處理領域的研究。
圖像分類與識別
與DL的研究類似,在DAL中圖像的分類與識別是其他視覺任務研究的一個基礎。如何在傳統AL并不擅長的高維數據上高效的查詢樣本,并在盡可能小的標注代價下獲得滿足要求的性能是DAL在圖像視覺任務領域所面臨的一個重要的問題。
為了解決這個問題,CEAL為具有高置信度的樣本分配偽標簽,并將其添加到使用基于不確定性的AL方法查詢到的高度不確定性的樣本集中,使用擴充后的訓練集一起訓練DAL模型圖像分類器。 cite{Ranganathan2017Deep}首次將AL的準則集成到深度信念網絡中,并對各種單模態和多模態的真實數據集上的分類任務進行了廣泛的研究。 WI-DL使用DAL的方法在高光譜圖像(HSI)數據集上同時考慮最大化代表性和不確定性兩個選擇標準來進行遙感分類。 類似的cite{Lin2018Active,Deng2019Active}也研究了高光譜圖像的分類問題。cite{Lin2018Active}引入AL來初始化HSI,稍后進行轉移學習,同時建議對源和目標HSI數據構造和連接更高級別的特征來進一步克服跨域差異問題。cite{Deng2019Active}提出了一個統一的深度網絡并結合主動轉移學習,僅使用了較少的標簽訓練數據對HSI分類進行了良好的訓練。
此外,醫學圖像分析也是一類重要的應用。例如, cite{Folmsbee2018Active}探索使用AL代替隨機學習來訓練卷積神經網絡進行組織分類任務。 cite{Budd2019Survey}在醫學圖像分析領域對相關的DAL方法進行了全面的回顧。 出于相似的原因,由于醫學圖像的標注需要很強的專業性知識,而訓練有素的專家的時間通常很昂貴且非常的稀缺。此外,DL已經在各種圖像特征任務上取得了令人印象深刻的表現,因此,集中于結合DL與AL將DAL應用于醫學圖像分析領域的工作仍然還有很多。
DAL方法也被用來進行浮游生物的分類任務cite{Bochinski2018Deep},細胞的自動計數cite{Alahmari2019Automatic}。 除此之外,DAL在我們的日常的生活場景中也有著廣泛的應用。例如,cite{Stark2015Captcha}提出了一種使用CNN進行驗證碼識別的AL算法。它可以利用免費獲取標記數據的能力,來避免人為干預,在使用較少標記數據的情況化極大的提升識別精度。 HDAL cite{Li2017Face}結合深度卷積神經網絡優秀的特征提取能力與AL標記代價的節約為人臉識別任務設計了一個啟發式的深度主動學習框架。
Object Detection and Semantic Segmentation
目標檢測和語義分割在自動駕駛、醫學圖像處理、野生動物保護等各個領域都有著重要的應用價值。然而,這些領域都同樣受限于較高的樣本標注代價,DAL較小的標注代價有望加速相應DL模型的在一些標注較為困難現實領域的應用。 例如,cite{Roy2018Deep}為目標檢測設計了一個DAL框架,它將目標檢測中使用的分層架構作為“委員會查詢”的范例來選擇要查詢的圖像集,同時引入了與A類似的勘探/開采權衡策略。 DAL也被廣泛應用于自然生物領域和工業應用中,例如,cite{Norouzzadeh2019deep}利用深度神經網絡來快速,可轉移,自動地提取信息,同時結合轉移學習和AL為相機陷阱圖像中的物種識別和計數設計了一個DAL框架。
cite{Feng2019Deep}為自動駕駛的深層對象檢測提出了一個DAL框架來訓練LiDAR 3D目標檢測器。 cite{Kellenberger2019Half}使用無人機(UAV)獲取圖像進行野生動物的檢測。為了能到夠重復使用這種動物檢測器,cite{Kellenberger2019Half}使用AL并引入轉移抽樣(TS)來找到源和目標數據集之間的對應區域,以便實現向目標域數據的轉移。 cite{Lv2020Deep}為真實工業的缺陷檢測提出了一個非常常見的DAL框架,并提出了一種不確定性抽樣的方法來生成候選標注類別。它使用平均裕度法來設置每個缺陷類別的抽樣尺度,在使用較少標注數據的情況下就能獲得了所需的性能。
此外,DAL在醫學圖像分割上也有著重要的應用。例如,cite{Gaur2016Membrane}為醫學圖像分割提出了一種基于AL的轉移學習機制,使得該方法可以在有限的標記數據集上有效的提高圖像的分割性能。 cite{Yang2017Suggestive}將完全卷積網絡(FCN)與AL相結合為生物圖像分割提出了一種DAL框架。它利用FCN提供的不確定性和相似性信息給出了最大集合覆蓋問題的一個拓展,通過指出最有效的標注區域來顯著減少標注工作量。
DASL cite{Wang2018Deepa}為肺結節分割任務提出了基于深層區域的網絡結節R-CNN來為實例生成分割掩碼,同時結合AL和自定步長學習(SPL)提出了一種新的深度主動自定步長(DASL)策略來減少標注工作量。 cite{Wang2019Nodule}為三維胸部CT圖像中的肺結節檢測與分割提出了一個基于區域的網絡Nodule-plus Region-based CNN。Nodule-plus Region-based CNN將AL和自定進度學習(SPL)策略相結合,提出了一種新的深度自定步長主動學習(DSAL)策略從而減小了注釋工作量且有效的利用了未標注數據。 cite{Zhao2020Deeply}為手指骨骼分割任務提出了一種新的深度監督主動學習方法,該方法可以以一種迭代和增量學習的方式進行微調,并且使用了中間隱藏層的輸出作為AL樣本挑選的依據。與完整的額標注相比,cite{Zhao2020Deeply}僅使用了較少的樣本就獲得了與之相當的分割結果。
Video processing
相對于圖像,視頻任務除了要處理空間特征,還需要處理時間特征,因此視頻任務的標注工作代價更昂貴,引入AL的期待也更為迫切。DAL在該領域也有著更加廣闊的應用場景。 例如,cite{Hussein2016Deep}提出使用模仿學習的方法執行導航任務。教師在第一人稱視角下的可視化環境和所采取的動作被作為訓練集。通過訓練,希望學生能夠根據所處的環境預測執行相應的動作。當執行任務時,學生使用深度卷積神經網絡進行特征提取,學習模仿策略,并使用AL的方法選擇信心不足的樣本添加到訓練集中,來更新行動策略。cite{Hussein2016Deep}使用了較少的樣本顯著改善了初始策略。
DeActive cite{Hossain2018DeActive}提出了一種DAL的活動識別模型,DeActive與用于活動識別的傳統DL模型相比需要更少的標注樣本,消耗更少的資源,且具有高的識別精度。 cite{Wang2018Deep}通過將AL集成到DL框架中來最大限度的降低基于視頻的person-Re-ID數據集的標注代價。類似的,cite{Liu2019Deep}為person Re-ID任務提出一種深度強化主動學習方法,以過oracle的反饋來指導代理(強化學習過程中的模型)進行下一步的不確定性樣本的選擇,通過交替細化的強化學習策略來不斷優化代理的選擇機制。 cite{Aghdam2019Active}為視頻和靜態圖像的行人目標檢測提出了一種基于卷積神經網絡的主動檢測目標檢測器的方法。
Natural Language Processing NLP一直以來都是一個非常具有挑戰性的任務。NLP旨在使計算機理解復雜的人類語言,幫助人類處理各種與自然語言相關的任務。數據標簽不足也是NLP任務所面臨的一個關鍵性的挑戰。下面我們介紹一些NLP領域最著名的DAL方法。
Sentiment Analysis
Active Deep Networks for Semi-Supervised Sentiment Classification | 2015 它是NLP中的一個 典型任務,旨在使得計算機理解一段自然語言描述,并對其中的涵義信息進行提取分析。 相關的應用場景非常的豐富,包括但不限于情感分類、新聞鑒別、命名實體識別(NER)等。
更為具體的,例如,cite{Zhou2010Active}使用Restricted Boltzmann Machines (RBM) 構造了一個主動深度網絡(ADN),并在標記數據集與無標記數據集上進行無監督訓練。ADN使用大量的未標記數據集提升模型的泛化能力,并在半監督學習框架中使用AL,將標記數據的選擇與分類器統一在了一個半監督分類框架中,在情感分類任務上獲得了有競爭力的結果。 cite{Bhattacharjee2017Active}在只有有限數量的注釋樣本的情況下為新聞準確性檢測任務(即識別新聞中的誤導和虛假信息)提出了一個人機協同學習系統。該系統是基于AL的深度模型,使用了比完全監督學習少1-2個數量級的注釋樣本,大大加快了模型的收斂速度,且在檢測性能上實現了驚人的25%的平均性能增益。
cite{Shen2017DeepActiveLearning,Shardlow2019text}使用DL與AL進行結合研究了在較小訓練集的情況下如何提高命名實體識別(NER)的技術水平。 cite{Priya2019Identifying}使用來自受災地區的相關推文來提取信息以便進行地震期間基礎設施損壞的識別,為此,cite{Priya2019Identifying}將基于RNN和GRU的模型與AL相結合,使用基于AL的方法預訓練模型來檢索來自不同地區基礎設施損壞的推文,從而顯著減少手動標注的工作量。 實體解析(ER)是跨數據庫識別具有不同表示形式相同真實實體的任務,是知識庫創建和文本挖掘的關鍵步驟。cite{Kasai2019Low}為ER開發了一個基于DL的方法,它結合了轉移學習和AL設計了一個體系結構,它允許學習一個從高資源環境到低資源環境的可移植模型。
數據集
問答、摘要
問答系統、自動摘要也是NLP中常見的處理任務。DL已經在這些領域取得了令人印象深刻的結果。然而,這些應用的性能仍然依賴于海量的標記數據集,AL有望為這個挑戰帶來新的希望。 自動問答系統在工業界有著非常廣泛的應用,DAL在該領域也有著重要的研究價值。例如,cite{Asghar2016Deep}使用在線的AL策略結合DL模型,通過與真實用戶進行交互,在每一輪對話中以一種增量的方式從用戶的反饋中進行學習來實現開放式的對話。 cite{Jedoui2019Deep}發現為特定任務(例如,分類)設計的AL策略往往只有一個正確答案,這些基于不確定性的測量往往根據模型的輸出計算。而許多現實世界的視覺任務往往有多個正確答案,導致不確定性測量被高估,有時的表現甚至比隨機抽樣基線更差。為此,cite{Jedoui2019Deep}在可視化問題答案生成(VQA)中提出估計模型內部隱含空間中的不確定性,而不是模型輸出空間中的不確定性,從而克服了語言的釋義性質。 自動摘要旨在從大文本中提取有用的最為重要的信息。cite{Maldonado2019Active}為識別大型腦電波圖(EEG)報告中的概念和關系提出了一種新穎的主動學習策略神經網絡(ALPNN),可以幫助人類從大量的EEG報告中提取可用的臨床知識。
在語音和音頻領域的標簽注釋成本也相對較高。cite{Abdelwahab2019Active}發現在由少量演講者收集的數千個錄音所構成的語料庫上訓練的模型無法推廣到新的域。因此cite{Abdelwahab2019Active}研究了利用AL在標記資源有限的情況下訓練深度神經網絡進行語音情感識別任務實用方案。 其他應用 深度主動學習的出現是令人興奮的,有望在保持性能的情況下,成數量級的減少標注代價。為此,DAL也被廣泛的應用于其他領域。 這些應用包括但不限于基因表達、機器人、可穿戴設備數據分析、社交網絡和心電信號分析等。 更為具體的,例如,MLFS cite{Ibrahim2014Multi} 將DL和AL進行結合為基于表達譜的選擇基因/miRNA提出了一個新穎的多層次特征選擇方法。MLFS還考慮了miRNA與基因之間的生物學關系,將該方法應用于miRNA的拓展任務上。 真實世界的機器人的故障風險是昂貴的。
為此,cite{Andersson2017Deep}提出了一種風險感知重采樣技術。將AL與現有的求解器和DL一起使用來對機器人的運行軌跡進行優化以便有效應對移動障礙物場景下的碰撞問題,并在真正的納米四軸飛行器上驗證了該DAL方法的有效性。 cite{Zhou2019Active}為機器人控制算法逆動力學模型提出了一個主動軌跡生成框架,這允許cite{Zhou2019Active}系統地設計用于訓練DNN逆動力學模塊的信息軌跡。 cite{Hossain2019Active, Gudur2019Activeharnet}利用可穿戴設備或移動終端上的傳感器來收集用戶的運動信息,來進行人類活動識別。cite{Hossain2019Active}提出了一種有上下文感知注釋器選擇的活動識別DAL框架。ActiveHARNet cite{Gudur2019Activeharnet}提出了一種資源高效的深度集成模型ActiveHARNet,它支持設備上的增量學習和推理,使用BNN中的近似來表示模型的不確定性能力,并在兩個公開數據集上證明了ActiveHARNet部署和增量學習的可行性。 DALAUP cite{Cheng2019Deep}為社交網絡中的錨點用戶預測設計一個DAL框架來減少錨點用戶的標注成本,同時提高預測準確性。
DAL也被應用于心電信號的分類。例如, cite{Rahhal2016Deep} 提出了一種基于深度學習的心電信號主動分類方法。cite{Hanbay2019Deep} 提出了一種使用特征值和DL基于AL的ECG分類方法。通過使用AL方法來有效的減少醫學專家標記ECG信號的代價。 總的來說,DAL目前的應用主要集中在視覺圖像處理任務中,對NLP和其他領域也有著相對零散的應用。和DL與AL相比,DAL目前仍然處于研究的初級階段,相應經典作品還相對較少,但仍然有著和DL一樣廣闊的應用場景和實用價值。
討論與未來方向 Towards Robust and Reproducible Active Learning Using Neural Networks,對DAL的工作提出了大量的建議。 DAL結合了DL和AL的共同優勢,不僅繼承了DL善于處理高維圖像數據和自動特征提取的能力,而且繼承了AL有效降低標注代價的潛力。因此,DAL尤其是在標簽需要很高專業知識難以獲得領域有著令人著迷的潛力。
最近的大多數工作顯示DAL已經在許多常見的任務上獲得了成功。DAL憑借降低標注代價以及繼承DL強大的特征提取能力引了大量研究人員的興趣,正如cite{Munjal2020Towards}所發現的那樣,在不同的研究中關于隨機采樣基線(RSB)的報告結果有著很大不同。例如,在相同設置下,使用CIFAR 10的20%的標簽數據,cite{Yoo2019LearningLossActive}所報告的RSB性能比cite{Tran2019BayesianGenerativeActive}高13%。其次,同一DAL方法在不同的研究中報告的結果可能有所不同。例如,使用CIFAR 100的40%的標簽數據和VGG16作為提取網絡,cite{Sener2018ActiveLearningConvolutional}和cite{sinha2019variational}的報告結果相差8%。此外,最新的DAL研究也存在彼此不一致的情況。例如,cite{Sener2018ActiveLearningConvolutional}和cite{Ducoffe2018Adversarial}指出基于多樣性的方法一直優于基于不確定性的方法,而基于不確定性的方法比RSB更差。但是,cite{Yoo2019LearningLossActive}的最新研究表明并非如此。
與AL有策略的選擇高價值的樣本相比,RSB已經被是一個強有力的基線。以上問題說明,我們首先急需為DAL的工作設計一個通用的性能評估平臺,并確定一個統一的高性能的RSB。其次,不同的DAL的方法的可復現性也是一個重要的問題,高度可復現的DAL方法有助于對不同DAL進行性能評估,應在一致的設置下使用通用的評估平臺進行實驗,并共享實驗設置快照。別外,相同實驗條件下的不同初始化的多次重復性實驗是被要求的,這可以有效避免因實驗設置問題所引起的誤導性結論。那些互相不一致的研究需要引起研究人員足夠的重視,以便弄清其中原理。另一方面,充足的消融實驗和轉移實驗也是必須的,前者可以讓我們更容易看清是哪些改進帶來了性能增益,后者可以確保我們的AL選擇策略的確可以對數據集無差別的選擇高質量樣本。 目前的DAL方法的研究方向主要集中在AL選擇策略的改進,訓練方法的優化以及任務無關的模型改進。
正如Section2所分析的那樣,AL選擇策略的改進目前主要集中在以顯式或者隱式的方式將基于不確定性和多樣性的查詢策略考慮在內。并且混合型的選擇策略越來越受到研究人員的青睞。 訓練方法的優化主要集中在對未標記數據集,標記數據集或者使用GAN等方法擴充數據,然后跨AL周期的進行無監督學習、半監督學習、監督學習的混合型訓練方法。這種訓練方法甚至表現出比選擇策略改進更有前途的性能提升,實際上這彌補了DL模型需要大量標注訓練樣本而AL選擇標注樣本的數量有限的問題。此外,對無標記數據集或者生成數據集的使用也有利于充分利用已有的信息,而并不增加額外的標注代價。此外,增量訓練的方式也是一個重要的研究方向,在每次循環中從頭開始訓練深度模型在計算資源上是不可接受的。而簡單的增量訓練又會導致模型參數的偏差問題,但是在資源節省上的巨大誘惑是相當吸引人的。然而,相關的研究仍然是相當匱乏的,但這仍然是一個非常有前景的研究方向。
任務無關也是一個重要的研究方向,這有助于使得DAL的模型可以更加直接廣泛的被推廣到其他任務。然而相關的研究還是不足的,并且相應的DAL方法往往只關注了基于不確定性的選擇方法。由于DL自身更加容易與基于不確定性的AL選擇策略相融合,因此我們相信在與任務無關的研究方向上未來基于不確定性的方法還將繼續占據主導地位。另一方面,明確顯式的將基于多樣性的選擇策略考慮在內或許也是一個不錯的選擇,當然,這也面臨著很大的挑戰。 此外,需要指出的是一味的追求在更小的子集上訓練模型的想法是不可取的,因為在一些內容豐富類別多樣擁有海量樣本的數據集中樣本重要性的相對差異幾乎可以被忽略。 顯然上述的這些改進方向之間并不沖突,因此一種混合的改進策略是未來一個重要的發展方向。 總的來說,DAL的研究在標注代價和應用場景上都有著巨大的實際應用價值,但當前的DAL的研究仍然處于初級階段,未來還有很長一段路要走。
Performance Comparison 在本節,我們將對DAL相關算法的性能做一個全面系統的評估與討論。
Deep Active Learning: Unified and Principled Method for Query and Training
Rethinking deep active learning: Using unlabeled data at model training
Training Data Distribution Search with Ensemble Active Learning
TOWARDS BETTER UNCERTAINTY SAMPLING: ACTIVE LEARNING WITH MULTIPLE
Bayesian Generative Active Deep Learning
原文標題:2020深度主動學習綜述
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器學習
+關注
關注
66文章
8425瀏覽量
132773 -
深度學習
+關注
關注
73文章
5507瀏覽量
121298
原文標題:2020深度主動學習綜述
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論