近年來,深度神經網絡的出現一定程度上顛覆了醫學影像行業的發展路徑,人工智能介入下,影像相關科室繁雜重復的工作逐漸由算法接替,醫生資源短缺這一問題似乎出現了解決的希望。
但AI亦有其限制。從當前發展情況看,有效的人工智能算法大多聚集于存在大量標準化數據的病種,畢竟要實現高質量AI診斷,需要大量的高質量標注圖像進行前期的算法訓練。
這一數據相關的特質限制了醫學AI的廣泛應用。現實之中,罕見病和疑難雜癥的數據較少,囿于患者隱私、數據安全等問題,數據收集行為的開展也較為困難。此外,醫學圖像的標注過程成本較高,對于不同的標注內容往往需要開發特殊的標注工具并交由有經驗的醫生進行。多方面原因協同下,某些醫學圖像問題的高標注質量醫學圖像數據集非常稀缺,其AI自然也難以孕育。
好在AI面臨的困境并非沒有解法。回想起來,人類只需通過極少的樣本就能辨別新的事物,那么機器是否能以復制人類的這一能力呢?答案或許是可以的。最近醫學AI領域興起的一系列小數據學習方法便是以模仿人類的判別能力為目標,嘗試通過減少需要的數據量,實現特定目標圖像的識別,最終克服醫學領域數據量少、標準缺乏的問題。
以先驗知識為基礎的小樣本學習
要實現小樣本學習(few-shot learning)必須要具備一些特定條件,譬如模型學習前已經吸收了一定類別的大量資料后,再加之新類別的極少量數據,最終實現小樣本模型的形成。因此,小樣本學習的關鍵是在算法中納入合適的先驗知識。
具體到醫療領域之中,很多醫學圖像模態中廣泛存在器官的位置先驗信息,例如CT圖像中肝臟主要位于腹腔的右上位置,而脾則在腹腔的左上部分,這些位置先驗信息對于AI識別特定類別的器官有非常大的幫助。
體素科技在頂級會議ISBI2021上發表的論文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一種基于位置先驗信息的局部原型網絡(location sensitive local prototype network,見圖1)。該論文以肝和脾影像數據構建訓練集,再將其收獲先驗信息的算法加入少量腎部影像分割任務,實現基于小樣本學習的AI模型訓練。
圖一:基于位置先驗信息的局部原型網絡框架
在公開的CT器官分割數據集Visceral進行試驗后,其結果表明,論文提出的新框架比目前的最好方法在Dice Score指標上提高了10%,顯著推進了小樣本下的器官分割這一領域的技術進展。
利用極端變化一致性來提高數據不足情況下醫學圖像分割的魯棒性
除了數據獲取困難這一問題外,研究人員在訓練時還會遭遇數據來源不統一的問題。
由于醫學圖像的拍攝設備和拍攝環境和方式多樣,各個醫院和體檢中心之間的人群分布差異明顯,因此很難收集和標注足量的訓練數據充分涵蓋不同來源的圖像特征。如果訓練數據和實際測試數據存在明顯的的分布差異(domain shift),生成的模型往往性能不佳。
體素科技在頂級會議MICCAI2020上發表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》為解決這一問題提供了方向。具體而言,該論文提出了極端一致性(extreme consistency)的概念,核心思想是在訓練數據中加入極端的圖像變換(比如大量強烈的亮度,對比度, 旋轉, 尺寸變換),以增加訓練數據的多樣性,并假設這些極端的圖像變換并不影響圖像的語義含義。舉例來說,眼底圖像中的血管在經過極端的旋轉和亮度對比度等變換后,依然能夠對應血管本身。
為了實現這一構想,論文設計了一種半監督算法(semi-supervised learning, 見圖2), 迫使模型遵守極端變化前和變化后的語義一致性這一約束,進而提高模型對于分布差異的魯棒性。該論文在皮膚病變分割數據集(ISIC)和兩個眼底血管分割數據集 (HRF和STARE)上進行了測試,展現了在數據不足和分布差異較大情況下,算法的魯棒性和準確性的優勢。
圖2:左邊是基于極端一致性的半監督學習方法的偽代碼,右邊是網絡結構示意圖。
少標注和弱標注情況下醫學圖像分割如何解決?
除了數據的來源問題,對已有數據進行分割標注同樣需要研究人員付出大量成本。在中國,影像數據標注非常昂貴,尤其是像素級別的醫學圖像分割標注,人力支出更為巨大。因此,近期大量的研究工作試圖解決不完善醫學圖像分割數據集中的兩類典型問題:
· 標注稀缺。數據集中只有極稀少的圖像數據有分割標注。
· 弱標簽。數據集中的圖像數據只有部分標注、或者標注帶有噪聲、或者只有圖像級的類別標簽沒有逐像素的分割標注。
對于這兩問題,體素科技發表在頂級期刊《Medical Image Analysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系統性地對現有方案進行了詳細的回顧和分類總結(見圖3所示)。根據醫學圖像分割數據集的不同缺陷,論文對這些方案的選擇給出了實際的指導建議。
圖3:醫學分割圖像數據集數據集缺陷問題及相應訓練策略總結
近年來,體素科技和交大科研團隊合作參與了多個醫學AI挑戰賽并獲得佳績。體素科技團隊在ISBI2020學術會議上舉辦的ADAM比賽黃斑定位任務上獲得了第三名的成績。ADAM比賽是由百度靈醫智慧和中山大學中山眼科中心聯合舉辦,包含了黃斑定位等四個任務,吸引了來自20多個國家的近400支參賽隊伍。
黃斑區域是眼底的一個特別重要的功能區域,精確定位黃斑對于進一步的輔助診斷很有幫助。該任務一大難點是,很多嚴重影響視力的眼底疾病都發生在黃斑區域,使其外觀和正常黃斑相比有較大變化,導致現有常見深度學習模型對于病變黃斑的定位不夠魯棒。體素科技團隊創新性的設計了一個雙流網絡融合眼底圖像和對應的血管分割信息,可以借助于眼底血管形狀和走向信息來估計黃斑的位置,大大提高了嚴重病變的黃斑區域定位效果。該模型在ADAM比賽決賽中平均黃斑定位誤差為25個像素(排名第3), 體現了一定的臨床可用性。
除此之外,體素科技團隊在COVID-19 Lung CT Lesion Segmentation Challenge - 2020(“肺部CT新冠肺炎分割2020”國際挑戰賽)中獲佳績,在肺炎分割關鍵指標Dice Score上排名第2,所有指標加權排名第3。
COVID-19-20國際挑戰賽是由Children‘s National Hospital聯合英偉達(NVIDIA)、美國國立衛生研究院(NIH)和國際醫學圖像計算和計算機輔助干預協會(MICCAI)舉辦的國際競賽,設置了分割和量化由SARS-CoV-2感染引起的肺部病變(主要是毛玻璃影)的挑戰任務,旨在探究基于深度學習的肺炎病灶分割模型用于COVID-19 CT 影像定量分析的可行性,為COVID-19 鑒別診斷提供幫助。COVID-19-20國際挑戰賽吸引了來自29個國家的200多支參賽隊伍。
此次獲獎的新冠肺炎分割模型采用目前在各類醫學圖像分割任務中均表現突出的深度學習模型nn-Unet 框架進行肺炎病灶分割,對圖像分割中的各個環節,包括圖像預處理,網絡架構和學習過程等都進行了自動化的優化和參數估計。同時為了解決噪聲標注帶來的模型優化方向偏離以及在醫學影像中普遍存在的前景背景類別不平衡的問題,體素科技團隊選取了Noise-Robust Dice Loss作為模型的優化損失。最終該模型在同源測試集上Dice Score為0.6581(排名第2)。
責任編輯:xj
-
數據
+關注
關注
8文章
7085瀏覽量
89204 -
AI
+關注
關注
87文章
31155瀏覽量
269481 -
影像
+關注
關注
0文章
130瀏覽量
14512
發布評論請先 登錄
相關推薦
評論