將醫(yī)學(xué)影像交給人工智能(AI)來分析,可以比人類專家更快、更準(zhǔn)確地檢測和測量出異常情況,推動基于影像的醫(yī)療診斷更進一步發(fā)展。要借此來改善患者的治療效果并確立針對性的治療方法,就必須建立起在不同人群中具有普遍性的高質(zhì)量AI模型。然而,要建立這樣的AI模型,就離不開大量數(shù)據(jù)的支持,并且這些數(shù)據(jù)還需要經(jīng)過精心標(biāo)注,才能供機器來學(xué)習(xí)。
現(xiàn)在,我們可以通過深度學(xué)習(xí)(DL)的一個分支——弱監(jiān)督學(xué)習(xí)來完成AI的訓(xùn)練。這項機器學(xué)習(xí)技術(shù)可以降低對數(shù)據(jù)標(biāo)注的完整性和準(zhǔn)確性要求,幫助醫(yī)生更輕松地獲得更加深入的信息。用于弱監(jiān)督學(xué)習(xí)的數(shù)據(jù)只需進行更容易實現(xiàn)的粗略標(biāo)注(例如只需標(biāo)注整個影像,而不必標(biāo)注影像中細(xì)分的關(guān)鍵區(qū)域) ,并且學(xué)習(xí)過程中可以充分利用預(yù)訓(xùn)練模型和常見的可解釋性方法。本文中,我們將研究數(shù)據(jù)管理在弱監(jiān)督學(xué)習(xí)中發(fā)揮的重要作用。
醫(yī)學(xué)影像的標(biāo)注并非易事
醫(yī)療行業(yè)中的影像標(biāo)注存在著許多困難。首先,醫(yī)學(xué)影像本身以及相關(guān)的檢查結(jié)果數(shù)據(jù)往往存儲在不同的系統(tǒng)中,導(dǎo)致數(shù)據(jù)標(biāo)注工作困難重重,也就難以獲得經(jīng)過標(biāo)注的數(shù)據(jù)。
例如,來自計算機斷層掃描(CT)或磁共振成像(MRI)的影像數(shù)據(jù)可能存儲在醫(yī)院系統(tǒng)中,但相關(guān)的活檢或腫瘤切除檢查結(jié)果往往會存儲在病理實驗室中,而這些實驗室可能位于醫(yī)院之外的私人診所或檢測機構(gòu)。這時,如果要核對某些數(shù)據(jù)和標(biāo)注的話,雖然做法上可行,但獲取并匯總數(shù)據(jù)的工作可能會花費大量時間,尤其是在涉及不止一家私人診所或檢測機構(gòu)的情況下。
而且,要在影像中尋找并標(biāo)記出疾病發(fā)生和進展的跡象(生物標(biāo)志物),本身就是一件極其耗時并且復(fù)雜的事情,因為這些數(shù)據(jù)必須逐個像素地進行標(biāo)注,最終的標(biāo)記數(shù)量可達(dá)上千個。如果需要通過算法來分割影像或者定位到特定區(qū)域(如病變或手術(shù)邊界)的話,這一問題尤為嚴(yán)重。這樣的過程往往需要耗費大量成本,因為醫(yī)學(xué)影像標(biāo)注通常要借助專業(yè)知識才能進行,而且MRI和CT影像還需要做三維標(biāo)注。這兩項缺點加在一起,使醫(yī)學(xué)影像的標(biāo)注成為了一項成本不菲的工作,而且還難以通過外包來完成。
由于標(biāo)注過程需要用到專業(yè)知識,標(biāo)注的質(zhì)量也會因標(biāo)注人員對這些知識掌握程度的不同而發(fā)生變化,進而影響到深度學(xué)習(xí)模型的最終表現(xiàn)。對于數(shù)據(jù)標(biāo)注而言,標(biāo)注的準(zhǔn)確性是一大問題。通常情況下,經(jīng)驗不足的放射科醫(yī)生或住院醫(yī)師會接受數(shù)據(jù)標(biāo)注培訓(xùn),但他們的標(biāo)注準(zhǔn)確度顯然比不上有著數(shù)十年工作經(jīng)驗的臨床醫(yī)生。
此外,閱片人員所表現(xiàn)出的差異也會影響到標(biāo)注的結(jié)果:一方面,不同的閱片人員對同一幅影像的解讀會有細(xì)微差異;另一方面,同一個閱片人員如果在不同時間標(biāo)注同一幅影像,最終結(jié)果也會有細(xì)微的區(qū)別。
最后,人工標(biāo)注這件事本身也會限制最終結(jié)果。機器學(xué)習(xí)的一大優(yōu)勢在于模型可以發(fā)現(xiàn)人類無法察覺的規(guī)律,然而人工標(biāo)注終究依賴于人工輸入,模型最終輸出的結(jié)果很容易因此而受到限制。
例如,AI如果只能復(fù)制人類對某些任務(wù)的想法,那么它就很可能無意中把某個人的偏見也復(fù)制過來。
此外,輸入數(shù)據(jù)中某些看似無關(guān)區(qū)域的特征也可能具有預(yù)測性,但由于它們不在人為選定的關(guān)注區(qū)域內(nèi),因而會直接被拋棄。
例如,疾病的顯著指征完全可能出現(xiàn)在關(guān)注區(qū)域周邊的其他組織中,甚至可能會出現(xiàn)在附近的其他器官中。
運用弱監(jiān)督學(xué)習(xí)來進行訓(xùn)練
在上述場景中,我們更希望AI可以接受更加籠統(tǒng)的標(biāo)注(例如一幅影像中是否包含癌癥組織或其他疾病指征),然后再由模型來找出其中最能說明問題的特征 。這正是弱監(jiān)督學(xué)習(xí)的用武之地。
使用弱監(jiān)督學(xué)習(xí)實現(xiàn)自動標(biāo)注。人工智能發(fā)現(xiàn)了病理學(xué)家沒有發(fā)現(xiàn)的預(yù)測性特征。
弱監(jiān)督學(xué)習(xí)是深度學(xué)習(xí)的一個分支,旨在通過更少、更粗略的標(biāo)注來生成性能良好的深度學(xué)習(xí)模型。這些標(biāo)注大致可以分為三大類:不完整、不精確和不準(zhǔn)確的標(biāo)注。這里使用“大致”一詞是因為單個數(shù)據(jù)集中可以結(jié)合使用多種標(biāo)注方法,并且弱監(jiān)督標(biāo)注的目的就是根據(jù)需要來解決各種組合問題。
不完整的標(biāo)注通常表現(xiàn)為數(shù)據(jù)集的一部分被標(biāo)注,而其余部分未被標(biāo)注。
不精確的標(biāo)注則是直接標(biāo)注出影像的整體結(jié)果,不對特定關(guān)注區(qū)域進行分割。
不準(zhǔn)確的標(biāo)注源于標(biāo)注人員缺乏專業(yè)知識,以及某些疾病指征之間的模糊性或不確定性。
有趣的是,如果通過更粗略、更容易實現(xiàn)的標(biāo)注就可以產(chǎn)生不錯的結(jié)果,那么不精確的標(biāo)注可能比不完整或不準(zhǔn)確的標(biāo)注更有用。不精確的標(biāo)注不容易出錯,因為它不需要達(dá)到像其他標(biāo)注那樣的詳細(xì)程度,而且它也更容易獲得:
例如只需從掃描報告中提取出有關(guān)癌癥分期的信息,就可以表明該掃描影像包含癌癥組織,而不必再通過人工的方式把癌變區(qū)域從三維影像中“摳”出來。這些標(biāo)注自身雖然“不精確”,但卻可以讓數(shù)據(jù)集獲得更多可用的標(biāo)注,進而提升準(zhǔn)確度。
尤為重要的是,通過這種標(biāo)注方式,我們就不必再為了標(biāo)出一切相關(guān)的細(xì)枝末節(jié)而花大價錢雇傭或培養(yǎng)高度專業(yè)的人員。這種方式最終可以提高標(biāo)注的準(zhǔn)確性,畢竟給出一個二選一的答案遠(yuǎn)比詳細(xì)描繪出所有特征來得容易。
要在常見的醫(yī)學(xué)影像應(yīng)用(例如檢測和定位關(guān)鍵區(qū)域)中利用這種不精確的標(biāo)注,比較常見的做法是利用以下兩步流程:
打造主干模型,例如訓(xùn)練一個深度學(xué)習(xí)模型來預(yù)測由不精確的標(biāo)注所描述的類別。
在對特定掃描影像進行預(yù)測的模型中,使用像素屬性方法(也稱為顯著性或可解釋性方法)將模型決策的最相關(guān)區(qū)域突顯出來。
兩個輸入圖像(金魚和熊) ,以及在弱監(jiān)督學(xué)習(xí)期間用于執(zhí)行分割的基于梯度的像素屬性方法。
使用卷積神經(jīng)網(wǎng)絡(luò)作為主干
醫(yī)療領(lǐng)域經(jīng)常需要用到影像數(shù)據(jù),因而將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用作弱監(jiān)督學(xué)習(xí)主要的基礎(chǔ)深度學(xué)習(xí)框架就是自然而然的選擇。CNN的工作原理是通過學(xué)習(xí)來減少醫(yī)學(xué)掃描影像中需要處理的像素量(通常是將三維圖像降維表示),然后將這些像素對應(yīng)到類別標(biāo)注。
在弱監(jiān)督學(xué)習(xí)中,我們還可以結(jié)合使用多種方法。您可以使用自己的數(shù)據(jù)集訓(xùn)練新的網(wǎng)絡(luò)(如果該數(shù)據(jù)集足以提供其他類似數(shù)據(jù)源的優(yōu)勢),也可以使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)來對新任務(wù)進行遷移學(xué)習(xí)。例如,ResNet50和VGG16就是利用源自日常生活的數(shù)百萬張圖片來訓(xùn)練的兩種CNN架構(gòu)。雖然它們并沒有使用醫(yī)學(xué)影像進行過訓(xùn)練,但它們?nèi)匀环浅S杏茫驗樵谀P驮缙陔A段的層中學(xué)習(xí)到的卷積過濾器往往涉及的是通用的特征,如線條、形狀和紋理等,這對醫(yī)學(xué)影像依然是有用的。
要使用這些模型之一來進行遷移學(xué)習(xí),只需去掉后期階段的類別預(yù)測層,然后用代表新的醫(yī)學(xué)影像任務(wù)所需類別的層來重新初始化即可。雖然模型的最終目標(biāo)是讓輸出結(jié)果能夠突顯出影像中的相關(guān)物體和值得關(guān)注的區(qū)域,但首先進行的第一步只需預(yù)測影像中是否存在這些值得關(guān)注的區(qū)域即可。
弱監(jiān)督定位的AI可解釋性
當(dāng)深度學(xué)習(xí)主干完成訓(xùn)練,可以準(zhǔn)確預(yù)測是否存在值得關(guān)注的類別后,下一步便是使用某種AI可解釋性方法來分割關(guān)注區(qū)域。這些可解釋性方法(也稱為像素屬性方法)旨在深入了解深度學(xué)習(xí)模型在做出某種預(yù)測時在圖像中看到的內(nèi)容,其輸出是某種形式的圖像(通常稱為顯著圖),可以根據(jù)最終目標(biāo)以多種不同的方法計算得出。
在這些方法中,基于梯度的顯著圖是最常用的方法之一,其核心包括輸出預(yù)測以及對所有構(gòu)成該輸出的神經(jīng)元進行檢測。根據(jù)方法的不同,這種檢測可以一直追溯到第一個輸入層——標(biāo)準(zhǔn)梯度(Vanilla Gradient),也可以停留在某個較后期的層,如神經(jīng)網(wǎng)絡(luò)架構(gòu)中的最后一個卷積層——GradCAM。其他的方法可以實現(xiàn)不同的目的,例如產(chǎn)生更平滑的關(guān)注區(qū)域、改善更簡單的方法存在的局限性,或在所需特征周圍進行更緊密的分割。
GradCAM是一種ML可解釋性方法,可用于在弱監(jiān)督學(xué)習(xí)中分割特征,它所獲取的是關(guān)于最后一個卷積層的輸出類的梯度。
結(jié)語
就在不久前,識別醫(yī)學(xué)影像中的生物標(biāo)志物依然還需要大量以復(fù)雜方式進行標(biāo)注的影像數(shù)據(jù)。然而,弱監(jiān)督學(xué)習(xí)等技術(shù)降低了對數(shù)據(jù)標(biāo)注完整性、精確性和準(zhǔn)確性的要求,從而能夠輕松揭示出以往需要耗費大量時間、借助高度專業(yè)的知識才能發(fā)現(xiàn)的問題。
弱監(jiān)督學(xué)習(xí)只需采用更容易實現(xiàn)的粗略標(biāo)注(例如只標(biāo)注整個影像,而不是標(biāo)注影像中細(xì)分的關(guān)鍵區(qū)域)就可以運作。它可以重新利用預(yù)先訓(xùn)練好的CNN模型,然后使用常見的可解釋性方法,根據(jù)預(yù)測的類別將值得關(guān)注的區(qū)域突顯出來。在這些特性的支持下,便可以將使用醫(yī)學(xué)影像數(shù)據(jù)訓(xùn)練的模型用于各種應(yīng)用,無需進行大量像素級標(biāo)注。這不僅節(jié)省了時間和成本,更有可能發(fā)現(xiàn)臨床醫(yī)生以前未曾了解的預(yù)測特征,從而提高診斷的準(zhǔn)確性、改善患者的治療效果。
Becks作者介紹
Becks是Imagia公司的機器學(xué)習(xí)技術(shù)負(fù)責(zé)人,該公司是一家位于蒙特利爾的初創(chuàng)公司,致力于幫助臨床醫(yī)生運用人工智能推動醫(yī)學(xué)研究。在業(yè)余時間,她還與Whale Seeker合作,這是另一家運用人工智能對鯨魚進行檢測的初創(chuàng)公司,旨在讓工業(yè)發(fā)展與這些溫和的巨獸和諧共存。她從事深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域的工作,致力于研究新的深度學(xué)習(xí)方法并直接應(yīng)用這些方法來解決現(xiàn)實世界的問題、構(gòu)建渠道和平臺來訓(xùn)練和部署人工智能模型,以及為初創(chuàng)公司的人工智能和數(shù)據(jù)戰(zhàn)略提供咨詢服務(wù)。
關(guān)于貿(mào)澤電子
貿(mào)澤電子(Mouser Electronics)是一家全球授權(quán)半導(dǎo)體和電子元器件授權(quán)分銷商,服務(wù)全球廣大電子設(shè)計群體。貿(mào)澤電子原廠授權(quán)分銷近1,200家知名品牌,可訂購數(shù)百萬種在線產(chǎn)品,為客戶提供一站式采購平臺,歡迎關(guān)注我們,獲取第一手的設(shè)計與產(chǎn)業(yè)資訊信息!
原文標(biāo)題:醫(yī)學(xué)影像數(shù)據(jù)訓(xùn)練太難?那是因為你還不知道這個利器~
文章出處:【微信公眾號:貿(mào)澤電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
AI
+關(guān)注
關(guān)注
87文章
33025瀏覽量
272858 -
測量
+關(guān)注
關(guān)注
10文章
5061瀏覽量
112430 -
影像
+關(guān)注
關(guān)注
0文章
137瀏覽量
14617
原文標(biāo)題:醫(yī)學(xué)影像數(shù)據(jù)訓(xùn)練太難?那是因為你還不知道這個利器~
文章出處:【微信號:貿(mào)澤電子,微信公眾號:貿(mào)澤電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
氮化鈦在芯片制造中的重要作用

SCADA系統(tǒng)在各工業(yè)領(lǐng)域發(fā)揮著極其重要作用!
阻性負(fù)載的重要作用
激光焊錫中溫度控制系統(tǒng)的重要作用

SOLIDWORKS 2025協(xié)作與數(shù)據(jù)管理功能簡介
時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

技術(shù)資訊 I 設(shè)計數(shù)據(jù)管理要點

SOLIDWORKS 2025:更有效的協(xié)作和數(shù)據(jù)管理
自動處理結(jié)果庫在國際監(jiān)測系統(tǒng)(IMS)臺站及監(jiān)測站能譜數(shù)據(jù)管理中的重要性及其應(yīng)用
DCAC電源模塊在工業(yè)科技中的重要作用

神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練
深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述
鴻蒙開發(fā)接口數(shù)據(jù)管理:【@ohos.data.distributedData (分布式數(shù)據(jù)管理)】

評論