深度學習算法正在以無與倫比的洞察力凝視著MRIs和X射線的圖像,但是當他們犯錯時,應該歸咎于誰呢?
里吉納·巴茲蕾(REGINA BARZILAY)在40歲出頭時進行了常規(guī)乳腺X光檢查,圖像顯示她的乳腺組織中出現(xiàn)了一系列復雜的白色斑點。這些痕跡可能是正常的,也可能是癌變的——即使是最好的放射科醫(yī)生也很難分辨出它們的區(qū)別。她的醫(yī)生認為這些斑點暫時不會有什么事,不用擔憂。事后,她說,“我已經(jīng)得了癌癥,他們卻沒有發(fā)現(xiàn)。”
在接下來的兩年里,巴茲蕾接受了第二次乳腺X光檢查、乳腺核磁共振檢查和活組織檢查,所有的檢查結(jié)果都是模棱兩可或相互矛盾的。最終,她在2014年被診斷出患有乳腺癌,但被診斷出乳腺癌的過程令人沮喪得難以置信。“你怎么做三個測試,得到三個不同的結(jié)果?”她不知道。
巴茲蕾接受了治療,恢復得很好。但她仍然擔心,解讀乳腺X光檢查的不確定性可能會貽誤治療時機。她說:“我意識到,在目前的方法下,我們能否得出正確的結(jié)論,多半靠的是運氣。”因此,她做出了一個改變職業(yè)生涯的決定:“我必須改變它。”
作為麻省理工學院的計算機科學家,巴茲蕾以前從未研究過健康問題。她的研究使用了機器學習技術(shù)——人工智能的一種形式——來進行自然語言處理。但她一直在尋找新的研究方向,并最終決定與放射科醫(yī)生合作,開發(fā)一種機器學習算法,利用計算機出色的視覺分析技能,找出人類肉眼可能忽略的乳腺x線照片中的細微模式。
在接下來的四年里,研究小組訓練了一個計算機程序,分析了大約3.2萬名不同年齡和種族的女性的乳腺X線照片,并告訴程序哪些女性在掃描后的五年內(nèi)被診斷出患有癌癥。然后,他們在3800多名患者身上測試了電腦的識別能力。他們的研究結(jié)果發(fā)表在去年5月的《放射學》(Radiology)雜志上,在預測癌癥或沒有癌癥方面,他們得出的算法比診所中普遍使用的方法要準確得多。當巴茲蕾的團隊在她2012年的乳腺x光片上運行這個程序時,這個算法正確地預測了她在五年內(nèi)患乳腺癌的風險比98%的病人要高。
人工智能算法不僅僅能發(fā)現(xiàn)人眼難以發(fā)現(xiàn)的細微細節(jié),它還可以開發(fā)出全新的醫(yī)學圖像解釋方式,雖然有時是人類無法理解的方式。設(shè)計人工智能程序的眾多研究人員、初創(chuàng)公司和掃描儀制造商希望,人工智能能夠提高診斷的準確性和及時性,在缺乏放射科醫(yī)生的發(fā)展中國家和偏遠地區(qū)提供更好的治療,揭示生物學和疾病之間的新聯(lián)系,甚至有助于預測一個人的死亡時間。
人工智能應用程序正迅速進入診所,醫(yī)生們對這項技術(shù)既感到興奮,又擔心自己的工作被機器搶走。算法也提出了一些前所未有的問題,比如如何監(jiān)管一臺不斷學習和變化的機器,以及如果算法診斷錯誤,該怪誰。盡管如此,許多醫(yī)生還是對人工智能程序的前景感到興奮。當然如果這些模型能夠得到充分的驗證,并且提高我們對它們?nèi)绾喂ぷ鞯睦斫馑剑@將有助于提高每個人的醫(yī)療保健水平。
熱門話題
使用計算機讀取放射掃描圖像的想法并不新鮮。20世紀90年代,放射科醫(yī)生開始使用一種名為計算機輔助診斷(CAD)的程序來檢測乳腺X光檢查中的乳腺癌。這項技術(shù)被譽為革命性的,診所很快就采用了它。但事實證明,與現(xiàn)有的方法相比,CAD更耗時、更難以使用,而且根據(jù)一些研究,使用CAD的診所比不使用CAD的診所更容易出錯。費城杰佛遜大學的放射學家Vijay Rao說,這次失敗讓許多醫(yī)生對計算機輔助診斷產(chǎn)生了懷疑。
然而,在過去的十年里,計算機視覺技術(shù)突飛猛進地發(fā)展——在諸如人臉識別和醫(yī)學等日常應用領(lǐng)域。這種進步在很大程度上是由深度學習方法的發(fā)展推動的。在深度學習方法中,給計算機一組圖像,然后讓它自己在這些圖像之間建立聯(lián)系,最終形成一個關(guān)聯(lián)網(wǎng)絡(luò)。例如,在醫(yī)學成像中,這可能涉及告訴計算機哪些圖像包含癌癥,并讓計算機自由地尋找這些圖像中常見但無癌癥圖像中不存在的特征。
人工智能技術(shù)在放射學領(lǐng)域的發(fā)展和應用迅速擴大。“去年,我參加的每一次大型會議,主題都是人工智能和成像,”北美放射學會前會長拉奧( Rao)說。“顯然,這是一個非常、非常熱門的話題。”
美國食品和藥物管理局(FDA)目前沒有公布已獲批準的人工智能產(chǎn)品清單。但加州拉霍亞市斯克里普斯研究所(Scripps Research Institute)的數(shù)字醫(yī)學研究員埃里克·托波爾(Eric Topol)估計,該機構(gòu)每月批準的醫(yī)學成像算法不止一種。營銷情報公司Reaction Data在2018年進行的一項調(diào)查發(fā)現(xiàn),84%的美國放射科診所已經(jīng)或計劃采用人工智能程序。這一領(lǐng)域在中國發(fā)展尤其迅速,有100多家公司正在設(shè)計用于醫(yī)療保健的人工智能應用程序。
總部位于特拉維夫的初創(chuàng)企業(yè)Aidoc的首席執(zhí)行官埃拉德?瓦拉赫(Elad Walach)表示:“現(xiàn)在是進入這個市場的絕佳時機。”該公司開發(fā)了用來分析CT掃描中的異常情況的算法,并將這些病人移至醫(yī)生優(yōu)先考慮的名單的首位。Aidoc還追蹤了醫(yī)生使用該程序的頻率,以及他們花多長時間對其結(jié)論進行事后分析。“一開始他們持懷疑態(tài)度,但兩個月后他們就習慣了,而且非常信任,”瓦拉赫說。
節(jié)省時間對挽救病人至關(guān)重要。最近一項關(guān)于肺部塌陷的胸部x光檢查的研究發(fā)現(xiàn),放射科醫(yī)生將60%以上的檢查列為最重要的檢查,這意味著他們可能要花上幾個小時來處理那些不太嚴重的病例,然后才能處理那些真正緊急的病例。總部位于波士頓的通用電氣醫(yī)療保健公司(GE Healthcare)副總裁兼人工智能總經(jīng)理卡利?約德(Karley Yoder)表示:“我遇到的每一位醫(yī)生都有一個病人因為肺塌陷而去世的故事。”該公司是醫(yī)療成像設(shè)備的領(lǐng)先制造商之一。去年9月,美國食品和藥物管理局批準了一套人工智能工具,該工具將嵌入通用電氣的掃描儀中,自動標記出最緊急的病例。
因為計算機可以處理大量的數(shù)據(jù),所以它可以執(zhí)行超出人類能力的分析任務(wù)。例如,谷歌正在利用其計算能力開發(fā)人工智能算法,將二維肺部CT圖像構(gòu)建為三維肺部,并觀察整個結(jié)構(gòu),以確定是否存在癌癥。相比之下,放射科醫(yī)生必須單獨觀察這些圖像,并試圖在腦中重建它們。另一種谷歌算法可以做一些放射科醫(yī)生根本做不到的事情:通過觀察患者的視網(wǎng)膜掃描,捕捉與血壓、膽固醇、吸煙史和衰老相關(guān)的細微變化,來確定患者患心血管疾病的風險。谷歌產(chǎn)品經(jīng)理Daniel Tse說:“這其中可能會有我們之前并未了解的潛在的信號。”
黑箱問題
人工智能程序最終可能會揭示生物學特征與患者預后之間的全新聯(lián)系。《美國醫(yī)學會雜志》網(wǎng)絡(luò)版(JAMA Network Open) 2019年發(fā)表的一篇論文描述了一種深度學習算法,該算法對超過8.5萬名參與了兩項大型臨床試驗的人進行了訓練,這些試驗對他們進行了12年多的追蹤。該算法對每個病人在這段時間內(nèi)的死亡風險進行評分。研究人員發(fā)現(xiàn),被人工智能歸入高風險類別的人中,有53%的人在12年內(nèi)死亡,而被歸入低風險類別的人中,只有4%的人死亡。該算法沒有關(guān)于誰死亡或死因的信息。首席研究員、馬薩諸塞州總醫(yī)院(Massachusetts General Hospital)的放射科醫(yī)生邁克爾·盧(Michael Lu)說,如果結(jié)合醫(yī)生的評估和其他數(shù)據(jù),比如基因,這種算法可能會成為評估病人健康狀況的有用工具。
為了了解算法是如何工作的,研究人員識別出了用于計算的圖像部分。有些,如腰圍和女性乳腺結(jié)構(gòu),是有意義的,因為這些區(qū)域可以暗示某些疾病的已知風險因素。但該算法也研究了患者肩胛骨下的區(qū)域,這一區(qū)域沒有已知的醫(yī)學意義。盧認為,靈活性可能是壽命縮短的一個預測指標。做x光胸透通常需要患者抱著機器,而身體不太健康的人如果不能把手臂完全環(huán)繞著機器,他們的肩膀可能會擺成另一種姿勢。
電腦和人類思維方式的脫節(jié)被稱為“黑盒問題”:即電腦在一個人類無法進入的模糊空間中運作。專家們對這在醫(yī)學成像中是否存在問題意見不一。一方面,如果一個算法持續(xù)地改善醫(yī)生的表現(xiàn)和病人的健康,醫(yī)生不需要知道它是如何工作的。畢竟,研究人員還沒有完全了解許多藥物的作用機制,比如自20世紀50年代以來一直用于治療抑郁癥的鋰。不過話說回來,也許我們不應該如此執(zhí)著,因為人類目前在醫(yī)學領(lǐng)域的工作方式仍有點類似黑箱方式。我們又憑什么對機器有更高的標準呢?
然而,不可否認的是,黑箱子為人類和人工智能之間的誤解提供了大量的機會。例如,西奈山伊坎醫(yī)學院(Icahn School of Medicine at Mount Sinai)的研究人員發(fā)現(xiàn),他們開發(fā)的一種用于識別肺部x射線肺炎的深度學習算法在性能上存在差異,這讓他們深感困惑。在西奈山生產(chǎn)的x光片上,它的準確率超過90%,但在其他機構(gòu)的掃描中,準確率要低得多。他們最終發(fā)現(xiàn),該算法不僅分析了這些圖像,還考慮了在每個機構(gòu)中肺炎發(fā)病率的基礎(chǔ)上得出陽性結(jié)果的幾率——而這不是他們期望或希望該程序做的事情。
哈佛醫(yī)學院(Harvard Medical School)研究機器學習生物醫(yī)學應用的塞繆爾·芬萊森(Samuel Finlayson)對這些混淆因素感到擔憂。他指出,人工智能訓練的數(shù)據(jù)集可能會有偏差,而開發(fā)人員沒有考慮到這一點。例如,在急診室或半夜拍攝的照片可能比常規(guī)檢查時拍攝的照片更容易顯示出病人。一種算法也可以學習查看疤痕或醫(yī)療設(shè)備植入物,這些表明以前的健康問題,并決定沒有這些標記的人沒有這種情況。即便是機構(gòu)給自己的圖像貼上標簽的方式,也可能會讓人工智能算法感到困惑,并妨礙模型在另一家機構(gòu)的不同標簽系統(tǒng)中正常運行。“如果你在醫(yī)院里天真地從一個地點、一個時間、一個人群來訓練(算法),你就不會意識到模型所考慮的成千上萬個小因素。如果這些改變中的任何一項發(fā)生,都會有損結(jié)果的準確性,”芬萊森警告說。
芬萊森說,解決方案是用來自許多地方和不同患者群體的數(shù)據(jù)訓練一個算法,然后在一個新的患者群體中進行前瞻性測試——不做任何修改。但是很少有算法被這樣測試過。根據(jù)Topol最近的《自然醫(yī)學評論》(Nature Medicine review),在數(shù)十項聲稱人工智能表現(xiàn)優(yōu)于放射科醫(yī)生的研究中,只有少數(shù)在與人工智能研發(fā)地不同的人群中進行了測試。“算法是非常、非常微妙的,”杜克大學(Duke University)計算機科學家辛西婭?魯丁(Cynthia Rudin)表示。“如果你嘗試在(圖像)訓練集之外使用一種方法,并不總是奏效。”
隨著研究人員意識到這一問題,更多人開始在新環(huán)境下的前瞻性研究可能即將出現(xiàn)。巴茲蕾的團隊最近完成了對瑞典卡羅林斯卡學院10000次掃描的乳腺x光片人工智能的測試,結(jié)果發(fā)現(xiàn)它在那里的表現(xiàn)和在馬薩諸塞州一樣好。該組織目前正與臺灣和底特律的醫(yī)院合作,在更多樣化的患者群體中進行測試。研究小組發(fā)現(xiàn),目前評估非裔美國女性患乳腺癌風險的標準要低得多,巴茲蕾說,因為這些標準主要是用白人女性的掃描數(shù)據(jù)制定的:“我認為我們確實有能力改變這種可悲的狀況。”
法律的未知領(lǐng)域
即使人工智能的結(jié)論在醫(yī)學上是相關(guān)的,但從法律角度來看,黑匣子仍然存在一些問題。如果人工智能做出了錯誤的診斷,就很難判斷是醫(yī)生的錯,還是程序的錯。密歇根大學的健康法律專家尼克爾森?普萊斯說:“醫(yī)療保健領(lǐng)域發(fā)生了很多不好的事情,你不一定知道為什么會發(fā)生這些糟糕的事情。”如果人工智能系統(tǒng)導致醫(yī)生做出錯誤診斷,醫(yī)生可能無法解釋原因,而該公司關(guān)于測試方法的數(shù)據(jù)很可能是一個受到嚴密保護的商業(yè)機密。
醫(yī)療人工智能系統(tǒng)還太新,尚未在醫(yī)療事故訴訟中受到挑戰(zhàn),因此,目前尚不清楚法院將如何確定責任,以及應要求何種透明度。
建立黑盒算法的趨勢讓Rudin很沮喪。這個問題來自于這樣一個事實,即大多數(shù)醫(yī)學算法都是通過采用為其他類型的圖像分析開發(fā)的深度學習工具來構(gòu)建的。“你沒有理由不能造出一個能自我解釋的機器人,”她堅持說。但是,從頭構(gòu)建一個透明的算法要比重新利用現(xiàn)有的黑盒算法來查看醫(yī)療數(shù)據(jù)要難得多。
Rudin正在開發(fā)透明的人工智能算法,分析疑似腫瘤的乳腺x光片,并不斷向研究人員通報他們的工作。但她的研究一直受到缺乏可用圖像來訓練算法的阻礙。Rudin說,公開提供的圖像往往標識不清,或者是用已經(jīng)不再使用的舊機器拍攝的,如果沒有龐大而多樣的數(shù)據(jù)集,算法往往會發(fā)現(xiàn)混淆的因素。
黑匣子,以及人工智能算法從經(jīng)驗中學習的能力,也給監(jiān)管機構(gòu)帶來了挑戰(zhàn)。與總是以相同方式工作的藥物不同,機器學習算法會隨著時間的推移而改變和改進,因為它們可以訪問更多的患者數(shù)據(jù)。由于該算法從如此多的輸入中提取意義,一些看似無害的變化,如醫(yī)院的新IT系統(tǒng),可能會突然毀掉人工智能程序。“機器會像人一樣生病,它們也會被惡意軟件感染,”Topol說。“當一個人的生命處于危險之中時,你不能相信一個算法。”
去年4月,F(xiàn)DA提出了一套指導方針來管理隨時間變化的算法。其中一個期望是,生產(chǎn)商要密切關(guān)注自己的算法如何變化,以確保它們繼續(xù)按設(shè)計工作,并要求它們在發(fā)現(xiàn)可能會促使重新評估的意外變化時通知FDA。該機構(gòu)還在開發(fā)最佳制造實踐,并可能要求企業(yè)闡明它們對算法可能如何變化的預期,以及如何管理這些變化的協(xié)議。“我們需要明白,從來沒有一種萬能藥,”FDA數(shù)字健康主管巴庫爾·帕特爾(Bakul Patel)說。
機器會取代醫(yī)生嗎?
人工智能的局限性應該會讓擔心機器會搶走他們工作的放射科醫(yī)生放心。2012年,科技風險投資家、太陽微系統(tǒng)公司(Sun Microsystems)的聯(lián)合創(chuàng)始人維諾德·科斯拉(Vinod Khosla)預測,算法將取代80%的醫(yī)生,這一預測讓醫(yī)學界震驚。最近,他聲稱,10年后仍在執(zhí)業(yè)的放射科醫(yī)生將“殺死病人”。Rao說,這樣的言論在放射學領(lǐng)域引起了恐慌和反彈。“我認為炒作造成了很多期望。”
但這種擔憂也產(chǎn)生了切實的影響。2015年,美國只有86%的放射科住院醫(yī)師職位得到填補,而前一年為94%,盡管這些數(shù)字在過去幾年中有所改善。根據(jù)2018年對322名加拿大醫(yī)科學生的調(diào)查,68%的學生認為人工智能將減少對放射科醫(yī)生的需求。
盡管如此,大多數(shù)專家和人工智能制造商仍懷疑人工智能是否會很快取代醫(yī)生。“人工智能解決方案正變得非常擅長把一件事做得非常好,”瓦拉赫說。但由于人類生物學是復雜的,他說,“你通常必須讓人把不止一件事做得非常好。”換句話說,即使一個算法在診斷某個特定問題上做得更好,把它與醫(yī)生的經(jīng)驗和對病人個人情況的了解結(jié)合起來,也會得到更好的結(jié)果。
能夠很好地完成一項任務(wù)的人工智能可以讓放射科醫(yī)生從繁重的工作中解脫出來,讓他們有更多的時間與患者互動。托波爾說“我們在醫(yī)學上需要的是更多的人與人之間的接觸和聯(lián)系。”
盡管如此,Rao和其他人相信,由于人工智能算法的出現(xiàn),放射科醫(yī)生所接受的工具和培訓,包括他們的日常工作,將在未來幾年發(fā)生巨大的變化。“人工智能不會取代放射科醫(yī)生,但使用人工智能的放射科醫(yī)生會取代不使用人工智能的放射科醫(yī)生,”斯坦福大學放射科醫(yī)生柯蒂斯?蘭羅茲(Curtis Langlotz)表示。
然而,也有一些例外。2018年,F(xiàn)DA批準了第一個無需醫(yī)生查看圖像就能做出醫(yī)療決定的算法。IDx技術(shù)公司在愛荷華州的Coralville開發(fā)了這個項目,通過觀察視網(wǎng)膜圖像來檢測糖尿病視網(wǎng)膜病變,根據(jù)該公司的數(shù)據(jù),準確率高達87%。IDx首席執(zhí)行官邁克爾·阿布拉莫夫表示,由于沒有醫(yī)生參與,公司已經(jīng)為任何醫(yī)療事故承擔了法律責任。
在短期內(nèi),人工智能算法更有可能幫助醫(yī)生,而不是取代他們。例如,在發(fā)展中國家工作的醫(yī)生可能無法獲得與美國或歐洲主要醫(yī)療機構(gòu)相同種類的掃描儀,或者無法獲得能夠解釋掃描結(jié)果的訓練有素的放射科醫(yī)生。倫格倫說,隨著醫(yī)學變得更加專業(yè)化和依賴于圖像分析,富裕地區(qū)和貧困地區(qū)提供的醫(yī)療服務(wù)標準之間的差距正在擴大。運行一種算法可能是縮小這一差距的一種廉價方式,甚至可以在移動電話上實現(xiàn)。
隆格倫的團隊正在開發(fā)一種工具,可以讓醫(yī)生用手機拍攝x光膠片——而不是發(fā)達國家標準的數(shù)字掃描——并在照片上運行一種算法來檢測肺結(jié)核等疾病。“它不會取代任何人,”他說——許多發(fā)展中國家一開始就沒有放射科醫(yī)生。“我們正在擴充非放射科醫(yī)生,把專業(yè)知識帶到他們的指尖。”
Rao說,人工智能的另一個短期目標可能是首先檢查醫(yī)療記錄,以確定病人是否需要掃描。許多醫(yī)學經(jīng)濟學家認為成像被過度使用——僅在美國每年就有超過8000萬例的CT掃描。盡管如此豐富的數(shù)據(jù)有助于研究人員使用它來訓練算法,但掃描的成本極高,可能會讓病人暴露在不必要的輻射中。同樣,隆格倫補充說,有一天,算法可以在患者仍在掃描儀中時分析圖像并預測最終結(jié)果,從而減少獲得良好圖像所需的時間和輻射暴露量。
最后,巴茲蕾說,當人工智能作為一個敏銳的合作伙伴來處理那些醫(yī)生無法獨自發(fā)現(xiàn)和解決的問題時,它將是最有用的。
責任編輯:ct
評論
查看更多