前幾天,德國(guó)和法國(guó)的幾位研究人員在Oxford Academic上發(fā)表了一篇名為Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists的文章,這個(gè)長(zhǎng)長(zhǎng)長(zhǎng)長(zhǎng)的標(biāo)題告訴我們,這又是一篇讓人去跟機(jī)器比賽的故事,目的是看誰(shuí)識(shí)別皮膚黑色素瘤的準(zhǔn)確度更高。最終結(jié)果表明深度學(xué)習(xí)模型優(yōu)于人類醫(yī)生。
但今天,澳大利亞的醫(yī)學(xué)博士、放射科醫(yī)生Luke Oakden-Rayner在推特上質(zhì)疑論文的嚴(yán)謹(jǐn)性,認(rèn)為結(jié)論過(guò)于草率,低估了人類表現(xiàn)。到底雙方哪種說(shuō)法更合理呢?我們先看看這篇論文到底講了什么。
CNN vs 人類
過(guò)去幾十年,黑色素瘤成為威脅公共安全的一大主要挑戰(zhàn),連續(xù)攀升的發(fā)病率以及死亡率,讓早期發(fā)現(xiàn)及預(yù)防成為診斷的關(guān)鍵。多項(xiàng)分析表明,皮膚鏡的應(yīng)用大大提高了診斷準(zhǔn)確率。然而,每位醫(yī)師接受的訓(xùn)練不同,水平也參差不齊,目前黑色素瘤的平均診斷準(zhǔn)確度還不到80%。
最近幾年,一些自動(dòng)計(jì)算機(jī)圖像分析技術(shù)的出現(xiàn),意在幫助提高醫(yī)療診斷準(zhǔn)確率和效率。但這些方法都有限制,它們都使用人類規(guī)定的皮膚鏡診斷標(biāo)準(zhǔn)進(jìn)行的判斷,例如是否有多色、特殊形態(tài)例如條紋狀和結(jié)節(jié)狀,或不規(guī)則血管結(jié)構(gòu)。
2017年,Esteva等人發(fā)表論文,宣布他們創(chuàng)建了一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,可以對(duì)圖片進(jìn)行分類,其中CNN無(wú)需被人類的標(biāo)準(zhǔn)所限制,它可以將數(shù)字圖片分解成像素級(jí)水平,并最終進(jìn)行診斷。這篇論文也被看作是革命性的作品。
而本次德國(guó)和法國(guó)的研究者目的是訓(xùn)練、驗(yàn)證并測(cè)試一個(gè)深度學(xué)習(xí)CNN,讓它對(duì)皮膚鏡成像進(jìn)行診斷分類,判斷是黑色素瘤還是良性的痣,并將結(jié)果和58位皮膚科醫(yī)生相比較。
具體方法
谷歌的Inception v4 CNN架構(gòu)是用皮膚鏡圖像和對(duì)應(yīng)的診斷結(jié)果訓(xùn)練并驗(yàn)證的。在橫向的人類醫(yī)生驗(yàn)證中有100張圖片組成的測(cè)試集(其中第一步只用皮膚鏡觀察,第二步會(huì)加上診斷信息和圖片)。對(duì)輸出進(jìn)行測(cè)量的標(biāo)準(zhǔn)主要有敏感性(sensitivity)、特異度(specificity)和CNN對(duì)病變處的診斷分類的ROC曲線的AUC值與讀者研究中58名人類醫(yī)生的對(duì)比。
次要評(píng)估指標(biāo)包括皮膚科醫(yī)生在管理決策時(shí)的診斷表現(xiàn),以及在兩個(gè)不同階段上診斷的差異。除此之外,CNN的性能還會(huì)與2016年國(guó)際生物醫(yī)學(xué)成像研討會(huì)(ISBI)挑戰(zhàn)賽上排名前五的算法進(jìn)行比較。
對(duì)比結(jié)果
在人類醫(yī)生的第一階段表現(xiàn)中,他們的得分較接近平均水平,在對(duì)病變的分類上,敏感性為86.6%(±9.3%),特異度為71.3%(±11.2%)。第二階段增加了更多信息后,敏感性上升至88.9%(±9.6%,P=0.19),特異度升為75.7%(±11.7%,P<0.05)。
而CNN的ROC曲線在第一階段中,特異度就高于人類醫(yī)生,為82.5%。而CNN的ROC AUC分?jǐn)?shù)也比醫(yī)生的平均ROC面積要高,為0.86 vs 0.79,P<0.01。CNN的最終分?jǐn)?shù)與2016 ISBI挑戰(zhàn)賽上前三的算法分?jǐn)?shù)接近。
結(jié)論
在包括30名專家的58位皮膚科醫(yī)生團(tuán)隊(duì)中,這是我們首次將CNN與人類進(jìn)行對(duì)比。大多情況下,CNN的表現(xiàn)要優(yōu)于人類醫(yī)生。研究者并不否認(rèn)醫(yī)生的經(jīng)驗(yàn)和努力,而是認(rèn)為在CNN圖像分類技術(shù)的幫助下,診斷率會(huì)更高。
AI贏了?
這篇論文發(fā)表后,獲得了許多大V轉(zhuǎn)發(fā),其中就包括卷積網(wǎng)絡(luò)之父Yann LeCun。
雖然只重復(fù)了一遍對(duì)比結(jié)果,LeCun的轉(zhuǎn)發(fā)也獲得了300多點(diǎn)贊。
同時(shí),華盛頓郵報(bào)、醫(yī)學(xué)網(wǎng)站等媒體也紛紛報(bào)道了這一結(jié)果,聲稱“AI打敗了人類”,但有人卻針對(duì)其中的統(tǒng)計(jì)方法提出了質(zhì)疑。
論文很好,但有瑕疵
今天,放射科專家、醫(yī)學(xué)博士Luke Oakden-Rayner在推特上表示:這篇論文有瑕疵!簡(jiǎn)單地說(shuō),他認(rèn)為論文研究者低估了人類醫(yī)生的表現(xiàn)。論智君將具體原因編譯如下:
我認(rèn)為,研究者們?cè)趯?duì)比人類和機(jī)器時(shí)用的是兩種不同的指標(biāo)!對(duì)機(jī)器用的是AUC,對(duì)人類用的是“ROC區(qū)域”得出的平均敏感性和特異度。除了指標(biāo)不同,“ROC區(qū)域”整體就比AUC要低。實(shí)際上,皮膚科醫(yī)生表現(xiàn)的越好,它就越偏離假設(shè)的AUC。
根據(jù)論文數(shù)據(jù),我們可以也計(jì)算一下模型的“ROC區(qū)域”,結(jié)果如下,跟人類的分?jǐn)?shù)一樣都是79。
在特異度方面,對(duì)比的缺陷就更不易察覺(jué)了。專家醫(yī)生分布在ROC曲線上,所以平均敏感性和特異度把醫(yī)生的平均值放在了曲線內(nèi),同時(shí)模型還是在曲線上測(cè)試的。再說(shuō)一遍,人類被低估了。下面是ROC曲線的其中一個(gè)例子,粉點(diǎn)是平均分。
另外,我不確定研究者是否選擇了合適的操作點(diǎn)(OP),在CNN和醫(yī)生對(duì)比的過(guò)程中,研究人員似乎是基于測(cè)試數(shù)據(jù)進(jìn)行選擇的。在它們的ROC中,一個(gè)合理選擇的OP大大降低了敏感性和特異度的值。下圖中紫色的點(diǎn)是他們的OP,黑色的點(diǎn)只是靠近OP所在區(qū)域。
注意這個(gè)ROC曲線看起來(lái)有點(diǎn)奇怪,因?yàn)榍安恐С值狞c(diǎn)很少,也就是說(shuō)這個(gè)區(qū)域比上部更缺少數(shù)據(jù)支持。
最后,我不清楚他們是怎么計(jì)算p-value的。在給定操作點(diǎn)(平均醫(yī)生的敏感性)的情況下,研究者認(rèn)為特異度在小于0.01的p-value下更好,但是在ROC數(shù)字表現(xiàn)在曲線上時(shí)置信區(qū)間竟然有68%!即使是圖表解釋的有問(wèn)題,或者存在±2的標(biāo)準(zhǔn)差,95%的數(shù)值還是在曲線上的。我不知道這跟p-value<0.01有什么關(guān)系。
要說(shuō)明的是,我并不全盤否定這篇論文,我認(rèn)為這種討論很有意義。只是其中有一些我認(rèn)為不嚴(yán)謹(jǐn)?shù)牡胤剑M业慕ㄗh有用。
結(jié)語(yǔ)
說(shuō)到最后,其實(shí)是在對(duì)比方式上存在質(zhì)疑。也許論文的研究者需要考慮一下他們的統(tǒng)計(jì)測(cè)試是否公平,因?yàn)橹粚?duì)醫(yī)生們的檢測(cè)敏感性和特異度取平均值說(shuō)服力還是不夠。這也給我們提了醒,在閱讀論文時(shí)不要一味地迷信,要勤于思考,在發(fā)現(xiàn)論文閃光點(diǎn)的同時(shí)還要確保邏輯上的準(zhǔn)確。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4789瀏覽量
101827 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5531瀏覽量
122074
原文標(biāo)題:這篇被Yann LeCun轉(zhuǎn)發(fā)的論文,被質(zhì)疑了
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
labview調(diào)用深度學(xué)習(xí)tensorflow模型非常簡(jiǎn)單,附上源碼和模型
深度學(xué)習(xí)模型是如何創(chuàng)建的?
什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?
“人工智能醫(yī)生”會(huì)取代人類醫(yī)生嗎?
如何使用深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)音聲學(xué)模型的研究

評(píng)論