站在2018年,圖像分類準(zhǔn)確率在95%以上的模型,已經(jīng)遍地都是。回想2012年,被稱之為“深度學(xué)習(xí)教父”的Hinton帶著學(xué)生們以ImageNet16.4%的錯(cuò)誤率震驚計(jì)算機(jī)視覺研究界,似乎已經(jīng)是遠(yuǎn)古時(shí)期的歷史。
通常認(rèn)為機(jī)器學(xué)習(xí)是過去幾十年發(fā)展出來的一個(gè)新學(xué)科,但王立威教授看來,其實(shí)機(jī)器學(xué)習(xí)一直伴隨著人類文明的發(fā)展。從人類真正有文明、有科學(xué)那天,就有機(jī)器學(xué)習(xí)。
王立威
北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授。主要從事機(jī)器學(xué)習(xí)理論研究。高水平論文100余篇。2011年入選在機(jī)器學(xué)習(xí)國際權(quán)威期刊會議發(fā)表由人工智能國際期刊IEEE Intelligence Systems評選的AI’s 10 to Watch,是該獎項(xiàng)自設(shè)立以來首位獲此榮譽(yù)的亞洲學(xué)者。2012年獲得首屆國家自然科學(xué)基金優(yōu)秀青年基金。擔(dān)任國際機(jī)器學(xué)習(xí)旗艦會議NIPS領(lǐng)域主席。
從奧卡姆剃刀理論到機(jī)器學(xué)習(xí)
早在13世紀(jì),威廉姆·奧卡姆就提出“奧卡姆剃刀理論”,這個(gè)原理稱為“如無必要,勿增實(shí)體”,即“簡單有效原理”。對這個(gè)理論的解釋,還有一位更著名的科學(xué)家和一段更著名的話——“Everythingshouldbe made as simple as possible but no simpler”,這句話出自愛因斯坦,意思是做理論的時(shí)候一定要盡可能的簡單,但又不能過于簡單。對應(yīng)物理模型,一定要找到一些模型,允許存在一定的誤差,但又不能過于簡單,否則和觀測的數(shù)據(jù)誤差太大也不行,“奧卡姆剃刀理論”就是機(jī)器學(xué)習(xí)或者整個(gè)人類在獲取科學(xué)知識的歷程中,最核心、最本質(zhì)的思想。
機(jī)器學(xué)習(xí)理論究竟有什么意義?只為了證明界(bound),為了說明算法在實(shí)際應(yīng)用的錯(cuò)誤率能小于多少,還是說它在傳達(dá)更高層的信息?王教授的觀點(diǎn)是,機(jī)器學(xué)習(xí)理論是后者,絕對不是為了證明一個(gè)算法的邊界如何;機(jī)器學(xué)習(xí)理論的目的,在于提供對機(jī)器學(xué)習(xí)問題的洞察和理解。
而“泛化”則是學(xué)習(xí)理論最重要的概念之一。學(xué)習(xí)目的是希望學(xué)好一個(gè)模型,并且讓這個(gè)模型在未來的場景數(shù)據(jù)上有非常高的準(zhǔn)確度。泛化的錯(cuò)誤,就是指一個(gè)模型在未來的應(yīng)用場景下的錯(cuò)誤率,即泛化誤差。通常訓(xùn)練模型時(shí),可以拿到很多訓(xùn)練數(shù)據(jù),學(xué)一個(gè)分類器,在訓(xùn)練數(shù)據(jù)上得到一個(gè)錯(cuò)誤率。而這個(gè)訓(xùn)練的錯(cuò)誤率和泛化誤差實(shí)際上是有本質(zhì)區(qū)別的。這個(gè)區(qū)別正是機(jī)器學(xué)習(xí)理論要研究的內(nèi)容。
機(jī)器學(xué)習(xí)應(yīng)用任重道遠(yuǎn)
2012 年以來,不論是深度網(wǎng)絡(luò)層數(shù)的不斷拓展,還是系統(tǒng)在數(shù)據(jù)集上的優(yōu)異表現(xiàn),都讓學(xué)術(shù)界對機(jī)器學(xué)習(xí)有了新的認(rèn)識。彼時(shí)的王立威教授,已經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域做了大量的研究,并憑借突出的表現(xiàn)在2011年成為首位入選 AI's 10 to Watch 的亞洲學(xué)者。
但王立威教授認(rèn)為,這一切只是個(gè)開始。“機(jī)器學(xué)習(xí)在近年來取得了顯著的突破與發(fā)展,除了理論的研究外,更重要的是,學(xué)者們需要看清技術(shù)對生活產(chǎn)生的重大影響。”王立威教授身處人工智能浪潮的前沿,自然也希望能在機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域有所作為。他認(rèn)為有三個(gè)領(lǐng)域會與深度學(xué)習(xí)進(jìn)行緊密的結(jié)合,并希望能夠選擇其中一個(gè)方面來進(jìn)行深入研究:一個(gè)是無人駕駛;一個(gè)是金融領(lǐng)域;再一個(gè)則是醫(yī)療領(lǐng)域。王立威教授對機(jī)器學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用也頗有研究。一方面,醫(yī)學(xué)影像屬于靜態(tài)圖像識別,相對于視頻的處理技術(shù)要更加成熟;另一方面,依托北京大學(xué)的一系列附屬醫(yī)院,不論是從數(shù)據(jù)的獲取或是系統(tǒng)的測試落地上,王立威教授所在的北京大學(xué)研究團(tuán)隊(duì)都有著得天獨(dú)厚的優(yōu)勢。
王教授表示,如果開發(fā)者要執(zhí)行的任務(wù)處于非常封閉的環(huán)境,和人的常識沒有什么關(guān)系,這樣的任務(wù)非常適合機(jī)器來做,但是如果這項(xiàng)任務(wù)和常識掛鉤,例如對自然語言的理解,對于機(jī)器而言難度非常大。“醫(yī)學(xué)影像相對而言是具有一定封閉性的問題。”
當(dāng)然,不是說醫(yī)學(xué)影像具有一定的封閉性,AI就能夠在醫(yī)學(xué)領(lǐng)域暢行無阻。王立威教授列舉了兩個(gè)AI對醫(yī)學(xué)影像產(chǎn)生重大影像的案例——斯坦福團(tuán)隊(duì)在皮膚癌檢測以及Google的DeepMind的糖網(wǎng)篩查。
王教授的觀點(diǎn)是:
第一,醫(yī)學(xué)影像處理病種的數(shù)量非常龐大,上述兩個(gè)團(tuán)隊(duì)的例子解決的都是單病種問題。醫(yī)學(xué)影像上一共可以分為兩千多個(gè)的病種。“解決一個(gè)單病種已經(jīng)不是簡單的事情,斯坦福的團(tuán)隊(duì)已經(jīng)和頂級的醫(yī)學(xué)專家研究數(shù)年才得到目前的成果,要囊括兩千多個(gè)病種更是難上加難。此外,病種與病種之間的差異度也很大,所以,AI 醫(yī)學(xué)影像需要頂級醫(yī)學(xué)專家和頂級機(jī)器學(xué)習(xí)學(xué)者通力合作才有可能成功。”
第二,成像設(shè)備的差異會產(chǎn)生多種類型的圖像。CT、MRI、X光、超聲、內(nèi)窺鏡、病理切片這些圖像缺乏一定的標(biāo)準(zhǔn)。“現(xiàn)在我們只是在一些病種上進(jìn)行單點(diǎn)突破,整個(gè)醫(yī)學(xué)影像仍任重道遠(yuǎn)。”
毫無疑問,機(jī)器學(xué)習(xí)已經(jīng)成為人工智能的主流研究方向之一。本次的CCAI2018大會,特別邀請北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授王立威給我們呈現(xiàn)一場題為《機(jī)器學(xué)習(xí)簡介——方法、應(yīng)用與展望》的講座。屆時(shí)王教授將對機(jī)器學(xué)習(xí)領(lǐng)域的主要技術(shù)方法,包括深度學(xué)習(xí)、概率圖模型、boosting、在線學(xué)習(xí)等進(jìn)行簡要介紹,同時(shí)分析這些方法的優(yōu)勢與局限。在本次大會的專題講座中,王立威教授還將對目前人工智能領(lǐng)域最受關(guān)注的應(yīng)用,包括人工智能醫(yī)療、金融、無人駕駛等,從機(jī)器學(xué)習(xí)技術(shù)的角度進(jìn)行分析。王教授還將展望機(jī)器學(xué)習(xí)未來技術(shù)的發(fā)展方向與趨勢,以及對產(chǎn)業(yè)應(yīng)用可能帶來的影響。讓我們共同期待,共同迎接這場機(jī)器學(xué)習(xí)盛宴的到來吧!
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132928 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121410
原文標(biāo)題:CCAI2018 | 如無必要 勿增實(shí)體——機(jī)器學(xué)習(xí)方法、應(yīng)用與展望
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論