回首人工智能的發展,深度學習無疑是過去十年的最大亮點,它在計算機視覺方面的突破性進展,使其幾乎等同于人工智能。那么,未來十年,人工智能將朝著哪個方向前進?通用人工智能會在何時以什么樣的形式出現?
在2020北京智源大會上,北京智源人工智能研究院理事長張宏江同康奈爾大學計算機教授 Bart Selman、圖靈獎得主 John Hopcroft 就以上問題作出了回答。
人工智能技術的出現可以追溯到二十世紀上半葉計算機學科創立之時,阿蘭圖靈提出 “圖靈測試”,討論可計算性的邊界。1956年達特茅斯會議上,AI 作為一個學科正式宣布誕生。
但很長時間以來,人工智能都未能成功走出象牙塔,在產業和公共部門得到廣泛使用,或成為人們日常生活的一部分。從1960年代的符號推理系統,到1980年代的專家系統,人工智能出現過幾次破殼而出的跡象,但都未能成功變成產業級應用。
在過去十年,一切都改變了。
在北京智源大會上,北京智源人工智能研究院理事長張宏江作為主持人,同康奈爾大學計算機教授 Bart Selman、圖靈獎得主 John Hopcroft 探討了近年來 AI 的飛速發展和 AI 研究的未來:過去十年 AI 領域發生了什么?接下來十年 AI 又將如何發展?
追溯這場革命,一個繞不開的時間點,是 2012年深度神經網絡 AlexNet 在 ImageNet 大規模圖像識別挑戰競賽中取得的驚人成就。
彼時,使用8層神經元的 AlexNet 把圖像識別的錯誤率從 25% 的水平大幅降到了 15%。自此,僅僅3年之后,人們就學會了訓練多達100層神經元的深度神經網絡 ResNet,將圖像識別的錯誤率降到了3.6%。這個水平已然超越人類的水平 (5%) 。截至2020年6月,AlexNet 的論文被引用次數已經超過6萬4千次。這是深度學習技術的驚人首秀。
如今,深度學習幾乎可以和 AI 劃等號。深度學習的基礎:人工神經網絡,在1950年代已經出現,用于訓練神經網絡的反向傳播算法 (backpropagation) 出現在1986年,用于自然語言處理領域的長短期記憶算法 (LSTM) 出現在1997年。但在過去的許多年里,訓練數據和計算能力都十分匱乏。那時的研究者縱使有許多思路,也很難去驗證。
“在我獲得博士學位的60年代初,我曾經參與手工制作了上千幅100x100 像素的符號圖像,這在當時看來就已經是巨量數據了。” Hopcroft 說。
但摩爾定律和互聯網時代的出現終于改變了一切。到了2010年代,基于高性能 GPU 的計算和互聯網上產生的大量數據,人們終于能大量訓練深度神經網絡,去驗證自己的想法。這是過去10年 AI 飛速進步的主要原因。
不過,因為深度學習技術的革命性成功,其他 AI 技術的應用被某種程度上忽略了。經典的 AI 技術,例如機器推理、規劃、搜索等,在過去十年同樣取得了很大進步。
Selman 說, “一個很好的例子是 AlphaGo。它除了使用了基于深度學習的強化學習技術,也使用了2006年左右發明的蒙特卡洛樹搜索技術。這是一個經典的、純粹的符號邏輯算法。” 另一個例子是自動駕駛系統。雖然對街道上物體的識別技術來源于深度學習,但在設計交通路線的時候,還是需要依靠傳統搜索、規劃、推理等 AI 技術。
Selman 認為,忽略非數據驅動的 AI 技術,可能會成為 AI 技術在未來十年取得更大突破的障礙。
“如果說數據是大量標注好的圖片,或者語音和文字的對應關系,那么知識就好比是牛頓定律,往往只需少數幾條,就能解釋大量數據。” Selman 說。數據驅動的 AI 技術雖然在許多應用領域非常有效,但仍然比不上人類學習的效率。人類學習過程是基于 “小樣本” 的,Selman 說,“只需要幾個例子,外加一些老師的指導,人類就能理解某個知識。”
2019年8月,Selman 和現任國際人工智能學會 (AAAI) 主席 Yolanda Gil 共同起草了《美國未來20年人工智能研究路線圖》 ( A 20-Year Community Roadmap for Artificial Intelligence Research in the US) 。該白皮書強調未來的一個研究重點是 “有自我意識的學習” (self-aware learning) 。 “某個人在學習某個科目,比如說微積分時,他對自己的知識掌握情況會有一個評估,他會主動提問,或者針對自己的弱項進行更多的練習。” Selman 解釋道。這些是目前 AI 欠缺的能力。
僅僅靠數據驅動的路徑,雖然能讓 AI 在一些領域達到接近或者超過人類的水平,例如人臉識別。但在另一些領域,比如自動駕駛,我們需要的是接近100%的安全性。Selman 認為,這最后的10%、5%的提升,可能不是深度學習本身的進展能夠解決的,我們需要不同的思路。
Selman 指出,深度學習技術除了在效率上的不足外,還有更多的問題。
例如黑箱問題。深度學習算法通常只能給出判斷,卻不能給出判斷的理由。假如基于深度學習技術的 AI 是考試的閱卷官,它雖然能夠評分,卻不能給出評分的理由,被評分的學生可能會非常不滿。假如這樣的 AI 系統要負責給出醫療診斷的方案,卻不能讓醫生理解這個方案的道理,那么醫生們可能會拒絕執行這樣的治療方案,病人也很難獲得充分的溝通。此外,端到端 (end-to-end) 訓練的深度學習系統,可能會過于復雜,使得工程師無法分別針對其組成部分進行質量測試。這對于需要極高安全性的自動駕駛系統而言就會成為一個問題。
另外,數據驅動的 AI 技術還面臨著數據偏見的問題。例如當前科技領域的從業者主要是男性,如果 AI 作為招聘官,可能會認為男性更適合從事高科技職業,從而拒絕合格的女性應聘者。這些偏見存在于數據之中,人類能夠憑借自己對歷史和社會的認識,去避免過分地看重某些經驗數據。但目前的 AI 系統仍然大多處于 “偏見進,偏見出” (bias in,bias out) 的狀態,無法糾正訓練數據中的偏見。
事實上,在《美國未來20年人工智能研究路線圖》中,Selman 對以上問題進行了更全面的回應。該白皮書確定了三個需要重點關注的研究方向:分別是(1)集成化的智能 (Intergrated Intelligence) ,強調要將各種解決特定問題的 AI 技術模塊組合起來,同時要建立 AI 能理解的人類知識庫;(2)有意義的交互 (Meaningful interaction) 強調人機交互時的隱私問題,以及用戶對系統的理解、信任和控制能力;(3)有自我意識的學習 (Self-aware learning) ,強調小樣本學習、因果推斷、高穩定性的學習算法,有意圖 (intentional) 的感知和行動。這三個方面均對目前深度學習之外的 AI 技術,或者深度學習的弱點進行了補充。
在會議上,Selman談到,現在 Google,Facebook,Apple 等大公司吸收了大量的 AI 資源,包括有天賦的學生和教授 ,但商業利益導向的研究可能會忽略掉一些重要領域的需求,比如教育和醫療系統。他提議,美國在未來需要更多地支持學術界和非 IT 商業領域的 AI 研究,建立一個 AI 的國家基礎設施,包括共享的數據集、軟件庫、計算資源等等,以便那些因為資金和影響力的原因而無法獲得足夠資源的行業也能為 AI 的發展做貢獻。
不過,這些努力是否能讓我們在未來十年看到能夠靈活解決各種問題、而非局限于具體任務的通用人工智能出現呢?
在 Selman 看來,通用人工智能可能還需要20年以上的時間才可以實現。
“不過如果我們在未來五到十年能在真正的自然語言理解上獲得突破,使得 AI 可以去閱讀圖書,從互聯網獲得知識,那么這個進程可能會被大大加速。” Selman 解釋道。
同時,他表示對未來 AI 從數據到知識、從大樣本數據訓練到小樣本知識獲取的進步感到樂觀。Selman 認為,技術是加速發展的。人類發展農業技術用了幾千年,發展工業技術用了幾百年,發展 AI 技術只用了幾十年。我們現在有了更高效的編程語言,更方便的計算設備,大量的數據,基于互聯網的高效知識共享,以及產業界的大量投資,技術的進步將會越來越快。
我們無法在短期內達到通用人工智能的原因,Hopcroft 補充說,是因為目前的 AI 研究普遍是具體工程指標驅動的,人們花了很多精力,在特定的領域去改善算法的表現。他認為,我們需要更多好奇心驅動的研究,需要更多地回到基礎科學問題上來。“未來人工智能領域重要的突破,可能并非來自計算機科學專家,而是生物學研究者。” Hopcroft 說,畢竟人類現在對于人類大腦進化歷程和兒童大腦發育機制知道得仍然非常有限。
這也提醒了我們人工智能這一學科成立的初衷。我們并非只是為了獲得工程上有效的算法。我們希望能理解人類的心靈。如費曼所言, “我造不出來的東西,我就沒有真的弄懂。”
責任編輯:tzh
-
互聯網
+關注
關注
54文章
11184瀏覽量
103829 -
AI
+關注
關注
87文章
31494瀏覽量
270258 -
人工智能
+關注
關注
1796文章
47643瀏覽量
240223
發布評論請先 登錄
相關推薦
評論