深度學習的強大之處在于,在參數化的神經網絡里,工程人員可以實現任何復雜的變換。但是,數據與算法不安全性,就像是深度學習這項技術的阿喀琉斯之踵。
“幾乎所有的AI企業都沒有賺到錢,而根源問題在于人工智能技術本身的缺陷——數據與算法的不安全性。”
對于目前AI企業的生存困境,清華大學人工智能研究院院長張鈸院士的這番話很直接。 張鈸院士向雷鋒網《醫健AI掘金志》說到,在AI技術驅動的產業中,全球前40個獨角獸企業遍布了所有的領域,估值70億到500億之間。 然而,這些獨角獸都面臨的問題在于:估值極高、銷量極小,一家100億估值的企業,其銷售額不到一個億。這不是國內知名學者第一次直陳AI產業產業的問題。事實上,深度學習的不可解釋等“原生性”的問題,在目前看來,仍然沒有很好的解決辦法。 諸多的AI企業,困在了“數據和算法”里。
深度學習的“阿喀琉斯之踵”
當前,AI基礎設施建設的重心集中在數據平臺、算力平臺上,主要為各類AI解決方案提供基本的運算條件,為AI提供基礎生產力,相當于是解決了AI的溫飽問題。 在這些基礎設施的支撐下,數據和算力的快速增長作為“外部驅動力”,帶動了AI產業在包括人臉識別、語音識別等領域的一波浪潮,驅動AI產業“第一增長曲線”的出現。 但是,傳統行業由于場景復雜和隱私保護等限制,真正可以使用數據往往并不充足,同時算力的增長也解決不了算法能力上限的問題。
深度學習發展到今天,一個核心特征是神經網絡模型變得越來越復雜,訓練集越來越大。 例如,今年最火爆的AI機器是GPT-3。 GPT-3的網絡層數可以達到96層,參數可以到1750億,模型大小700G。經過了將近0.5萬億個單詞的預訓練,在不進行微調的情況下,GPT-3可以在多個NLP基準上達到最先進的性能。 張鈸院士表示,深度學習的強大之處在于,在參數化的神經網絡里,工程人員可以實現任何復雜的變換。
“換句話說,任何一個圖像、文本輸進去,都可以用參數化的神經網絡將其變成所需要的結果。不管多么復雜,因為這是一個通用的函數映射。” 但是,數據與算法不安全性,就像是深度學習這項技術的阿喀琉斯之踵。 張鈸院士表示,算法不安全的原因主要有三點:特征(偽語義)——語義空間映射是多對一;語義空間不是距離空間,是離散的層次空間;缺少語義的基于條件概率建模的“黑箱”學習方法; 而這三點原因也決定了AI模型的推廣能力很差。 “馬跟石頭的語義距離很遠,但是在形式空間里的距離又很近,形式空間里做出來的區別,不能保證在語義空間是安全的。這就是為什么AI模型非常容易受到干擾的攻擊。
這也就造成現在企業為什么難以做大做強,必須擴大應用產品的安全性和魯棒性。” RealAI聯合創始人劉荔園向雷鋒網表示,AI的可靠性、安全性不高帶來的深層次問題在于無法應用到關鍵場景中的核心問題上,核心決策問題,一定對AI的這些要素要求非常高。
她認為,用戶并不是需要一個工程化的機器學習建模平臺,而是不管有沒有這個平臺,都能知道業務可解釋的點在哪里,保證模型上線之后是可控的。這是RealAI選擇切入的市場。 因此,RealAI想要解決的是各個行業的核心——“決策”問題,而要解決這樣的問題,不單是需要提供算法能力,同時還有AI應用可控方面的因素共同支撐。 這也就是清華人工智能研究院提出“第三代人工智能”的出發點。
在2018年的CCF-GAIR峰會上,張鈸院士就提出,今后發展的方向是把第一代人工智能知識驅動的方法和第二代人工智能數據驅動的方法結合起來,發展安全、可信、可靠和可擴展的人工智能技術,從而推動人工智能的創新應用。 從這個角度來說,第三代人工智能技術體系,包括了貝葉斯深度學習、可解釋機器學習、AI安全對抗攻防、新一代知識圖譜、隱私保護機器學習等技術。
就以貝葉斯深度學習為例,通過對變量之間的關系及神經網絡參數進行概率建模,將數據和預測結果中天然存在的不確定性納入算法,從而實現可靠、可解釋的AI。 清華大學人工智能研究院基礎理論研究中心主任朱軍教授評價到,它(貝葉斯深度學習)既有貝葉斯本身的可解釋性,可以從少量的數據里邊來學習;另外又有深度學習非常強大的擬合能力。地平線機器人創始人兼CEO余凱也曾表示,深度神經網絡其實更加適合做感知,而貝葉斯理論的核心是推理,只有從感知到推理才能到決策。 因此,未來的AI發展需要拓寬“數據”和“算力”之外的維度,在相同的數據、算力條件下,更好的支撐AI賦能行業的深度應用,打開AI產業化全新的市場空間。
搭建AI的原生基礎設施
近日,由清華大學人工智能研究院、北京智源人工智能研究院、瑞萊智慧聯合主辦的“2020第三代人工智能產業論壇暨瑞萊智慧RealAI戰略發布會”在北京召開。 本次戰略發布會上,隱私保護機器學習平臺RealSecure和人工智能安全平臺RealSafe2.0版本相繼發布,而發布這兩款產品的公司——瑞萊智慧RealAI,則是一家從清華園里走出來的AI企業。 瑞萊智慧CEO田天是清華大學計算機系博士,曾獲評西貝爾學者,清華大學特等獎學金,為計算機系十余年間唯一研究生獲獎者。
他向雷鋒網《醫健AI掘金志》表示,在應用中碰到技術難題時,我們不是見一個解決一個,修修補補;而是發現一個問題就看到一類問題,并通過底層技術框架、平臺的突破,幫助產業進行升級。從全行業內來看,RealAI的出身和這種“平臺化”打法,有些類似于國內的商湯:2001年,商湯創始人湯曉鷗教授一手建立了香港中文大學多媒體實驗室,深入探索計算機視覺領域的研究工作,這間實驗室的初創團隊就是成立商湯科技的前身。 RealAI則是依托清華大學人工智能研究院設立的人工智能企業,由清華大學人工智能研究院院長張鈸院士、清華大學人工智能研究院基礎理論研究中心主任朱軍教授共同擔任首席科學家。
從研發背景來看,兩者都擁有國內最頂尖的技術、人才資源。 “學者型”特質的公司強在科研和技術能力,可以直接定位到AI產業發展的最前沿,而這類公司的最終目標是實現平臺型產品的AI賦能,一旦成功,想象空間巨大。 但是,除了“學者型”氣質濃厚的創業公司,AI行業里還有諸多“接地氣”的傳統廠商。 田天認為,渠道占優的行業廠商,是在傳統解決方案的基礎上加上一部分AI進行升級改造,進而快速實領域內的增量式提升。
就以安防行業為例,無論是傳統的安防企業諸如海康威視、大華股份,還是人工智能初創企業商湯、曠視等都在加大AI安防領域的投入。 然而,如果AI能力不強或者只是實現一些“同質化”的淺層應用,在紅海市場中會面臨激烈的競爭。 此外,AI在行業里落地,一大困難在于“應用場景的碎片化”,最終容易讓創業公司淪為一個個的“項目制”公司,導致運營成本高居不下,難以實現技術和產品的高“復用性”。
田天認為,正如社交領域的“微信”,電商領域的“淘寶”,平臺型公司如果能選擇一個好的方向,滿足產業價值非常高的功能點,推廣成本被攤薄后,成長速度會比聚焦在某個領域的公司更快。但是,走這條路線的公司,具備較長的布局周期和極強的技術和資源粘性,這對于一般的創業團隊來說,是一個不小的挑戰。
兩款新平臺:數據安全與算法安全
RealAI在這次發布會上共發布了兩款新品,還是從數據安全和算法安全兩方面入手。 首先是,隱私保護機器學習平臺RealSecure。隱私保護機器學習平臺:從“雕版印刷”到“活字印刷”數據安全主要涉及兩方面:一是要解決隱私保護的問題,二是解決數據所有權的問題。 從實現第三代人工智能的思路出發,企業需要用更好的方法打通數據,保證數據隱私安全前提下最大化的挖掘數據價值。
這個過程中,受保護的、可用不可見的數據交互非常重要。 在很多高價值商業場景,如金融、醫療、交通場景中,有價值的數據常常分散在不同的機構和用戶手中,形成了大大小小的數據孤島,明顯制約了AI能力的提升。 早在2016年,谷歌就提出了聯邦學習的概念,可以實現“數據可用不可見”。 近幾年,在產學研的聯合推動下,國內外諸多科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。 國內也出現聯邦學習、共享智能、知識聯邦、聯邦智能和異步聯邦學習等多個相關研究方向,RealAI所提出隱私保護機器學習與其同屬一類技術范疇,但更強調隱私保護屬性。
不同于傳統機器學習,隱私保護機器學習是分布式、密碼學、人工智能三個領域的結合,這就意味著,企業想要做隱私保護機器學習,之前搭建起來的人工智能團隊、經驗等方法論不能直接拿來復用,需要重新搭建隱私保護機器學習體系下的團隊與方法論。田天表示,重新堆人力將原有機器學習代碼一點點的改寫成聯邦學習代碼,這種方式顯然并不落地,可落地的聯邦學習平臺,必須是與原有機器學習生態一脈相承的。 而“一脈相承”有兩層含義:一是算法的一脈相承,指機器學習算法與隱私保護機器學習算法應是繼承關系,而非完全重構的關系,原有的AI算法積累,可以通過平臺自動實現隱私保護化,實現兩大生態的統一。
二是應用的一脈相承,建模使用上需要符合原有數據科學家的建模流程,交互方式上既能支持UI的業務級一鍵建模,還可以支持以jupyter的形式建模,大幅度提高應用靈活度,讓數據科學家能夠以最熟悉的方式使用聯邦學習。 田天說到,數據科學家還是數據科學家,本地怎么建模、隱私保護就怎樣建模,分布式、加密的工作全部一鍵自動完成。
這也是RealAI推出隱私保護機器學習平臺RealSecure(RSC)的兩點考慮, 據《醫健AI掘金志》了解,這款平臺是業內首款隱私保護AI編譯器。 以底層數據流圖的視角揭示機器學習算法與對應分布式隱私保護機器學習算法的聯系,通過“算子”組合將兩端的生態打通,解決企業搭建隱私保護生態面臨著的性能差、易用性差、黑盒協議等諸多難題。如何理解這里定位的“編譯器”?田天解釋道,在與傳統處理方式相比,RSC能夠將機器學習算法一鍵編譯成隱私保護機器學習算法。
“如果說此前的改寫方式像‘雕版印刷’一樣,RSC則實現了‘活字印刷’,將模型代碼解構到‘算子’級別,通過算子的靈活組合來適配各種各樣的機器學習算法,擺脫重復改寫的繁瑣工作,實現靈活‘制版’。” 據《醫健AI掘金志》了解,在底層編譯的加持,以及融合密碼技術與算法的優化,RSC能夠實現性能的大幅提升。 比如,在某實際風控場景中,RSC模型訓練相比某主流國產開源框架性能提升40倍,耗時從4小時40分鐘縮減至6分鐘。
人工智能安全平臺:AI算法的“殺毒軟件”現在,AI應用隨處可見。目前市面上的手機均不同程度地配備了人臉識別方案;在公共場所,地方政府也已經部署了人臉識別攝像頭,用于嫌疑犯追蹤。 最出名的莫過于“張學友的演唱會”,在2018年,張學友演唱會上就累計拿下了近80名違法犯罪分子。 但是,隨著人工智能規模化應用加速,其面臨的安全風險也日益凸顯出來。
去年,RealAI就實現了通過一副印有特殊紋理圖案的眼鏡,解鎖了他人的手機;針對安防監控的場景,通過穿上印有特殊紋理圖案的衣服,就能逃過人體檢測算法實現隱身。 田天表示,目前,最廣泛使用的深度學習技術,是通過查看數據集中許多的示例進行學習從而建立出模型的。與人類不同,深度學習模型沒有可以利用的基礎知識,它們的全部知識完全取決于訓練的數據。
當數據集中的數據被攻擊者有意的操縱,植入秘密的后門時,模型就會學習到后門中的特征,比如圖片中的向日葵。那么在實際運行中時,這個向日葵就會觸發模型出錯。 解決人工智能安全問題的核心,在于理解為什么人工智能模型學習的模式如此脆弱。 然而,對于廣泛使用的最新機器學習算法(例如深度神經網絡)是如何學習和工作的,人們了解得很少,即使在今天,它們仍然在許多方面仍是黑盒的。
因此,RealAI推出了首個針對人工智能模型的“殺毒軟件”和“防火墻”——RealSafe平臺,一方面能夠對模型的安全性進行全面檢測,另一方面提供多種增強安全性的方案。在本次發布會上,RealSafe平臺迎來2.0升級,在模型安全性檢測方面,能針對對抗樣本攻擊,給出安全評分以及將檢測場景從人臉識別拓展到了目標檢測、圖像分類外。 此外,RealSafe 2.0還增加了模型后門檢測功能,能夠在不獲取模型結構及參數等具體信息的情況下,分辨出僅在特定輸入情況才會識別出錯平時表現正常的被植入后門的模型。 除了能夠對安全性檢測以外,平臺也提供了安全性提升方案。
通過內置的對抗樣本去噪方法,可以幫助用戶在人工智能應用中,破壞掉攻擊者惡意添加的圖像噪聲,使模型能夠正常運作。
通過內置的對抗樣本檢測方法,可以幫助用戶檢測輸入數據是否存在惡意添加的圖像噪聲,避免其進入人工智能系統的業務流程。
通過提供平臺自動化生成的、能夠使被測模型出錯的對抗樣本,幫助用戶進行對抗訓練,訓練出更加魯棒的算法模型。
目前,RealSafe平臺已在工信部重大建設項目以及某電網公司落地應用。 RealAI產品副總裁唐家渝表示,未來還將在RealSafe平臺中集成更多安全風險的檢測能力,包括數據逆向還原風險、成員推理風險、模型竊取等安全風險。
雖然,AI算法界的“殺毒軟件”這一說法由RealAI最早提出,但滿足類似功能的產品在市面上也并非獨此一家。 比如,行業內早有一些人工智能對抗技術的工具包,例如foolbox、IBM的ART以及谷歌的CleverHans。 田天認為,這些公司推出的技術,更多還是停留在學術研究階段,還沒有進入到商業應用的階段。 “很多學術機構發布的工具,是一種白盒的算法,如果要商用,要去檢測某款AI系統的安全性,我們不可能要求對方把所有的源代碼都給我們,他們會覺得更不安全。”
因此,人工智能安全平臺在提供檢測方案的時候必須要具備“黑盒”的檢測能力。 據雷鋒網《醫健AI掘金志》了解,RealAI目前在金融、工業、公共服務三大領域中進行布局。田天也向我們表示,這幾大領域都有很好的機會,基本處于同步推進的狀態。但是在落地速度上,金融領域會相對快一些。 這也取決于金融業本身已有的信息化基礎、金融問題的定義更加清晰。
而在工業領域,由于這個行業的改造周期更長,項目推進的周期也更長。 以金融場景為例,風控場景中數據有偏問題尤其突出,如何評估沒有貸后表現的拒絕客群、挖掘其中的優質客戶一向是行業難題。 RealAI利用自研的半監督回撈模型,提高對拒絕客群質量的識別能力,實現撈回客群與原風控放款客群風險一致下,幫助金融機構無成本提升20%的資產規模。
劉荔園也向雷鋒網透露,很多金融機構已經在使用黑盒模型,但是金融機構還是希望在可解釋性上更進一步。“這個機會不僅僅是留給第一波吃到螃蟹的人,而是讓更多的用戶能夠更安心、更大面積的使用這些模型。” 田天說到,“短期內,我們需要做出一些效果突出的行業解決方案;長期來看,我們希望逐步把生態體系打造出來,對AI賦能所需要的各方面能力(算法、數據)進行集成,讓解決方案提供商完成一系列AI應用的搭建,這個能體現出我們作為一家平臺型公司的價值。”
責任編輯:xj
原文標題:瑞萊智慧的“長期主義”:走出清華,給AI產業畫一條新的“增長曲線”
文章出處:【微信公眾號:IoT科技評論】歡迎添加關注!文章轉載請注明出處。
-
數據
+關注
關注
8文章
7134瀏覽量
89402 -
算法
+關注
關注
23文章
4629瀏覽量
93196 -
AI
+關注
關注
87文章
31490瀏覽量
269914 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239680
原文標題:瑞萊智慧的“長期主義”:走出清華,給AI產業畫一條新的“增長曲線”
文章出處:【微信號:IoT_talk,微信公眾號:醫健AI掘金志】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論