來源:智東西公開課
智東西公開課推出的AI芯片系列課完結第五講,華登國際合伙人王林就主題《人工智能帶來半導體的又一波創新浪潮》進行了一場系統且深入的講解。在此番講解中,王林認為,“隨著技術推動力——摩爾定律,受到越來越大的挑戰,而應用的最大推動力——智能手機,也遇到了非常大的增長瓶頸”,全球半導體行業已經進入后摩爾時代與后智能手機時代。他判斷,在后摩爾+后智能手機時代,神經網絡/深度學習已經成為半導體的新戰場。
在行業應用層面,深度學習在快速變革傳統行業并帶來非常多新的應用,比如無人駕駛、醫療影像分析、工業自動化,FinTech。尤其是汽車,已經變成非常巨大的半導體應用平臺。“全球所有頂尖的半導體公司都在圍繞汽車來做未來的產品規劃,希望其能夠成為智能手機之后,對全球半導體行業有巨大推動力的推手。”而在處理器或架構層面,圍繞深度學習訓練與推理二個維度的加速需求,尤其是云端訓練與推理、以及終端推理,出現非常多的芯片層面實現加速的創新方法或技術。結合有代表性的AI加速芯片產品或案例,就其中存在的創業機會與投資機會,他進行了深入的介紹和分析。
主講實錄
王林:大家晚上好,我是華登國際的王林,很高興今天晚上有機會在智東西公開課的AI芯片社群跟大家做一些交流。其實今天晚上的演講壓力還是很大的,因為我看到群里有很多我的老朋友,都是芯片或者AI領域的高手。
平時演講我都是盡量在懂芯片的人面前講AI,在懂AI的人面前講芯片,但是今天就沒辦法這么做了,因為群里有很多芯片和AI領域的高手。我盡我所能,如果有說的不對或者不太好的地方,還請大家多多包涵,主要是能有這樣一個跟大家交流的機會確實非常難得。
今天來講AI加速芯片還是一個挺應景的事情,因為昨天深鑒科技宣布被Xilinx全資收購。這也是我們能夠看到近期少有的中國高科技公司被美國半導體公司并購的案例,以前我們更熟悉的是聽到中國資本去海外并購一些科技公司或者半導體公司。深鑒科技在這方面做了一個很好的范例。從另一方面也說明我們中國的AI芯片在全球也處于比較領先的地位,當然也證明了AI芯片方面的創業還是挺有前(錢)景的。
講到半導體,不得不從摩爾定律說起。我相信群里半導體從業人員對摩爾定律已經非常熟悉了,從Intel創始人戈登·摩爾提出摩爾定律到現在已經53年了。過去的53年中,半導體行業一直受著摩爾定律的指導。芯片越做越小,單位面積的晶體管越來越多,功耗越來越低,價格越來越便宜,也使得這個行業過去五十多年來一直保持不錯的增長趨勢。
我想給大家看下這張圖。其實過去在投資界有一個共識,大家都認為半導體投資是非常不劃算的事情,風險高、投資大、回報相對來說又比較低。所以,風險投資對半導體行業的投資在過去十來年一直不溫不火,甚至是持續下降的趨勢。當然半導體行業的增長也基本上印證了這樣一個理念,也就是從前些年來看,全球半導體行業并沒有一個非常大的增長幅度。
從右邊這張表可以看到2016年全球半導體的增長率也就7%,很多時候半導體的增長率可能只有2%-3%。但是,很奇怪的是2017年全球半導體有了一個跳躍式增長,達到20%。這是過去十年來半導體行業從來沒有看到過的事情,大家都瞠目結舌。所以,大家是否也有這樣一個疑問:為什么2017年的增長這么大?
還有一個比較值得關注的點,歐美的半導體行業已經持續呈衰退狀態,但是2017年,其增長甚至比中國還要高,盡管中國一直維持著半導體高速增長的趨勢。從全球來看,中國市場仍然是增長最顯著的動力源,也是一個非常耀眼的明星。
其實半導體的增長和集成電路芯片的應用息息相關。不得不說過去十年半導體的增長,一定依賴于智能手機行業的爆發式增長。可以說,到目前為止可能全球有一半的芯片是為了智能手機生產和使用的。所以說,智能手機一定是過去十年集成電路行業發展非常大的推動力。
但這里又不得不說,到現在為止我們已經到了后智能手機時代。這里摘錄了一些新聞,通過標題大家就可以看到從2016年開始,整個智能手機的增長相比之前是非常緩慢的。相信大家日常生活中應該也能明顯感受到,手機上的創新越來越少,換機的動力也越來越小,所以整個市場的增長持續一個很平靜的狀態。
同時,從技術角度來看,摩爾定律近期也受到了非常大的挑戰。雖然我仍然堅信摩爾定律至少在近些年會持續演進下去,但是不得不說,隨著工藝節點的越來越小,也會帶來成本的顯著性提高。我相信,未來7nm、5nm、3nm量產的日子一定會到來,但是也許到了那天可以用上或者說用得起那么先進工藝的芯片公司也寥寥可數。業界目前有這樣一個共識:28nm應該會是一個長期存在的工藝節點,其性能、成本是一個比較合理的均衡狀態。
對于半導體行業從業人員來說,這是一個很悲催的事情。技術的推動力——摩爾定律,受到越來越大的挑戰,而應用的最大推動力——智能手機,也遇到了非常大的增長瓶頸。從技術推動力和應用兩大層面來說,半導體行業都遇到了很大的問題。所以,這也進一步印證了為什么前幾年投資界對半導體行業這么悲觀,從某種程度上來說也是有一定道理的。
當然,我們不能不承認,敢從事半導體方面的人員一定是非常值得尊敬的,都是敢啃硬骨頭的。從我發的這張圖可以看到,其實工業界已經在嘗試用多種方法盡量去使摩爾定律能夠更長期的延續下去,或者能夠以更低的成本延續下去,包括大家所知道的FinFET、FD SOI,都是業界正在推動的一些主流技術路線。EUV光刻技術,三維封裝等都是能夠使摩爾定律長期維持下去的一個非常有效的手段。
從我個人來看,如果半導體行業仍然要像過去智能手機時代一樣飛速成長,一定要找到下一個應用推手,也就是說一定要找到后智能手機時代什么應用才是對我們半導體行業有巨大推動力的應用。我們來看下戈登·摩爾怎么說,他五十三年前提出摩爾定律的時候,同時做了一個預言。大家可以看下上圖右上角用紅色字體標注的這段話。
其實戈登·摩爾在五十三年前已經說了“集成電路會帶來家用電腦或者至少是和中央電腦所連接的終端設備、自動駕駛、個人便攜通訊設備等”。看到這里,我們就應該清楚戈登·摩爾在五十三年前所做的預言,到今天為止已經基本上都實現了。也就是說,其實戈登·摩爾已經看到了集成電路的發展會帶來非常多的新應用,而這些新應用反過來會成為集成電路發展的巨大推動力。
說到這里,讓我們來看,在后智能手機時代,什么才是集成電路行業的最大推動力呢?
人工智能的出現讓業界眼前一亮,或者是讓半導體行業找到了新的方向和推動力。當然,很多人會說,深度學習也好、神經網絡也好,只是一個技術,為何能夠成為從應用角度去推動集成電路發展的一個推手呢?
很明顯,到現在為止,大家耳熟能詳的從“互聯網+”到“AI+”可以看到深度學習的出現,給非常多的傳統行業帶來翻天覆地的變革機會,甚至帶來一些新的應用。我覺得,這是深度學習所帶給我們的廣闊天地。大家比較熟悉的AlphaGo下圍棋,包括戈登·摩爾所說的無人駕駛汽車,其背后不得不說是深度學習的出現才帶來了這樣巨大的、有前景的應用。當然,還有醫療影像分析,GE、飛利浦、西門子這三家巨頭在他們最新的醫療影像設備上,其實已經集成了非常強大的人工智能算法來輔助醫療影像科的醫生去更快更好更準確的做診斷;工業自動化領域,半導體生產制造、封裝測試領域帶有機器視覺功能的機器已經非常多了,當然還有FinTech。深度學習給各行各業帶來的變革已經非常明顯。
我們應該感謝深度學習給集成電路行業的發展帶來這么多新的應用機會。但是反過來,沒有集成電路行業的有力支持,深度學習也不可能達到今天這樣令全球矚目的地位。
上面這張圖展示的是四代AlphaGo所使用的硬件平臺。第一代AlphaGo Fan是跑在176個GPU上,打敗李世石的第二代AlphaGo Lee當時是跑在48個第一代Google TPU上,打敗柯潔的第三代AlphaGo Master跑在4個Google第二代TPU上,包括前不久出現的使用對抗神經網絡等算法的AlphaGoZero仍然是跑在4個TPU上。
大家還是否記得一開始我說的為什么去年歐美半導體的增長這么大?在這里想跟大家說一下,我覺得AI是一個非常大的推動力,帶來的更多是云端的一些需求,對數據和算力上的創新需要大量的存儲、更快的光通信等,同時對工業和汽車領域也帶來了非常多新的機會。
不得不說,歐美的半導體廠家在服務器、工業、汽車領域仍然擁有很強大的不可撼動的優勢和地位。如果說這三大領域得到了非常快速的應用增長和半導體芯片需求的增長,那么首先得益的肯定是歐美半導體公司。這也是為什么歐美的半導體公司在2017年能夠有這么耀眼的成績。
正如戈登·摩爾所說,集成電路的發展帶來了無人駕駛汽車,在這里也要感謝深度學習算法的出現,毫無疑問汽車已經變成了一個非常巨大的半導體應用平臺。可以說全球所有頂尖的半導體公司都在圍繞著汽車來做未來的產品規劃,希望其能夠成為智能手機之后,對全球半導體行業有巨大推動力的推手。當然這個行業也在經歷著巨大的變化,就是要實現汽車行業的四個現代化:新能源化、智能化、共享化、互聯網化。
從智能化的角度來說,沒有深度學習的出現,智能化的到來將是遙不可及的事情。但也正是因為智能化的出現,給了汽車非常多的賣點,使得消費者愿意去選擇更智能、更具有吸引力的汽車,也使得汽車行業的增長帶來了集成電路行業這樣一個巨大的應用平臺。
這張圖非常有意思,我經常喜歡跟朋友們分享福特、通用和特斯拉這三家車廠最近的一些變化。通過這張圖大家可以看到汽車行業正在經歷著巨大的變化,一方面是因為汽車的半導體化電子化,另一方面也是因為深度學習帶來的汽車智能化。大家可以看到擁有電子化和智能化的特斯拉的市值已經和通用、福特到了一個相同的位置。但是從出貨量和成立時間來看,特斯拉跟這兩位老大哥的差距其實還很大。
前面講了一些應用以及半導體行業的一些發展趨勢,我覺得現在有必要再和大家探討一下,深度學習到底給我們帶來了什么?帶給半導體行業的創新點到底是什么?因為我是學工科出身的,其實對于學工科的學生來說,一開始接觸到深度學習會帶來一個非常大的思維障礙。因為對于我們來說,以前學習的理論或者定理,總是要知道來龍去脈,不僅要知其然,還要知其所以然。但是對于深度學習來說,其實我們很難把他搞得這么清楚。
打一個不恰當的比方,深度學習更像中醫,可能更多的是憑經驗或者感覺,其實很多時候對我們來說深度學習就像一個黑盒子或者灰盒子的狀態,我們沒辦法也沒能力去把這么龐大的神經網絡里面的運算規律搞清楚。
但是不管怎樣,深度學習帶給我們的結果大家是看得到的,深度學習我們使用的時候需要做訓練,然后反過來需要推理,這樣的過程我們已經做得非常熟了,所以在以后工程化應用過程中,已經沒有理論上的一些障礙了。
深度學習也確實給工業界帶來了巨大的效率提升,雖然我這里只是列了一些比較老的數據,但其實96.4%的準確度已經已經超過了人類的水平。
那么深度學習要選擇處理平臺或者什么樣的架構來做運算呢?其實很自然的一個想法就是,既然神經網絡是從人腦來仿真和模擬出來的,那么我們是不是應該有一個類腦運算平臺或者類腦芯片呢?其實業界也有非常多的公司在做這方面的探索。
在這里我就列了兩家做公司做的類腦芯片:IBM的Truenorth和高通的Zeroth,都是比較典型的類腦芯片。不知道大家是否有印象,大概一兩年前,國內曾有報道稱浙江大學發布了應該是國內第一款基于SNN(脈沖神經網絡) 的類腦芯片。
因為負責這款芯片開發的教授正好是我浙大的師兄,所以看到這個新聞之后,我也跟他做了一些溝通,就是基于SNN的類腦架構在理論水平和芯片水平上到底是什么層次?可以看到趨勢還是很明顯的,至少在工程上已經得到了實現的可能性驗證,他們在OCR的識別上應該有達到70-80%的準確度。但是,很遺憾的是SNN一直沒有非常合適運算平臺,造成SNN從理論、算法的基礎研究上是嚴重滯后于深度學習的科研水平。
不管怎樣,我認為類腦芯片還是非常值得我們關注的一個未來趨勢。但是,短期來看還是基于深度學習算法和運算平臺更值得工業界去關注和探索。
這里我們不得不提到另外一個人——馮·諾依曼。他在1946年提出的馮諾依曼架構一直指導著我們計算體系架構的發展。絕大多數的體系架構創新都是基于馮諾依曼架構的,都沒有超出他的框架范圍。馮諾依曼提出所有的計算機的都由存儲、控制、邏輯運算、輸入和輸出五部分組成。
我大致做了一個歸類,不知道是否準確,只是說在我做投資和分析的時候給我一些指導,可能對我個人有些幫助。我把馮諾依曼架構的五大組成部分分為三類,輸入輸出歸類于交互,控制和邏輯歸類于計算,存儲單獨列為一類,也就是交互、計算和存儲三部分。我覺得深度學習對這三方面都提出了非常多的創新要求,也使我們看到了非常多創新的機會。
大家都在說深度學習三要素:算法、算力和數據,從某種程度上跟我之前總結出來的交互、計算和存儲三大計算機體系組成是一一對應、息息相關的。后面我也會從算力和存儲的方向,闡述下我個人認為創新的點和需要攻克的難點到底在哪里。
深度學習到目前為止可以說是兵家必爭之地,包括我們現在看到深鑒科技被Xilinx收購。其實國內還有很多企業在做深度學習加速的研究。國際上,高通投資了商湯,Intel投資了地平線,華為海思的麒麟970里面集成的深度學習加速IP來自北京的寒武紀科技。其實可以看到,不管是創業公司還是國際上的大公司,深度學習都受到非常多的關注。
雖然都是深度學習的加速,但是在不同的應用領域,我們還是要分別來對待。包括深度學習的訓練和推理,芯片的應用場景,比如云端和我們所謂的終端,我認為在不同的芯片里面,對于加速的要求還是不太一樣的。
對于終端的訓練來說,我還沒有看到太多的機會或者應用場景,包括從功耗的角度是否存在這樣的可能性,也值得大家去探討和思考。
但是在云端訓練的角度來看,GPU是占有絕對優勢的,當然FPGA的加速卡、包括Google在做的TPU用來做訓練的ASIC也都在顯示自己的威力;我覺得終端inference,會是一個更加廣闊的應用場景。對于終端來說,從功耗、成本的角度來考慮,ASIC是更加值得大家去關注的一個趨勢。
接下來我來給大家分享一些比較主流的深度學習在芯片層面實現加速的方法。我相信有更多的專家在這方面會講出更值得大家去思考和探討的內容。
脈動陣列并不是一個新鮮的詞匯,在計算機體系架構里面已經存在很長時間。大家可以回憶下馮諾依曼架構,很多時候數據一定是存儲在memory里面的,當要運算的時候需要從memory里面傳輸到Buffer或者Cache里面去。當我們使用computing的功能來運算的時候,往往computing消耗的時間并不是瓶頸,更多的瓶頸在于memory的存和取。所以脈動陣列的邏輯也很簡單,既然memory讀取一次需要消耗更多的時間,脈動陣列盡力在一次memory讀取的過程中可以運行更多的計算,來平衡存儲和計算之間的時間消耗。
上面這張圖非常直觀的從一維數據流展示了脈動陣列的簡單邏輯。當然,對于CNN等神經網絡來說,很多時候是二維的矩陣。所以,脈動陣列從一維到二維也能夠非常契合CNN的矩陣乘加的架構。
我們還可以從體系架構上對整個的Memory讀取來做進一步的優化。這里摘取的是寒武紀展示的一些科研成果。其實比較主流的方式就是盡量做Data Reuse,減少片上Memory和片外Memory的信息讀取次數,增加片上memory,因為片上數據讀取會更快一點,這種方式也能夠盡量降低Memory讀取所消耗的時間,從而達到運算的加速。
還有就是大家比較熟悉的剪枝技術。這也是深鑒科技當時出來創業賴以成名的絕技。對于神經網絡來說,其實很多的連接并不是一定要存在的,也就是說我去掉一些連接,可能壓縮后的網絡精度相比壓縮之前并沒有太大的變化。基于這樣的理念,很多剪枝的方案也被提了出來,也確實從壓縮的角度帶來了很大效果提升。
需要特別提出的是,大家從圖中可以看到,深度學習神經網絡包括卷積層和全連接層兩大塊,剪枝對全連接層的壓縮效率是最大的。下面柱狀圖的藍色部分就是壓縮之后的系數占比,從中可以看到剪枝對全連接層的壓縮是最大的,而對卷積層的壓縮效果相比全連接層則差了很多。
所以這也是為什么,在語音的加速上很容易用到剪枝的一些方案,但是在機器視覺等需要大量卷積層的應用中剪枝效果并不理想。我相信這也是未來很好的創業和搞科研的方向。
對于整個DeepLearning網絡來說,每個權重系數是不是一定要浮點的,定點是否就能滿足?定點是不是一定要32位的?很多人提出8位甚至1位的定點系數也能達到很不錯的效果,這樣的話從系數壓縮來看就會有非常大的效果。從下面三張人臉識別的紅點和綠點的對比,就可以看到其實8位定點系數在很多情況下已經非常適用了,和32位定點系數相比并沒有太大的變化。所以,從這個角度來說,權重系數的壓縮也會帶來網絡模型的壓縮,從而帶來計算的加速。
當然,一個不能回避的問題是計算和存儲之間的存儲墻到現在為止依然存在,仍然有大量的時間消耗在和存儲相關的操作上。
一個很簡單直觀的技術解決方式,就是堆疊更多更快速更高效的存儲,HBM孕育而生,也即在運算芯片的周圍堆疊出大量的3D Memory,通過通孔來連接,不需要與片外的接口進行交互,從而大大降低存儲墻的限制。
更有甚者提出說,存儲一定要和計算分離嗎,存儲和運算是不是可以融合在一起,PIM(Processing in Memory)的概念應運而生。我覺得,這也是一個非常值得大家去關注的領域。我知道,群里有些朋友也在PIM領域做一些創業的嘗試。
當然,除了前面說到存儲內置,以及存儲與運算的融合,有沒有一個更快的接口能夠加速和片外Memory的交互也是一個很好的方向。其實上面這個概念是NVIDIA提出來的interface(接口),叫做NVLink。下面的表展示的是NVLink和PCIe Gen3的對比。大家平時看到跟存儲相關的的PCIe卡可能是PCIe Gen3 by 4,只有4個lanes和Memory對接,但是NVLink與有16個PCIe的lanes的PCIe Gen3對比,速度也有很大的提升,可以看到NVLink在速度層面是一個非常好的interface。
前面講了一些在我看來比較經典的加速方法。下面我會分享幾個已經存在的AI加速芯片的例子,相信這樣會更加直觀。
第一個是Google的TPU。從右邊的芯片框圖可以看到,有一個64K的乘加MAC陣列對乘加運算進行加速。從論文中可以看到里面已經用到了脈動陣列的架構方法來對運算進行加速,另外也有我們前面提到的大量的片上Memory 這樣的路徑。上面藍色框圖中大家可以看到有一個24MiB的片上Memory,而且有兩個高速DDR3接口能夠與片外的DDR做交互。
上圖展示的第二代TPU。從圖中可以很直觀的看到,它用到了我們前面所說到的HBM Memory。從其論文披露的信息也可以看到,二代TPU在第一代的基礎上增加了我們前面說到的剪枝,權重壓縮等方面做了很多嘗試,也是一個非常經典的云端AI加速芯片的例子。
這家公司叫SambaNova,不知道大家有沒有聽說過,是我們和Google Venture投資的一家做云端AI加速芯片的硅谷公司。他們更多是想要挑戰NVIDIA在云端訓練的地位。前面提到的很多加速的方法他們都會去做嘗試,包括片上Memory、HBM等。其實更值得一提的是SambaNova非常強大的軟件實現的團隊力量。其實大家現在看到的一些加速芯片所支持的框架,可能更多是TensorFlow、Caffe這兩個比較流行的框架。但是,他們開始支持微軟和Facebook發布的框架Onnx。在他們看來,Onnx是通用性和兼容性更好的一個框架。
接下來跟大家分享幾個終端做Inference的例子。第一個是Rokid和杭州國芯共同打造的一顆針對智能音箱的SoC,AI加速只是里面的一個功能。通過右邊的框圖可以看到里面集成了Cadence的DSP,還有自己設計的語音加速硬件IP——NPU。這款芯片還集成了一些實現智能音箱必要的interface,最值得一提的是在SiP層面封裝了Embedded DRAM,可以更好的在系統層面實現數據的交互,實現存儲和運算的加速,也實現了AI加速的功能。
最后說一款華為海思最新的IP Camera芯片——3559A,也是我個人比較喜歡的一款芯片。從集成度以及整個設計的均衡性來說,都令人眼前一亮。可以看下右上角幾個藍色的標準模塊,里面集成的是海思自主研發的做推理的IP——NNIE,同時還集成了Tensilica DSP,在靈活性和擴展度上做了一個非常好的補充。
今天不光講了創業的機會、投資的機會,我認為也正是因為中國有了現在非常好的產業政策,不管是人才還是市場,都是一個很好的創業土壤。我覺得AI加速方面創業和投資的機會依然存在,也希望和有志于在AI領域創業的朋友多多交流。謝謝大家,我的分享到這里就結束了。
-
芯片
+關注
關注
456文章
51156瀏覽量
426464 -
半導體
+關注
關注
334文章
27690瀏覽量
221710 -
晶體管
+關注
關注
77文章
9744瀏覽量
138758 -
AI
+關注
關注
87文章
31491瀏覽量
270004
原文標題:后摩爾時代,半導體的新戰場與新機會
文章出處:【微信號:iawbs2016,微信公眾號:寬禁帶半導體技術創新聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論