整整50年來(lái),計(jì)算機(jī)的底層元件都遵從著“摩爾定律”:在價(jià)格不變的情況下,集成在芯片上的晶體管數(shù)量每隔18到24個(gè)月將增加一倍,計(jì)算成本呈指數(shù)型下降。摩爾定律成就了各種技術(shù)變革,例如互聯(lián)網(wǎng)、基因組測(cè)序等等。
然而現(xiàn)在,摩爾定律的趨勢(shì)第一次放緩了。芯片行業(yè)進(jìn)入了一個(gè)不確定的時(shí)代,在同樣的投入下,收益變得越來(lái)越低。我認(rèn)為有兩個(gè)原因。一是芯片制造商面臨的一個(gè)經(jīng)濟(jì)問(wèn)題:相比與芯片體積,大多數(shù)人對(duì)芯片的價(jià)格更敏感,要求芯片要做到經(jīng)濟(jì)實(shí)用;二是我所認(rèn)為的真正原因,隨著晶體管尺寸的不斷縮小,我們遇到了原子極限,先前標(biāo)準(zhǔn)、規(guī)則結(jié)構(gòu)的晶體管結(jié)構(gòu)已經(jīng)無(wú)法維系。
在CPU時(shí)代,我們一直沿用的范式是在CPU上運(yùn)行編寫好的程序。這一范式的優(yōu)點(diǎn)在于整個(gè)計(jì)算系統(tǒng)所有層級(jí)都是確定的,它們有限但功能強(qiáng)大。芯片的原理非常簡(jiǎn)單,無(wú)非就是開(kāi)關(guān)、邏輯門、二進(jìn)制系統(tǒng)等等。但是現(xiàn)在,計(jì)算需求正變得越來(lái)越復(fù)雜和艱難,導(dǎo)致計(jì)算機(jī)結(jié)構(gòu)也越來(lái)越復(fù)雜,在一塊芯片上集成的電路越來(lái)越龐大。
Simon Peyton Jones曾說(shuō),計(jì)算機(jī)軟件和體系架構(gòu)是人們迄今為止所創(chuàng)造的最令人驚嘆的結(jié)構(gòu)。在計(jì)算機(jī)體系架構(gòu)領(lǐng)域,任何一個(gè)接口的設(shè)計(jì)都需要調(diào)整芯片底層的架構(gòu)。做芯片與做軟件差別很大。編寫軟件時(shí)的自由度非常高,但在設(shè)計(jì)硬件時(shí)卻會(huì)面臨各種各樣的限制:在一塊尺寸有限的硅芯片上要集成各種不同功能的組件,并且要保證以正確的方式相互連接,而且要根據(jù)預(yù)算在通用性、高效性、速度、軟件適配等多個(gè)維度中做出權(quán)衡。
在加入微軟前,我曾和我的一名博士生Hadi Esmaeilzadeh做過(guò)一項(xiàng)關(guān)于“暗硅”(Dark Silicon)的研究。當(dāng)時(shí),業(yè)界正朝著多核芯片的方向發(fā)展,有人認(rèn)為,只要能編寫并行軟件,就能將計(jì)算機(jī)芯片架構(gòu)擴(kuò)展到數(shù)千核。
我們?cè)?011年發(fā)表的研究中發(fā)現(xiàn),由于功耗的限制,一個(gè)多核處理器在同一時(shí)刻只能有很少的一部分晶體管能夠工作,而其余部分則處于休眠狀態(tài)。這項(xiàng)研究獲得了相當(dāng)高的關(guān)注度。
受到這一研究的啟發(fā),我們認(rèn)為可以針對(duì)特定的工作使用定制硬件來(lái)加速計(jì)算,解決“暗硅”問(wèn)題。但是對(duì)于普通用戶來(lái)說(shuō),定制芯片的經(jīng)濟(jì)成本以及大量功能不同芯片的管理成本都很高。為了幫助用戶解決這個(gè)問(wèn)題,微軟在Azure云平臺(tái)上部署了FPGA(現(xiàn)場(chǎng)可編程門陣列)。
FPGA全稱為“現(xiàn)場(chǎng)可編程門陣列”,之所以稱為“現(xiàn)場(chǎng)可編程”,是因?yàn)樵谧鐾晷酒布O(shè)計(jì)和算法映射之后,我們?nèi)匀豢梢詫?duì)FPGA芯片進(jìn)行實(shí)時(shí)、動(dòng)態(tài)地修改。我們可以隨時(shí)把它改寫成其它用途的芯片,甚至可以每隔幾秒修改一次。為了同時(shí)滿足性能、成本和靈活性的要求,我們可以使用定制芯片來(lái)處理部分長(zhǎng)期穩(wěn)定的計(jì)算需求,而使用FPGA來(lái)處理剩余計(jì)算需求。
FPGA此前就已經(jīng)廣泛應(yīng)用于通信領(lǐng)域,在處理高速數(shù)據(jù)流以及測(cè)試即將投產(chǎn)的芯片時(shí)的表現(xiàn)出色。但在云計(jì)算中,F(xiàn)PGA尚未真正成功地大規(guī)模使用。
CPU和GPU適合于處理不同的任務(wù)。CPU是一種通用處理器,適合處理少量數(shù)據(jù);而GPU是一種單指令、多數(shù)據(jù)(Single Instruction Multiple Data,SIMD)的并行處理器,即一條指令對(duì)不同的幾組數(shù)據(jù)執(zhí)行相同的操作。FPGA實(shí)際上是CPU模型的“倒置”。在FPGA上,我們不再固定數(shù)據(jù)、運(yùn)行指令,而是固定一些指令、運(yùn)行整批數(shù)據(jù)。我稱之為“結(jié)構(gòu)化計(jì)算”,其理念為固定一種計(jì)算結(jié)構(gòu),讓數(shù)據(jù)不斷從其中流過(guò)。FPGA非常適合這類工作負(fù)載,在云中, FPGA可以很好地完成這一使命,對(duì)CPU來(lái)說(shuō)也是一種很好的補(bǔ)充。
FPGA每秒能夠處理50GB的數(shù)據(jù)包,同時(shí)也可以確保用戶的信息安全和網(wǎng)絡(luò)私密性。面對(duì)同樣的計(jì)算任務(wù),多塊CPU才能接近一塊FPGA的處理速度。
于是,從2015年底開(kāi)始,微軟通過(guò)Project Catapult項(xiàng)目在微軟Azure云中對(duì)FPGA進(jìn)行了超大規(guī)模的部署,不管與之前相比還是跟競(jìng)爭(zhēng)對(duì)手相比,Azure云的數(shù)據(jù)處理速度都有明顯的提升。目前,微軟是全球最大的FPGA使用者之一,各個(gè)團(tuán)隊(duì)都在使用FPGA強(qiáng)化自己的服務(wù)。
Brainwave:為深度神經(jīng)網(wǎng)絡(luò)“定制”處理器
在人工智能領(lǐng)域,目前大熱的深度學(xué)習(xí)對(duì)計(jì)算機(jī)硬件和架構(gòu)都提出了更高的要求,只有更好、更快的硬件和架構(gòu)才能處理日益龐大的訓(xùn)練數(shù)據(jù)和越來(lái)越復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。機(jī)器翻譯、語(yǔ)音理解、計(jì)算機(jī)視覺(jué)等經(jīng)典人工智能領(lǐng)域的不斷發(fā)展給硅芯產(chǎn)業(yè)帶來(lái)了很大的壓力?,F(xiàn)在,許多公司都為打造人工智能、機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)的定制架構(gòu)投入了大量的資金。
Project Brainwave硬件模型
因此,我們團(tuán)隊(duì)打造了自己的深度神經(jīng)網(wǎng)絡(luò)處理器Brainwave。我們正與微軟必應(yīng)和Azure團(tuán)隊(duì)通力合作,為微軟的各項(xiàng)服務(wù)提供有力的硬件與架構(gòu)支持。利用Brainwave,必應(yīng)團(tuán)隊(duì)可以擺脫計(jì)算資源的制約,能夠部署體量更大的模型,從而為用戶提供更好、更快、更高質(zhì)量的搜索內(nèi)容。
在今年的微軟Build大會(huì)上,微軟宣布了Project Brainwave預(yù)覽版,并將其整合到Azure機(jī)器學(xué)習(xí)服務(wù)中供用戶使用。同時(shí),用戶也可以自行購(gòu)買微軟推出的Catapult架構(gòu)主板將之嵌入到生產(chǎn)設(shè)備上,這樣就可以在邊緣設(shè)備上直接運(yùn)行已經(jīng)在Azure上訓(xùn)練好的模型,從而節(jié)省時(shí)間成本。
Brainwave非常適合處理推理運(yùn)算任務(wù),對(duì)于此類任務(wù),目前大量技術(shù)都采用“批處理”的方式。批處理能夠提升計(jì)算機(jī)的處理能力,但卻容易增加網(wǎng)絡(luò)延遲。Project Brainwave可以將實(shí)時(shí)AI計(jì)算的延遲時(shí)間降到最小。不同的任務(wù)對(duì)于“實(shí)時(shí)”的要求并不相同,對(duì)于通過(guò)收集網(wǎng)絡(luò)信息預(yù)告緊急情況的任務(wù)來(lái)說(shuō),幾分鐘的“實(shí)時(shí)”處理是可以接受的,但對(duì)于實(shí)時(shí)語(yǔ)音互動(dòng)或者類似于HoloLens這種增強(qiáng)現(xiàn)實(shí)任務(wù),“實(shí)時(shí)”處理則要求做到毫秒級(jí)。
在實(shí)際的計(jì)算任務(wù)中,除了處理速度,成本也是需要考慮的一個(gè)關(guān)鍵因素。Brainwave系統(tǒng)做到了兩者兼顧,在處理速度和成本控制方面都有非常好的表現(xiàn)。
自從馮·諾依曼結(jié)構(gòu)在上世界四十年代被提出之后,我們一直圍繞著馮·諾依曼計(jì)算機(jī)和各種各樣的計(jì)算機(jī)異構(gòu)加速器進(jìn)行研究,摩爾定律將要謝幕,我們正處于硅基和馮·諾伊曼時(shí)代的尾聲。所以,我們應(yīng)該考慮更深遠(yuǎn)的東西,為計(jì)算機(jī)的新的架構(gòu)探索更深層次的理論。
評(píng)論
查看更多