核心觀點
隨著數據處理量需求的高速發展,對數據運行算力和網絡端口速度的要求與日俱增,同時面臨數據高速涌入時和對應處理單元匹配失衡的情況,通過設置專用DPU進在網絡端口處對數據完成預處理。
有利于釋放算力和存儲空間,增加計算安全性,降低計算成本,
同時為整體計算應用相關行業的未來發展奠定基礎。
DPU的推廣應用的關鍵要素:
近期在于確認技術路徑的選擇和分析落地案例的場景,
長遠來看在于找到核心推廣至全體計算行業應用的方法。
目前根據現有調研,認為DPU市場火熱:
玩家類型眾多,
且入局時間接近,
處于激烈競爭狀態,
技術路徑各異:包括FPGA、ARM和自研異構多種架構,目前還沒有確認的最優解決方案及芯片廠商應用落地案例。
DPU用于平衡計算單元算力和網絡端口速度之間的差距,彌補需求缺口
在第一波云端算力暴漲的發展中,GPU一直占據市場主要位置,各種針對深度學習等工作負載打造的專用AI芯片也得到了急速發展。與此同時,光網絡的鋪設、通信的密度、底層算力的生態設施建設等,都在逐漸升級的過程中;帶寬不斷提升,將有更大的數據量涌入,數據的處理將會越來越復雜,包括網絡協議處理、存儲壓縮、數據加密等,這些本不是CPU和GPU擅長的領域。
在這個階段,計算成本和能力一直處于平穩狀態,但隨著數據量的增大,網絡和存儲負載一直在增加。網絡性能和計算性能的差距一直在擴大,早在2018 年超過 70%的以太網端口的出貨速度就約為10G/秒。如果一直提升算力,但是通信基礎設施跟不上,整體系統性能還是受限,難以發揮出真正的潛能。
為了彌補此需求缺口,DPU應運而生,專門用于處理數據。
DPU,Data Processing Unit,數據處理單元,是一種片上系統,結合了以下三個關鍵要素:
行業標準的高性能軟件可編程多核CPU,通常基于廣泛使用的Arm架構,并與其他SOC組件緊密耦合。
高性能的網絡接口,能夠以網絡速度解析,處理和有效地將數據傳輸到GPU和CPU。
靈活的可編程加速引擎,旨在減輕網絡任務負擔并優化AI和機器學習,安全性,電信和存儲等的應用程序性能。
DPU的發展歷史
DPU專門用于數據處理,擁有高性能的網絡接口,用于彌補CPU和GPU的不足。
與專門用于通用計算的CPU和適合視頻、圖片等非結構化數據的加速計算不同的GPU相比,DPU出現年代較晚,近兩年才開始興起,主要用于在數據中心周圍移動數據,進行數據處理,減輕網絡和存儲工作負載,補足CPU和GPU的算力。
CPU 內核是為通用應用程序處理而設計的,隨著網絡速度的提高(現在每條鏈路的速度高達 200gb / s ), CPU 花費了太多寶貴的內核來分類、跟蹤和控制網絡流量。
通過DPU的方式就可以解決網絡傳輸中的瓶頸問題或丟包問題。典型通信延時可以從30-40微秒降低到3-4秒,性能提升10倍以上。
DPU的三大主要功能:保證安全性、釋放CPU算力和釋放服務器容量
保證安全性:DPU 作為一個智能網卡 ,是網絡流量的入口,也是阻止攻擊和加密傳輸最直接的地方。它通過與主 CPU 分開運行來提供安全隔離,如果主 CPU 受損, DPU 仍然可以檢測或阻止惡意活動。DPU 可以在不立即涉及 CPU 的情況下檢測或阻止攻擊。
釋放CPU算力:DPU可以執行原本需要CPU處理的網絡、存儲和安全等任務,釋放CPU的運算能力可以被釋放出來,去執行其他企業應用。
釋放服務器容量:DPU還釋放了服務器的容量,以便它們可以恢復到應用程序計算。在一些具有大量I / O和沉重虛擬化的系統上內核成本縮減一半,因此吞吐量提高了2倍。除了內核的成本,還要計算整個機器的成本,包括其內存和I / O以及所釋放的工作量,采用DPU之后,幾乎可以用一半的成本來保證原有的安全性和靈活性。
DPU的核心應用在于分布式存儲、網絡計算和網絡安全領域的成本削減和性能提升。
DPU作為一個可編程處理器,運行的都是非應用型負載,從而可以讓服務器CPU資源更好地服務應用負載,對數據中心來說,是通過更明細的分工,實現效率的提升,總體系統成本的削減。
DPU同時將助力隱私計算和邊緣端計算的發展
隱私計算:基于隱私保護技術的數據要素化,使得數據所有權和使用權分離,使得數據價值可以流動,對算力和網絡都有巨大的要求。
算力:
多方安全計算、聯邦學習、同態加密、差分隱私、零知識證明等密碼學方法,性能低,需要的計算資源比明文多幾個數量級;
DPU可以帶來改善。DPU的本質是將計算向存儲靠近。類似的方案有存內計算、近內存計算等框架,還有將計算和數據融合的霧計算。以數據為中心的處理器首先解決的是性能問題。
網絡:
算力不足可以用硬件加速緩解,但是網絡帶寬,尤其是公網環境,有限的帶寬是目前落地的瓶頸。尤其是多方安全計算MPC、聯邦學習等需要多輪網絡交互的技術。
對于性能問題,在數據的流動,即網絡傳輸,是數據中心的第二大職能。諸如網絡協議處理、傳輸壓縮、數據加密等任務都是網卡設備的職能。DPU可以被集成到SmartNIC(下一代網卡)中,從而帶來網卡的性能提升,那么它不僅可以處理物理層和鏈路層的數據幀,也有能力承擔網絡層和應用層的職能。
邊緣端計算:NVIDIA DRIVE Atlan是新一代AI自動駕駛汽車處理器,在平臺上通過arm核集成了DPU,帶來了數據中心級的網絡
NVIDIA DRIVE Atlan是新一代AI自動駕駛汽車處理器,算力將達到1000TOPS,約是上一代Orin處理器的4倍,超過了大多數L5無人駕駛出租車的總計算能力,堪稱 “車輪上的數據中心”,將車輛的整個計算基礎設施集中到一塊系統級芯片上。
這是DRIVE平臺首次集成DPU,通過Arm核為自動駕駛汽車帶來數據中心級的網絡,致力于應用到2025年的車型。
該SoC采用下一代GPU的體系結構、新型Arm CPU內核、新深度學習和計算機視覺加速器,并內置為先進的網絡、存儲和安全服務的BlueField DPU,網絡速度可達400Gbps。
據Fungible和英偉達的預測,用于數據中心的DPU量級將達到和數據中心服務器等量的級別。數據中心里的服務器,一般都需要兩張智能網卡,雙運營雙備份以保證安全,且一般需要三年更新迭代一次,服務器每年新增大約千萬量級,每臺服務器可能沒有GPU,但一定會有一顆或者多顆DPU,好比每臺服務器都必須配網卡一樣。服務器每年新增大約1500萬臺,每顆DPU如果以1萬元計算,這將是千億量級的市場規模。
按照目前數據中心市場判斷,整體市場規模在千億級別
DPU 由智能網卡發展而來,未來最終將成為基礎設施處理的重要工具
以太網控制器開始,提高計算能力,從而使普通的NIC變得智能:
收集許多Arm核心。
增加現場可編程門陣列(FPGA),可編程邏輯。
增加一種是自定義設計的網絡處理器。
Smart NIC 互聯通信:
管理側網絡后臺任務是最先遇到資源消耗挑戰問題的,在25bit/s下占用的CPU資源已經非常顯著。智能網卡就是為卸載網絡相關工作任務而設計的。
DPU 數據處理:
從本質上來說,在智能網卡的基礎上行,不僅僅是網絡,而是整個I/O相關的工作任務處理都會面臨資源消耗的挑戰問題,因此DPU在網絡卸載的基礎上,加入了存儲卸載及虛擬化卸載的解決方案。
IPU 基礎設施處理:
從云計算公司的角度來看,基礎設施處理器平臺不僅承載網絡、存儲及虛擬化的卸載,還需要承擔安全、管理、監控等各種管理面的功能,更為關鍵的是物理隔離業務和管理:業務在CPU和GPU,管理在DPU(或者更準確地稱為IPU)。目前英特爾已經使用 FPGA 部署了 IPU,微軟、百度、京東云和 VMWare是買家。通過特定功能,IPU可對數據中心中基于微服務架構的現代應用程序進行加速。谷歌和Facebook的研究表明,微服務通信開銷可消耗22%到80%的CPU性能。
DPU目前的主要架構
基于FPGA的SmartNIC
Pro:靈活性高,可編程
可以像處理網絡和存儲一樣處理計算,在開發上,可以如CPU一樣具有高度的可編程性,也可以像在SoC解決方案上一樣快速開發新功能。如賽靈思宣稱,其Alveo U25與基于Arm多核的SmartNIC相比,在相同功率下,性能可提高10倍。
基于ARM多核陣列
Pro:可以卸載明確定義的任務,例如標準化的安全和存儲協議,GPU可以從與DPU融合中受益
Con:
基于軟件可編程處理器,由于缺乏處理器并行性,這些處理器在用于網絡處理時速度較慢
多核 SmartNIC ASIC中的固定功能引擎無法擴展來處理新的加密或安全算法,因為它們缺乏足夠的可編程性,只能適應輕微的算法更改。
異構核陣列
Pro:異構具有更高的靈活性,并能帶來更高效的數據處理效率
Con:需要自研架構,研發投入較高。如國內中科馭數的KPU架構,他們將四類異構核組織起來,分別處理網絡協議,OLAP\OLTP處理,機器學習和安全加密運算核。
目前的趨勢是趨于折中,且專用核的比重越來越大,正在成為最新的產品趨勢,以英偉達的BlueField2系列DPU來看,就包括4個Arm核及多個專用加速核區域,Fungible的DPU則包含6大類的專用核,和52個MIPS小型通用核。
DPU賽道上主要玩家
大廠收購初創企業
在DPU這一新興芯片賽道上已有英偉達(收購Mellanox)、英特爾(收購Bearfoot )、Broadcom和Marvell(收購Cavium)、 Fungible(初創) 、Xllinx等巨頭,主要以收購初創企業的方式完成。
初創企業團隊來自大廠背景,專注單一架構的芯片
他們成立時間大部分在2018年及以后,在半年內均完成了多輪融資,前期投資機構持續加碼。
市場中DPU玩家與所有芯片廠商類似,在產業鏈中主要負責IC設計環節,僅有少部分設計框架設計。
EDA:設計芯片的軟件高度壟斷:美國的Synopsys、美國的Cadence 和西門子旗下的 Mentor Graphicss占領95%市場。
框架結構:市場中DPU玩家與所有芯片廠商類似,在產業鏈中主要負責IC設計環節,僅有少部分設計框架設計。
ARM架構較為壟斷,和intel的x86在數據中心市場形成直接競爭。
DPU廠商自研框架較少,目前
國內僅有中科馭數公開KPU自研框架。
英偉達計劃收購ARM。(近期遭到擱置)
IC設計:我國初創芯片設計(DPU設計)廠商較多,競爭最為激烈。
晶圓測試&封裝制造:我國初創芯片(DPU)廠商和博通等類似,以Fabless模式為主,只負責芯片的電路設計與銷售。將生產、測試、封裝等環節外包。
無龐大實體資產,創始的投資規模小、進入門坎相對低
較無法做到完善的上下游工藝整合、較高難度的領先設計。代工廠會將制作完成的芯片送回 IC 設計公司、繼續進行測試與分析。
DPU產品至今商業化并不算成功,究其原因包括:
市面上的DPU產品功能覆蓋和場景覆蓋能力不足,難以滿足不同客戶對于DPU產品快速使用的需求。因此,如何讓市場形成更多有效的DPU產品是推動商業化的關鍵, DPU產品需要結合用戶的具體需求,從應用場景出發,向下構建底層體系,從而實現快速的商業化落地。
現有數據中心多為小型數據中心,真正運算量到了一定量及的超級大型數據中心做降本才更有意義。隨著數據量的不斷增加和邊緣計算應用的增加,未來DPU的市場會逐步擴大。
因此,目前DPU廠商在商業化的道路上面臨的主要競爭對手來自自有商業應用場景的超大型云服務器廠商。
云提供商對于自身的需求最清楚,因此自研芯片非常合乎情理,而且有機會能為自身的云服務提供差異化競爭的能力。
云服務器廠商:亞馬遜AWS從2013年開始用Nitro卡(智能網卡,如今已經到了第四代),亮點在于擁有控制EC2實例的業務邏輯。目前,亞馬遜馬遜為AWS已經發布了基于ARM核的自研處理器Graviton。
同樣做國內,阿里也有類似的產品邏輯,比如X-Dragon MOC,如果谷歌等其它云服務商也跟進使用ARM架構自研芯片,那么這些云廠商就會成為芯片大廠的客戶同時也是競爭對手。
8-9年后,DPU將作為IT基礎設施中的主流方案。屆時,從云計算公司開始,至大中型互聯網公司再到中小型企業客戶群體將會依次完成從CPU到DPU的云計算引擎迭代更新。
總結
DPU,即數據處理單元芯片
有助于提高云計算及相關產業的效率和安全性、降低時間和經濟成本,
收到整體政策和相關產業發展的支持
相關初創企業發展迅速,融資市場蓬勃
但相關產品具體落地應用仍然受限,
主要在于目前存量機房、服務器數量較多,新服務器增量不及預期,且新組件安裝成本較高
且云計算市場集中度較高,使用者傾向于使用自研芯片
如果有自研架構可以解決通用FPGA和arm架構面臨的問題,并與落地應用客戶溝通較深,對業務直接應用有更多了解,將有極大競爭優勢。
審核編輯:湯梓紅
評論
查看更多