與大多數其他Layerscape處理器一樣,LX2160A處理器面向無頭嵌入式系統。它不適用于擁有強大CPU和流暢用戶界面的計算機。誠然,它的大多數指標得分都很高,但最突出的是驚人的網絡加速和I/O性能。它適用于無線傳輸卡和工業控制器等設計。為何要把LX2芯片連接到GPU上呢?
答案是,LX2對于計算機來說足夠強大,但它是為高要求的嵌入式應用而設計。LX2擅長利用16個CPU進行通用計算。Cortex?-A72 CPU由Arm?授權,可用于其他Layerscape處理器和其他公司的ASIC。例如特斯拉采用12核CPU的“FSD計算機”以及亞馬遜網絡服務公司采用16核CPU的Graviton(與LX2一樣)。我們的分析顯示,16核LX2的性能與競爭對手架構(通常針對PC和服務器)的16線程/8核處理器相當。
需要這種性能的應用范圍很廣。其中包括Layerscape及其Power Architecture?前身長期瞄準的通信設備類型中的數據平面功能:基站中的傳輸卡、數據中心服務器的智能網卡以及路由器的第2層/第3層加速度傳感器。這些應用可采用LX2的眾多內核以及每個Layerscape處理器內置的連接和加密加速功能。
恩智浦在通信設備領域也有長期目標,特別是利用通信設備的高單線程性能方面。在這一方面,LX2也大放異彩——但在這種情況下,是由于LX2的CPU速度很快,可以穿透軟件層。例如,網絡功能虛擬化(NFV)將軟件封裝在以前運行在獨立物理硬件上的虛擬機中。雖然虛擬化起源于服務器和工作站,但它在恩智浦處理器上可高效運行,這要歸功于恩智浦的CPU內核和SoC機箱的虛擬化功能。自2008年QorIQ P系列問世以來,我們一直致力于這類組件的設計。
盡管如此,在典型的NFV系統中,各種因素共同消耗著CPU時鐘周期。舊的物理系統是帶精益系統軟件的專用硬件。而虛擬化網絡功能(VNF)是在類似計算機的通用硬件和系統軟件上執行的,本質上效率較低。此外,這些平臺還托管了多個VNF,它們通過虛擬交換機(軟件上部署的以太網交換機)相互通信。數據平面開發工具套件(DPDK)等庫減輕了操作系統開銷,但依賴高速內核來運行并完成任務。Lx2擁有所需的內核,而恩智浦投資優化網絡和虛擬化軟件,如DPDK和Linux內核虛擬機(KVM)。恩智浦還投資容器化——成本更低的虛擬化替代方案。
然而,最重要的軟件是Linux。是的,恩智浦仍然與Wind River等嵌入式操作系統專家合作。對于希望獲得開源嵌入式體驗的客戶,恩智浦提供了Yocto嵌入式Linux開發環境。但是,許多開發人員(尤其但不限于具有IT背景的開發人員)更喜歡在計算機上使用類似的環境。恩智浦的Layerscape開發套件(LSDK)很受歡迎。它是一個參考集成,示范了客戶如何將眾多組件融合到系統映像或個性化Linux發行版中。
為了構建LSDK,恩智浦首先修改大量開源啟動加載程序、內核、庫和工具,以與特定器件(如LX2)配合使用。我們將這些修改作為補丁,提交給相關的開源項目。一旦上傳,LSDK組件就可從kernel.org和GitHub等公共存儲庫下載。恩智浦會不時更新這些補丁,定期發布新版本,并為最新的兩個長期支持版(LTS)內核提供支持。開發人員可以選擇自己集成所需的組件。無需下載大量ISO文件或tarball。
LSDK參考集成非常便捷,包含了一個用戶空間,其中包含從備受歡迎的Ubuntu發行版派生的文件和文件夾層次結構。這為開發人員提供了熟悉的操作環境。重要的是,它還提供了對大量二進制軟件庫的輕松訪問。這些應用運行順暢,因為LX2和其他Layerscape處理器使用標準Arm內核,最大限度地提高了兼容性。其他受歡迎的發行版也支持64位Arm處理器,使用LSDK打造自己發行版的開發人員可以調整這些用戶空間,而不是我們提供的Ubuntu示例。圖1是LX2上Linux桌面的截屏。
圖1 Layerscape LX2160A處理器上運行的Linux桌面的截屏
LX2的性能和軟件生態合作體系正將其推向通信以外的市場。高端輔助駕駛自動化系統(ADAS)中的服務器硬件通常會解決這類問題,即通過人工智能(AI)硬件集成從相機、激光雷達和其他傳感器提取的信息的問題。這種硬件體積龐大、價格昂貴且容易發熱。而LX2是個極具吸引力的替代方案,它具有相似的性能和更好的集成性,同時廠家在滿足汽車制造商對長期供貨計劃、功能安全和惡劣環境耐受性的需求方面有著良好口碑。恩智浦與全球各大公司合作開展ADAS和自動駕駛工作。同樣,客戶也在工業機器視覺、航空航天和數控切割機中使用LX2。
即使在通信中,LX2也可以處理在通用處理器上未運行的工作負載。例如,5G移動通信標準支持各種功能拆分,包括在稱為分布式單元(DU)的系統中而非傳統宏基站的信道卡上實現上層PHY功能,包括信道編碼、位操作、信道估計、均衡和預編碼,可以在通用處理器上的軟件中運行。然而,該處理器必須能夠處理大量數據。恩智浦的分析表明,LX2可以勝任這項任務。
出于類似的原因,LX2甚至正進入數據中心,也就是終極計算設備200W+服務器芯片的大本營。LX2并沒有取代服務器,而是通過插入服務器的網絡接口卡與其進行互補。LX2將網絡任務從那些昂貴且耗電的服務器內核中分流。Xilinx開發的FPGA + LX2 NIC組合就是一個例子。
要了解LX2如何提供如此具有競爭力的性能,我們先深入了解一下一般計算工作負載上影響其性能的一些因素。它有兩個受ECC保護的64位DDR4內存接口,如圖2所示。雖然這比服務器處理器少,但LX2的DDR4接口運行速度高達3200 GT/s,比市場上的其他處理器快約50%。因此不僅可以確保良好的內存吞吐量,還能降低成本(與采用的寬DDR端口較少有關)。
圖2 LX2160A處理器結構框圖
這得益于8MB的平臺高速緩存,高速緩存緩沖CPU內核訪問、網絡加速度傳感器和I/O控制器的片外內存。片上還集成了2MB數據包快速緩沖區,可最大限度地減少內置以太網交換機對DRAM的訪問。每對CPU旁邊都有1MB的二級緩存。這與Graviton的每核數量相同,Graviton沒有L3緩存,比許多計算處理器都要多。與片外內存相比,高速緩存的訪問速度更快,因此對于向CPU提供指令和數據來說,高速緩存必不可少。
如上所述,LX2使用Arm Cortex-A72 CPU。這些CPU屬于該公司的“大”A系列內核。有些Layerscape使用“小”Arm Cortex-A53 CPU。這兩種CPU相互兼容,可實現相同版本的Arm 64位指令集。在相同的時鐘頻率下,A72的速度大約是原來的兩倍。它每個周期可解碼三條指令,并且可以在八條管道的任意一條無序執行。A53一次只解碼和執行兩條指令,可以降低功耗和成本。A72以性能為導向,還擁有更快的浮點單元和更廣泛的Neon SIMD執行單元,增強了其分割數學密集型計算工作負載(例如無線DU中的上層PHY函數)的能力。A72 的每個Neon單元(共兩個)的每個周期都可以進行兩個復雜的16位乘積累加運算。
總之,恩智浦Layerscape LX2160A處理器在計算方面表現出色。我們與一位希望更換其嵌入式系統PC處理器的客戶取得了聯系。他們想要類似的性能,但不想放棄他們的軟件生態合作體系。LX2正好符合要求。工程師將得到一張標準GPU卡,插入系統的PCIe插槽。因為有開源社區和LSDK,軟件安裝輕而易舉。LX2專為解決嵌入式系統的環境挑戰而設計,并針對通信應用進行了優化,在計算工作負載方面也大放異彩。或許恩智浦已經找到了新的宣傳口號:Layerscape LX2160A:小體積大算力。
審核編輯:郭婷
-
處理器
+關注
關注
68文章
19349瀏覽量
230278 -
cpu
+關注
關注
68文章
10880瀏覽量
212210 -
gpu
+關注
關注
28文章
4753瀏覽量
129067
發布評論請先 登錄
相關推薦
評論