色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

比較服務器CPU與手機AP CPU的異同

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-06-12 09:45 ? 次閱讀

?

本文對ARM Neoverse系列服務器CPU做一些初步調研,并嘗試比較服務器CPU與手機AP CPU的異同。

云計算通用可編程DPU發展白皮書(2023年)

《42份智能網卡和DPU合集》

256份重磅ChatGPT專業報告

首先看一下ARM Neoverse系列CPU的全家福,其中一些主要的CPU會在下文重點介紹。

32e5b552-08b0-11ee-962d-dac502259ad0.png

(圖源:Anandtech)

1. ARM Neoverse N1

ARM在2019年2月首次發布面向服務器的CPU產品:ARM Neoverse N1。Neoverse N1跟Cortex-A76是同一時代的產品,所以下面重點對比Neoverse N1與Cortex-A76的異同。

1.1 流水線結構

從CPU core的流水線結構上來看,Neoverse N1采用最短11級的流水線,取指/譯碼的寬度為4,具有3個64-bit整數ALU和1個Branch單元,2個128-bit的Advanced SIMD(負責浮點/向量運算)單元,以及兩個128-bit Load/Store的單元。從流水線結構上看,與Cortex-A76沒有明顯差異。

330d7524-08b0-11ee-962d-dac502259ad0.png

(圖源:Anandtech)

1.2Cache

在cache結構上,Neoverse N1的Instruction cache可以通過配置選擇是否支持硬件一致性,這個配置選項是針對服務器這種多核的應用場景所添加的。ARM在架構上并不要求Instruction cache具有硬件一致性的能力。所以對于之前的ARM CPU,如果memory里面的指令被修改了,那么軟件需要進行cache maintenance操作(如I cache invalidation)。這些cache maintenance操作通常會以廣播的形式發給與當前core保持一致性的其他所有core。這種廣播的形式對于核數較多的系統而言會造成較大的性能開銷。而在服務器場景下,ARM提到VM的setup/teardown會導致memory里面的指令被修改的情況。

3326c592-08b0-11ee-962d-dac502259ad0.png

(圖源:ARM, Hotchips 2019)

如果配置Neoverse N1支持I-cache的硬件一致性,則節省了軟件進行I-cache maintenance的開銷。為了保證軟件的兼容性,在支持I-cache硬件一致性的Neoverse N1上,如果執行的舊版本軟件依然執行I-cache maintenance指令,Neoverse N1會將這些指令當作“No operation”(即NOP)來處理。對于新開發的軟件,Neoverse N1提供一個寄存器bit可以供軟件查詢當前Neoverse N1是否配置了I-cache的硬件一致性選項。(以上內容參考ARM的白皮書《The Arm Neoverse N1 Platform: Building Blocks for the Next-Gen Cloud-to-Edge Infrastructure SoC》)

另外Neoverse N1可配置的L2 cache size與A76存在差異。Neoverse N1的L2 cache size為256KB ~ 1024KB,而Cortex-A76的L2 cache size為128KB ~ 512KB。如果Neoverse N1配置支持I-cache的硬件一致性,那么L1 Instruction cache會與L2 cache保持完全的inclusive關系,即所有L1 Instuction cache中的內容都必須放在L2 cache里面,此時ARM建議L2 cache size配置成1024KB。如果配置成512KB,由于被L1 instruction cache的嚴格inclusive關系占用部分cache空間,可能會有1%~ 2%的性能損失。(以上內容參考ARM Neoverse N1 Technical Reference Manual)

1.3Neoverse N1與下游的連接

從集成的角度,ARM Neoverse N1可以選擇以Direct-Connect的形式直接連接到CMN-600總線上。

33378d14-08b0-11ee-962d-dac502259ad0.png

(圖源:Anandtech)

Direct Connect是ARM DSU (DynamIQ Shared Unit)的一個配置選項,當DSU配置成Direct Connect這種模式的時候,DSU內部的L3 cache,snoop filter和Snoop Control Unit (SCU)將不再存在。由于此時DSU內部沒有任何負責一致性的邏輯,所以一個DSU cluster最多只支持一個core。多個DSU cluster之間的一致性由DSU外部的一致性總線(如CMN600)來維護。由于Direct Connect模式下DSU內部沒有L3 cache,所以通常需要外部的一致性總線(如CMN600)配置一定量的system cache來滿足CPU的性能需求。

作為對比,可以看一下A76的DSU結構,DSU內部的L3 cache、Snoop Control Unit等模塊通常都是存在的。從A76的Technical Reference Manual里面也沒有看到描述A76支持像Neoverse N1那樣的Direct Connect模式: 3364f1c8-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) 除了Direct Connect這種配置外,Neoverse N1 IP本身也支持DSU cluster里面最多配置4個Neoverse N1,然后在DSU內部把這幾個core的一致性處理做掉,然后多個DSU之間再通過一致性總線相連。下圖就是DSU里面配置4個Neoverse N1 core的一個例子: 33781456-08b0-11ee-962d-dac502259ad0.png (圖源:Neoverse N1 TRM) ? 1.4基于Neoverse N1的SOC結構 下面是ARM的一個基于Neoverse N1 CPU的大型SOC芯片的參考設計。使用了64個Nerverse N1 CPU,利用CMN-600一致性總線進行互聯,再配合DDR controller、PCIe controller等IP組成整個SOC。 33828b52-08b0-11ee-962d-dac502259ad0.png

(圖源:ARM, Hotchips 2019) 上圖中有大量的單元掛在mesh的節點上,在下圖中可以看到這些掛在Mesh網絡中的Cross Point(XP)節點上的單元為2個N1 CPU,和System Level Cache。CMN可以支持從1x2到8x8的mesh結構,在latency上,每一個cycle可以進行一次hop,即從一個XP跳到相鄰的XP: 339abefc-08b0-11ee-962d-dac502259ad0.png (圖源:ARM, Hotchips 2019) 兩個N1 CPU連接到XP上的時候可以配置成Direct Connect形式,利用CMN600里面的CAL(Component Aggregation Layer)組件,能夠將最多兩個相同的RNF(Request Node Full)連接到XP上。 ? 33b4f4ca-08b0-11ee-962d-dac502259ad0.png (圖源:ARM, CMN600 TRM) 除了提供上述的大型芯片reference design外,ARM還為Neoverse N1做了一套硬件開發板,用于軟件的開發驗證。開發板的N1 SOC芯片包含4個Neoverse N1,這4個Neoverse N1是分成2個DSU cluster連接到CMN-600上的,并且配備了1MB L3 cache。SOC架構中除了N1 CPU之外,其他像MMU-600、Debug and trace component的使用也值得關注。 33ca4a5a-08b0-11ee-962d-dac502259ad0.png (圖源:ARM, Arm?Neoverse?N1 System Development Platform?TRM) 1.5Neoverse N1的PPA 基于7nm工藝,配置512KB L2的Neoverse N1面積為1.15mm2,配置1MB L2的面積為1.4mm2。整數運算workload(大概率是指dhrystone)的功耗為1.0W @ 2.6GHz和1.8W @ 3.1GHz。 33d6e9cc-08b0-11ee-962d-dac502259ad0.png (圖源:ARM, Hotchips 2019) 1.6基于Neoverse N1的服務器產品 Ampere Computing,由軟銀、微軟、甲骨文投資,英特爾前總裁Renee James創立的服務器芯片獨角獸公司,截至2023年推出3代服務器產品: Ampere Altra:80個Neoverse N1 core,1MB per-core L2,32MB SLC,Max 3.3GHz Ampere Altra Max:128個Neoverse N1 core,1MB per-core L2,16MB SLC,Max 3.0GHz。SPECint2017跑分336分。 AmpereOne(2023年5月發布):192個ARM架構自研核 下圖為128核Neoverse N1的Ampere Altra Max框圖: 340b28f4-08b0-11ee-962d-dac502259ad0.png (圖源:Ampere, Ampere Altra Max 64-Bit Multi-Core Processor Datasheet) 2. ARM Neoverse V1 ARM移動端的Cortex-A系列CPU分為超大核Cortex-X系列,大核Cortex-A7x系列以及小核Cortex-A5x系列。相應地,Neoverse服務器的產品線也分為追求極致性能的V-Series、追求性能與功耗平衡的N-Series以及追求功耗面積的E-Series。 3420b94e-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) ARM在2020年9月發布的Neoverse V1,對應移動端的Cortex-X1。 34370d70-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) 根據ARM的PPT,Neoverse V1相比Neoverse N1會有50%的單核性能提升。 34582d02-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) 由下圖可見,Neoverse V1的取值、譯碼、發射單元寬度都顯著高于N1,ALU等 346db6cc-08b0-11ee-962d-dac502259ad0.png (圖源:ARM) 但根據2022年底的新聞,由于Neoverse V系列CPU性能太高,受美國和英國的出口管制,中國企業無法購買ARM Neoverse V系列的CPU,包括Neoverse V1以及后續的Neoverse V2等。 3. ARM Neoverse N2 Neoverse N2是ARM首款ARMv9系列的服務器CPU。與移動端的Cortex-A710是同一代的CPU。相比Neoverse V1,增加了SVE2、Memory Tagging Extension(MTE)等ARMv9一代CPU的新feature。 34772eb4-08b0-11ee-962d-dac502259ad0.png (圖源:ARM,Arm Neoverse N2 Platform: Industry-leading performance and power efficiency for Cloud-to-Edge infrastructure) 根據ARM的PPT,Neoverse N2相比N1有40%的IPC提升: 3499f926-08b0-11ee-962d-dac502259ad0.png(圖源:Anandtech) 3.1基于Neoverse N2的服務器產品 2021年10月,平頭哥發布倚天710,基于TSMC 5nm工藝,采用128核的Neoverse N2,最高頻率3.2GHz,8通道DDR5,峰值總帶寬281GB/s,96通道PCIe 5.0。SPECInt 2017跑分440分。倚天710分為兩個die,每個die包含64個CPU core和4個通道的DDR。根據網上信息,每個die size約310mm2。倚天710采用2.5D封裝進行多die合封,總計600億晶體管。所使用的總線大概率是與Neoverse N2同一時期的CMN-700,每個die上有一個CMN總線。 4. ARM Neoverse V2 ARM于2022年9月發布Neoverse V2 CPU。相比Neoverse V1,所支持的最大L2 cache size從1MB提升到2MB。另外支持ARM v9.0的新feature,如SVE2 4x128b。 34ba3448-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) 5. ARMCMN700 vs CMN600 除了ARM Neoverse系列CPU之外,CMN總線也是ARM服務器架構中的重要組件。CMN-700相比CMN-600提升了每個die上支持的core數量、mesh的Node數量以及System level cache的容量等。 34e39f90-08b0-11ee-962d-dac502259ad0.png (圖源:Anandtech) 其中CMN-700所支持的256 cores per die是這樣計算的,CMN-700可以支持128個RN-F(Full coherent的Requesting Node),每個RN-F可以是兩個Neoverse CPU core經過CMN-700的CAL(Component Aggregation Layer)組件匯聚成一路。所以總共支持128 * 2 = 256 cores。 理論上來說,CMN-600可以支持64個RN-F,所以理論上能夠支持的core數量應該也能到64 * 2 = 128 cores(實際上會略小于這個值)。因為Ampere Altra這一代服務器芯片就已經有80個Neoverse N1 core,超出了ARM給出的64 core per die。ARM給出的說法是這個64 core per die是指直連到Node上的core數量,如果采用CAL的話,可以實現更高的core數量。請留意下圖中最下面一行小字: 35098638-08b0-11ee-962d-dac502259ad0.png (圖源:極術社區) 如果要實現128 core的服務器芯片,可以選擇在一個die上使用CMN-700來構建,也可以通過多die互聯,例如下圖左側就是2個64 core的die進行die間互聯。采用64 core per die,用兩個die組成128 core服務器芯片的方式,每個die的size比較小,良率會更高,代價是需要有額外的邏輯實現片間互聯。?
責任編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10879

    瀏覽量

    212194
  • 可編程
    +關注

    關注

    2

    文章

    871

    瀏覽量

    39851
  • 服務器
    +關注

    關注

    12

    文章

    9234

    瀏覽量

    85641

原文標題:ARM Neoverse系列服務器CPU介紹

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ARM Neoverse系列服務器CPU研究分析

    ARM在2019年2月首次發布面向服務器CPU產品:ARM Neoverse N1。Neoverse N1跟Cortex-A76是同一時代的產品,所以下面重點對比Neoverse N1與Cortex-A76的異同
    發表于 06-12 09:41 ?4136次閱讀
    ARM Neoverse系列<b class='flag-5'>服務器</b><b class='flag-5'>CPU</b>研究分析

    高價回收服務器cpu

    高價回收服務器cpu深圳專業回收服務器cpu,高價收購服務器cpu,深圳帝歐專業多年回收電子,有
    發表于 05-12 19:25

    高價回收服務器cpu

    高價回收服務器cpu深圳專業回收服務器cpu,高價收購服務器cpu,深圳帝歐專業多年回收電子,有
    發表于 10-12 19:28

    服務器CPU

    服務器CPU 服務器CPU,顧名思義,就是在服務器上使用的CPU(Center Process
    發表于 12-17 10:15 ?586次閱讀

    未來國產服務器CPU產業將如何發展?

    那么,中國的服務器CPU產業目前的發展狀況如何?從市場角度來看,隨著大數據、云計算的快速發展,服務器CPU已經成為數據中心乃至整個云端網絡的核心,不僅市場空間巨大,同時具有重要的戰略意
    的頭像 發表于 07-24 14:28 ?4085次閱讀

    服務器CPU是什么呢,服務器CPU的科普知識

    服務器CPU也就是服務器的處理,一個cpu 有核心數和對應線程 ,每個cpu的型號你都可以
    發表于 11-12 14:14 ?5748次閱讀

    國外服務器CPU種類多不多,國外服務器有什么優勢

    全球化發展趨勢下,推動了世界各地服務器市場的發展,使國內外服務器市場的包容性更強。小編今日同您分享的是,國外服務器CPU種類多不多,其中最受歡迎的
    發表于 12-21 16:44 ?725次閱讀

    gpu服務器是干什么的 gpu服務器cpu服務器的區別

     相比于傳統的CPU服務器,GPU服務器支持同時計算大量相似的計算操作,可以實現更強的并行計算性能。GPU服務器通常配備多個高性能的GPU,可以有效地支持大規模數據并行處理,提高了計算
    的頭像 發表于 12-02 17:20 ?1951次閱讀

    CPU與GPU散熱設計的異同及其重要性

    CPU與GPU散熱的設計異同及其重要性 在計算機的發展過程中,中央處理單元(CPU)和圖形處理單元(GPU)在性能和熱量產生方面的不斷提升和增加,使得其在長時間工作時產生了大量的熱量
    的頭像 發表于 01-09 14:00 ?1376次閱讀

    gpu服務器是干什么的 gpu服務器cpu服務器的區別有哪些

    gpu服務器是干什么的 gpu服務器cpu服務器的區別 GPU服務器是一種專門用于處理圖形運算的服務器
    的頭像 發表于 01-30 15:31 ?897次閱讀

    服務器cpu和普通電腦cpu的區別

    服務器CPU和普通電腦CPU之間存在許多區別。在以下文章中,我們將詳細介紹服務器CPU和普通電腦CPU
    的頭像 發表于 02-01 11:14 ?6747次閱讀

    gpu服務器cpu服務器的區別對比,終于知道怎么選了!

    gpu服務器cpu服務器的區別主要體現在架構設計、性能特點、能耗效率、應用場景、市場定位等方面,在以上幾個方面均存在顯著差異。CPU服務器
    的頭像 發表于 08-01 11:41 ?520次閱讀

    香港服務器選擇CPU需要考慮的因素

    選擇適合香港服務器CPU是一項細致的工作,涉及到多方面的考量。正確的選擇不僅能夠滿足當前的業務需求,還能為未來的發展預留空間。以下是選擇香港服務器CPU時需要考慮的一些重要因素:
    的頭像 發表于 09-30 09:50 ?209次閱讀

    服務器cpu和臺式機cpu區別

    服務器CPU和臺式機CPU的區別是一個復雜的話題,涉及到多個方面,包括設計、性能、功耗、可靠性、成本等。 服務器CPU和臺式機
    的頭像 發表于 10-10 15:12 ?1303次閱讀

    服務器cpu占用率高怎么解決

    服務器CPU占用率高是一個常見的問題,它可能會導致服務器性能下降,甚至影響用戶體驗。 一、了解服務器CPU占用率高的原因 應用程序問題 應用
    的頭像 發表于 10-10 15:14 ?986次閱讀
    主站蜘蛛池模板: 久久视频这里只精品6国产| 久草大| 国内视频在线精品一区| 日韩精品特黄毛片免费看| 99久久精品免费国产一区二区三区| 黄A无码片内射无码视频| 亚洲第一页视频| 国产亚洲欧美在线观看三区| 摥管专用动态图399期| 国产精品7777人妻精品冫| 天龙八部慕容属性加点| 国产精品无码久久久久不卡| 无码日韩人妻精品久久蜜桃入口 | 国产精品色午夜视频免费看| 收集最新中文国产中文字幕| 国产超嫩一线天在线播放| 手机在线观看mv网址| 国产精人妻无码一区麻豆| 迅雷哥在线观看高清| 黄色三级在线| 中文字幕久精品视频在线观看| 美女被打开了屁股进去的视频| 2018国产天天弄谢| 欧美日韩久久久精品A片| 成人毛片一区二区三区| 翁公吮她的花蒂和奶水| 狠狠色狠狠色综合| 123超碰在线视频| 欧美人与动牲交ZOOZ特| 国产哺乳期奶水avav| 亚洲高清国产拍精品影院| 久啪久久全部视频在线| 超碰日韩人妻高清视频| 午夜AV内射一区二区三区红桃视| 果冻传媒在线观看高清完整免费| 在线AV国产传媒18精品免费 | 无限好资源免费观看| 娇妻在床上迎合男人| 99在线免费观看| 校园纯肉H教室第一次| 久久这里只有精品视频e|