電子發燒友網報道(文/周凱揚)不久前,Meta宣布將花費150億美元,購置60多萬塊GPU,而這還沒算上系統成本。就當大家以為Meta打算All In GPU之際,Meta放出了下一代MTIA AI芯片,MTIA v2。
基于5nm打造,性能三倍以上
相較上一代MTIA v1,新的MTIA v2的工藝從臺積電的7nm換成了臺積電5nm,芯片主頻也從800MHz提升至1.35GHz。得益于芯片工藝的改進,即便晶體管數量大幅增加,其芯片面積僅增加了12%。
MTIA v2的性能提升主要體現在算力上,根據Meta給出的數據其GEMM算力達到354TFLOPS/s(INT8),SIMD算力達到11.06TFLOPS/s(INT8),相較上一代均提升了3倍以上。在接口上,MTIA v2也從8xPCIe 4.0升級至8x PCIe 5.0,帶寬翻倍。
算力的提升除了歸功于工藝的升級外,很可能也不乏內核的升級。結合晶心科技和Meta合作開發數據中心AI處理器的新聞來看,MTIA v1很有可能采用了晶心科技打造的首個商用RISC-V矢量處理器內核NX27V,而MTIA v2則很可能用到了最新的AX45MPV內核,其三倍以上的性能提升幅度也符合MTIA的算力提升幅度,不過這也只是猜想而已。值得一提的是,與同樣在近期發布的英特爾Gaudi 3不一樣,MTIA v2在內存配置上依舊沒有選擇HBM,片上內存只有256MB,片外內存選擇了LPDDR5。雖然其片上內存擁有2.7TB/s的帶寬,但也注定了MTIA v2很難用于高效率的大模型應用。在硬件堆料下,MTIA v2的功耗也已經來到了90W,相比MTIA v1的25有著比較大幅度的增加。不過對比H100的能耗比,MTIA v2依然有著比較大的優勢。但這也就意味著上一代的服務器方案可能已經不再適用于新的方案,Meta因此為新加速器打造了全新的機柜系統。該系統單個機架由三個底盤構成,每個底盤塞進了12塊板卡,每個板卡集成了2個加速器,也就意味著單個機架共有72個MTIA v2加速器,單機柜至少需要6000W的電源供應。如果想要實現多機架拓展的話,也可以選擇加入RDMA NIC。Meta表示實現這樣的成績,除了依靠硬件本身的性能提升之外,也離不開他們在優化內核、編譯器、運行時上的努力。隨著后續開發生態進一步成熟,對模型針對性優化的時間會進一步減少,而且未來還有不少空間可以繼續優化芯片的效率。軟件棧引入新的編譯器
隨著新硬件的發布,Meta也加大了他們在軟件棧上的開發力度。作為PyTorch的開發者,MTIA的軟件棧從設計之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。但與此同時,為了簡化應用開發者的工作,為MTIA v1開發的代碼,也能向下兼容新的MTIA v2硬件。而且Meta表示,因為已經將全部的軟件棧集成在新的MTIA芯片內,在發布之際,他們已經在自己的服務器上用MTIA v2跑了一段時間了。正因為有這種兼容的軟件棧方案,Meta可在九個月內就能讓商用模型運行在16個地區的服務器上。為了為全新的MTIA硬件生成更高性能的代碼,Meta還打造了一套新的Triton-MTIA編譯器。Triton是由OpenAI開發的一套開源語言和編譯器,用于編寫高效的ML計算內核。Triton極大地提高了開發者編寫GPU代碼的速度,但Meta發現Triton也很適合用于MTIA這樣非GPU的硬件架構。寫在最后
從MTIA v2的性能來看,該加速器應該不會替代其購置的大量GPU用在LLM模型上,而是追求算力、內存帶寬和內存容量的平衡,用于排名和推薦的大模型上。這樣一來大容量的SRAM還是用在GPU上,而Meta最大收入來源的廣告業務,可以靠MTIA之類的加速器減少成本。Meta除了投資定制AI芯片和下一代GPU這樣的計算芯片外,Meta也強調他們會繼續投資內存帶寬、網絡、容量相關的下一代硬件系統。不僅如此,Meta也在探索增加MTIA的應用范圍,包括未來可能支持GenAI的負載。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
Meta
+關注
關注
0文章
298瀏覽量
11517 -
AI芯片
+關注
關注
17文章
1927瀏覽量
35424
發布評論請先 登錄
相關推薦
新品 | 第二代 CoolSiC? MOSFET G2分立器件 1200 V TO-247-4HC高爬電距離
第一代技術的優勢為基礎,加快了系統設計的成本優化,實現高效率、緊湊設計和可靠性。第二代產品在硬開關工況和軟開關拓撲的關鍵性能指標上都有顯著改進,適用于所有常見的交

簡單認識第二代高通3D Sonic傳感器
目前,已有多款搭載驍龍8至尊版移動平臺的新機陸續發布,其中不少機型采用第二代高通3D Sonic超聲波指紋解鎖,為用戶帶來了更為便捷、高效的解鎖體驗。作為高通新一代超聲波指紋解鎖解決方案,第二代高
第二代AMD Versal Premium系列器件的主要應用
隨著數據中心工作負載持續呈指數級增長,存儲層也需要同等的性能提升才能跟上步伐。第二代 AMD Versal Premium 系列器件為各種存儲應用提供了巨大優勢,包括企業級 SSD、加密/壓縮加速器
借助第二代 AMD VERSAL 實現先進醫療成像
的類型、速率和數量。放眼未來,這類設備中的大部分還需要支持 AI 功能的執行和加速,例如感興趣區域( ROI )選擇、圖像分類和其他 AI 任務。 第二代 Versal 自適應 SoC 配備的處理系統可提供比前代至高多出 10
發表于 12-04 09:13
?174次閱讀
新品 | 第二代 CoolSiC? 34mΩ 1200V SiC MOSFET D2PAK-7L封裝
基礎,加快了系統設計的成本優化,實現高效率、緊湊設計和可靠性。第二代產品在硬開關工況和軟開關拓撲的關鍵性能指標上都有顯著改進,適用于所有常見的交流-直流、直流-直流

簡單認識第二代高通Oryon CPU
在不久前的2024驍龍峰會上,備受矚目的新一代驍龍旗艦移動平臺——驍龍8至尊版正式發布。這款以“至尊版”命名的全新平臺也是首個采用第二代高通Oryon CPU的移動平臺。憑借領先的CPU、GPU
AMD推出第二代Versal Premium系列
近日,AMD(超威,納斯達克股票代碼:AMD )今日宣布推出第二代 AMD Versal Premium 系列,這款自適應 SoC 平臺旨在面向各種工作負載提供最高水平系統加速。第二代 Versal
一加正式發布第二代東方屏,獲全球首個DisplayMate A++認證
近日,一加攜手京東方正式發布第二代東方屏,并宣布將在年度旗艦產品一加 13 中首發搭載。去年,一加聯合京東方打造出世界上最好的屏幕——東方屏,這是一次中國屏幕歷史級的突破。本次發布的第二代東方屏,在
AMD第二代Versal自適應SoC的主要特色
AMD 第二代 AMD Versal AI Edge 和 Versal Prime 系列助力 AI 驅動型和經典的嵌入式系統實現單芯片智能性。可在性
第二代AMD Versal Prime系列自適應SoC的亮點
第二代 Versal Prime 系列自適應 SoC 是備受期待的 Zynq UltraScale+ MPSoC 產品線的繼任產品,該產品線已廣泛應用于廣播與專業音視頻行業的設備中。第二代

新品 | 采用第二代1200V CoolSiC? MOSFET的集成伺服電機的驅動器
TO-263-7封裝的第二代1200VCoolSiCMOSFET。采用IMBG120R040M2H作為三相逆變器板的功率開關。驅動電路采用了具有米勒鉗位功能的EiceDRI

AMD發布第二代Versal自適應SoC,AI嵌入式領域再提速
AMD表示,第二代Versal系列自適應SoC搭載全新的AI引擎,相較上一代Versal AI Edge系列,每瓦TOPS功率可實現最多3倍
AMD推出第二代Versal器件,為AI驅動型嵌入式系統提供端到端加速
Versal AI Edge 系列和第二代 Versal Prime 系列自適應 SoC,其將預處理、AI 推理與后處理集成于單器件中,能夠為 AI 驅動型嵌入式系統提供端到端加速。
AMD 以全新第二代 Versal 系列器件擴展領先自適應 SoC 產品組合,為 AI 驅動型嵌入式系統提供端到端加速
第二代 Versal 系列產品組合中首批器件借助下一代 AI 引擎將每瓦 TOPS 提升至高 3 倍,同時將基于 CPU 的標量算力較之第一
發表于 04-09 16:50
?4889次閱讀

評論