英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門型號(hào)H100與H200 GPU,但英特爾巧妙地將競(jìng)爭(zhēng)優(yōu)勢(shì)聚焦于其更為親民的價(jià)格與總擁有成本(TCO)上。
Gaudi3處理器采用雙芯片設(shè)計(jì),內(nèi)置強(qiáng)大的計(jì)算單元,包括64個(gè)張量處理器核心(TPC,配備256x256 MAC結(jié)構(gòu)并集成FP32累加器)、8個(gè)高效的矩陣乘法引擎(MME,支持256位寬矢量處理)以及高達(dá)96MB的片上SRAM緩存,提供驚人的19.2TB/s帶寬。此外,它還集成了24個(gè)200GbE網(wǎng)絡(luò)接口和14個(gè)媒體引擎,后者能夠高效處理多種視頻編解碼格式,如H.265、H.264、JPEG和VP9,為視覺處理應(yīng)用增添強(qiáng)大助力。內(nèi)存方面,Gaudi3搭載了128GB HBM2E內(nèi)存,通過八個(gè)內(nèi)存堆棧實(shí)現(xiàn)高達(dá)3.67TB/s的帶寬,確保數(shù)據(jù)處理的高效流暢。
相較于前代產(chǎn)品Gaudi2,Gaudi3在架構(gòu)上進(jìn)行了顯著優(yōu)化,盡管在TPC和MME數(shù)量上有所精簡(jiǎn),但它專注于提升特定精度下的計(jì)算能力,僅支持FP8矩陣運(yùn)算及BFloat16矩陣和矢量運(yùn)算,這一調(diào)整旨在更好地滿足當(dāng)前AI工作負(fù)載的需求。
在性能表現(xiàn)上,Gaudi3提供了高達(dá)1856 TFLOPS的BF16/FP8矩陣運(yùn)算能力,以及28.7 TFLOPS的BF16矢量運(yùn)算能力,同時(shí)其熱設(shè)計(jì)功耗(TDP)約為600W。盡管在某些指標(biāo)上略遜于英偉達(dá)H100,但英特爾強(qiáng)調(diào),Gaudi3在實(shí)際應(yīng)用中的性價(jià)比優(yōu)勢(shì)將尤為突出。
英特爾為Gaudi3制定了明確的市場(chǎng)定位,旨在與AMD的Instinct MI300系列及英偉達(dá)的H100、B100/B200等高端芯片展開競(jìng)爭(zhēng)。據(jù)英特爾透露,基于8個(gè)Gaudi3芯片的加速器套件定價(jià)為125,000美元,單芯片成本約為15,625美元,相較于英偉達(dá)H100的30,678美元售價(jià),展現(xiàn)了顯著的價(jià)格優(yōu)勢(shì)。然而,面對(duì)可能具備更強(qiáng)性能的英偉達(dá)Blackwell架構(gòu)GPU(如B100/B200),英特爾能否持續(xù)保持其競(jìng)爭(zhēng)優(yōu)勢(shì),仍需市場(chǎng)進(jìn)一步驗(yàn)證。
英特爾執(zhí)行副總裁Justin Hotard表示:“AI需求的激增正驅(qū)動(dòng)數(shù)據(jù)中心領(lǐng)域的深刻變革,行業(yè)迫切需要更多元化的硬件、軟件及開發(fā)工具選擇。通過推出搭載P核與Gaudi3 AI加速器的Xeon 6,英特爾正積極構(gòu)建一個(gè)開放的生態(tài)系統(tǒng),助力客戶以更高的性能、效率和安全性應(yīng)對(duì)各種工作負(fù)載。”
目前,Gaudi3 AI加速器已通過IBM Cloud及英特爾Tiber開發(fā)者云平臺(tái)提供服務(wù),并計(jì)劃于今年第四季度通過戴爾、慧與(HPE)和Supermicro等合作伙伴全面上市,其中戴爾和Supermicro的部分系統(tǒng)將于10月開始出貨,而Supermicro的設(shè)備則將于12月抵達(dá)市場(chǎng)。
-
英特爾
+關(guān)注
關(guān)注
61文章
10002瀏覽量
172115 -
加速器
+關(guān)注
關(guān)注
2文章
805瀏覽量
37997 -
AI
+關(guān)注
關(guān)注
87文章
31399瀏覽量
269806
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論