色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

?GPU越做越大 到極限了怎么辦?

電子工程師 ? 來源:EET電子工程專輯 ? 作者:黃燁峰 ? 2021-04-15 11:35 ? 次閱讀

消費用戶市場,普通用戶都能用上16核甚至64核處理器的PC。這可不是單純堆核心就完事兒的。以當前CPU核心的規模,和可接受的成本,消費電子設備上一顆芯片就達到這種數量的核心數目,與chiplet的應用是分不開的。

Chiplet是這兩年業界的香餑餑。前不久的ISSCC會議上,chiplet也是今年的熱門議題。AMD從Zen架構開始,Ryzen系列處理器就全面應用了chiplet技術。Chiplet并不是什么新技術,更早提的MCM(multi-chip module)就是應用了chiplet的一種芯片方案。

簡單來說,MCM通常是指將多個die(多個IC或chips)封裝到一起的多芯片模組。構成MCM的一個個die,或者功能電路模塊,即是chiplet。多個chiplet之間能夠協作,構成更大的芯片,也就是MCM(有時,MCM/Multi-chip Package又被當做某一類封裝方式)。

不過本文探討的MCM/chiplet可能有一定程度的窄化,這里不探討類似Intel Kaby Lake G那一類方案,即便它算是典型的chiplet應用(以及像很多近代Intel處理器那樣只將處理器die和PCH die分開的那類chiplet,以及HBM存儲chiplet)。可能單純稱其為MCM會更合理。

以AMD的Ryzen 3000系列處理器為例,每4個核心(外加cache)組成一個CCX,兩個CCX就組成一個CCD——也就是一個die或chiplet。一顆處理器芯片上就會有多個這樣的CCD。另外還有個I/O die作為通訊中心(cIOD),連接各個die,如上圖所示。

值得一提的是,Ryzen 3000處理器的CCD部分制造采用7nm工藝,而cIOD則選擇了12nm工藝,這就很能體現chiplet在制造上物盡其用、節約成本的優越性了。

如果說處理器的chiplet/MCM商用已經全面落地,那么die size更大的GPU能不能也采用MCM的方案?這是本文要探討的話題,MCM應用于GPU還需要多久?借此也能窺見chiplet作為此類高算力芯片的技術方向時,半導體制造已經走到了哪里。

當GPU的die尺寸大到嚇人的程度時

如果只看消費市場,骨灰級玩家對GPU算力的追求是無止盡的。只怕算力不夠,不怕價格、功耗有多夸張。圖形算力的饑渴從未停止過:1998年3dfx引入SLI技術,即2個或者更多的顯卡一起上,實現更大規模的圖形并行計算。

SLI同類技術(包括AMD的CrossFire)并未大規模普適,主要是因為這樣的技術不僅有硬件級別的支持要求,而且對游戲開發者也有要求。在很多不支持多GPU并行計算的游戲中,此類方案甚至會令游戲體驗變差。不過多GPU擴展的方案,在當代數據中心還是比較常見的。

基于這個思路,如果將多GPU的層級下沉到多die——也就是一個GPU之上,有多個chiplet,堆砌更多的圖形計算單元,好像也是完全行得通的方案。只不過多GPU(或多芯顯卡)需要跨系統或者跨板級,而多die則是基于同一個基板的封裝級方案,延遲和帶寬理論上也比跨PCB板更有優勢才對。

那么為什么不直接將現在的GPU做得更大,在一顆die上堆更多的計算資源呢(也就是所謂的monolithic)?如果摩爾定律恒定持續,同面積內容納更多晶體管,則這種方案是可持續的。但在摩爾定律放緩的情況下,要在一顆die上塞下更多的圖形計算核心,尺寸和成本都是無法接受的。

目前的顯卡主流產品,AMD Radeon RX 6900XT的單die尺寸達到了519mm?,英偉達Geforce RTX 3090則達到628mm?。這種die尺寸也算是不惜血本的代表了,逐漸逼近光刻機可處理的最大尺寸(rectile limit, 858mm?)。未來再給GPU加計算核心,單die方案會有極大難度。這是GPU考慮MCM/chiplet方案的先決條件。

從成本來看,這個問題大概會更明朗。即便不考慮切割大面積晶圓可能造成良率低下的問題,更小die也能帶來更高的成本效益。300mm的wafer滿打滿算造114片22x22mm(接近Vega 64尺寸)片單die;如果切分成更小的11x11mm,即原有每片die可獲得4片更小的die,則很大程度減少了晶圓切割邊緣浪費,就能造488片die——如果這些die在理想情況下每4片組成一顆MCM芯片,則產量就高了大約8%。

當然這其中并未考慮wafer不同形狀的優化方案,也沒有考慮制造缺陷之類的問題,而且MCM芯片還需要耗費更多的die來做專門的通訊(比如前文提到Ryzen處理器的I/O die)。但chiplet/MCM能夠實現的成本節約仍然是顯著的。

EE Times專欄作者Don Scansen前不久撰文提到,“AMD計算出,以Chiplet方法制作EPYC處理器時,會需要比單一芯片多出10%的硅晶圓面積做為裸晶對裸晶(die-to-die)的通訊功能區塊、冗余邏輯(redundant logic)以及其他附加功能,但最后整個chiplet形式處理器的芯片成本,比單芯片處理器節省了41%?!?/p>

總結一句話,chiplet/MCM本質上是在摩爾定律止步不前的當下,為進一步提高芯片算力,采用的一種控制成本的方案。這里的成本控制實際上還表現在IP的復用和彈性,chiplet有時可以“復制粘貼”的模塊化方式,靈活地存在于芯片之上。AMD如今的Ryzen處理器能夠如此便捷地堆核心,并且在多線程性能表現出對Intel的碾壓優勢,和chiplet是分不開的。

GPU應用chiplet的阻礙

不過GPU要應用chiplet卻并不是一件簡單的事,就好像顯卡SLI(或雙芯顯卡)經過了這么多年,都并未普及開一樣。Raja Koduri此前還在AMD的時候提過,GPU可能會采用Infinity Fabric方案(AMD Ryzen處理器的一種互聯方案);這在當時被認為是MCM型GPU提出的依據。不過眾所周知Raja Koduri后來就離開了AMD,此間規劃的延續性是未知的。

2019年英偉達宣布實驗室打造一款名為RC18的AI處理器。這顆處理器采用16nm工藝,更重要的是選擇了多die解決方案。芯片整體包含36個小型模塊,每個模塊主要由16個PE(Processing Elements)構成,外加RISC-V核及對應的緩存,另外還有英偉達的GRS(Ground-Referenced Signaling)互聯。當時英偉達提到,RC18的存在表明很多技術的可行性,包括可擴展的深度學習架構,以及高效的die-to-die方案。

這顆芯片對于未來的chiplet型GPU而言可能是個重要模板。不過對于圖形計算的GPU而言,在同一顆芯片上渲染畫面幀,要分配到不同chiplet之上,難度還是會比這類AI芯片更大的。2018年AMD RTG團隊高級副總裁David Wang在接受PCGamesN采訪時,曾經提到過MCM GPU要實現起來并不簡單?!拔覀冊诳碝CM型的實現方法,但目前尚無法定論,傳統游戲圖形計算會應用類似技術?!?/p>

“從某種角度來看,其實這也就是在單一封裝上去做CrossFire(AMD版的SLI方案)。其挑戰在于,我們需要能夠做到在硬件層面對開發者不可見,否則其發展就不會順利?!倍?,“GPU在NUMA(非一致性內存訪問)架構以及一些特性方面有著一定的限制……”,尤其相比CPU,圖形計算負載的這種設定會更有難度。

這話的意思是指,第一,如果MCM GPU需要游戲開發者去花額外的時間做開發上的調整,或者增加開發難度,則成為推廣MCM GPU的阻礙。第二,不同die之間互聯效率、數據一致性問題:包括在chiplet之間切分圖形計算管線,以及彼此之間存儲訪問的差異性,都會給設計帶來更高的復雜度。

SLI——即以前的多GPU(或板級多芯片GPU)方案實際上是這兩個問題的放大版本。面向開發者時開發難度大;不同GPU之間的工作部署有難度。(而且多GPU方案非常依賴于多層級的系統互聯,這個過程中的數據遷移、同步帶來的功耗問題也比較大;所以最終互聯,達成的有效帶寬和每比特消耗的能量都不盡人意)

其中后一個問題也是chiplet技術演進探討的熱門議題,即便已經商用的chiplet CPU產品,依舊在互聯方面有著持續改進的空間。

Chiplet即將應用于GPU的幾個先兆

MCM GPU真正在這兩年呼聲特別高也不是沒有原因的。其中有幾件標志性事件可能表明MCM GPU離我們并不遙遠了——即便最早一批MCM GPU可能會是面向數據中心的,并在后續才逐漸下放到游戲和圖形計算市場。

首先是Intel這邊,Raja Koduri(沒錯,就是之前AMD的那位)今年一月份在Twitter上發布了一條推文,展示Intel即將推向市場的Xe HPC,如上圖所示——有關Xe GPU,此前介紹十一代酷睿的核顯文章曾大致談到過。Xe面向HPC高性能計算時,作為獨立GPU形態存在。

這枚代號為Ponte Vecchio的芯片看起來還是蔚為壯觀的。就這張圖片來看,這顆GPU計算核心可能主要由上下兩個chiplet構成,圍繞四周的應該是HBM存儲,還有I/O或者其他屬于Xe特性的組成部分。Chiplet之間可能采用Intel的EMIB(Embedded Multi-die Interconnect Bridge)連接。此前Intel也提過Ponte Vecchio之上應用了Foveros 3D堆疊技術,具體情況未知。不過chiplet在GPU上的應用,或者說真正的MCM GPU,在此也是初見端倪的。

除此之外,2019年底Twitter傳出一則泄露消息,稱英偉達新一代Hopper架構(Ampere后續架構)GPU將以MCM的形態問世。

事實上,英偉達在2017年的ISCA上就發表過一篇題為MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability的paper。雖然這篇paper中提到的方法,只是在英偉達實驗室里以模擬的方式將MCM GPU,與單die GPU和多GPU方案進行比較,不過表明英偉達的確是有在探討其可行性的。

這篇paper有具體探討不同層級的多芯片方案,比如SLI那樣的多顯卡方案,以及板級多芯方案、同封裝下的多die方案、單die方案等,互聯帶寬和開銷問題;并且認定當代技術儲備,比如說substrate尺寸、die之間信號通訊技術(如英偉達的GRS)都正走向成熟,給MCM GPU的實現開創了技術條件。

此外這篇paper提到了幾個優化方案,包括引入L1.5 cache,不同chiplet之間線程調度和數據劃分方案。從這套方案的結果來看(如上圖),雖然某些測試項有不盡人意之處,但整體上MCM GPU能夠實現在性能上比多GPU方案的顯著領先(且功耗遙遙領先,0.5 pJ/bit vs 10 pJ/bit),而且性能較同計算硬件資源的單die方案,并沒有太大損失(而且需要注意,這種單die方案現實中是造不出來的)。而相比目前能夠制造的最大單die方案(128 SM單元),英偉達預設中的這套方案有45.5%的性能優勢。

文中提及將這樣的方案應用在HPC大規模集群中,能夠極大提升性能密度,系統層級減少機柜數量,以及對應的系統級網絡、通訊規模變小。最終實現通訊、供電、制冷系統的耗電量極大節約。只不過這篇paper,整體上更多仍停留于紙面和模擬。


最后AMD作為已經在CPU之上推開chiplet的市場玩家,今年年初浮現一則其2019年申請的專利,名為“GPU Chiplets using High Bandwidth Crosslinks”。這項專利的很大一部分,旨在解決MCM GPU在開發層面困難的問題。

這項專利提到系統中包含一個CPU。它在通訊上與GPU chiplet陣列的第一顆chiplet連接。CPU和這顆GPU chiplet通過一條總線連接;而這顆GPU chiplet和后面的chiplet則通過一種passive crosslink連接。這里的passive crosslink實際上是個被動interposer die,專門用于chiplet之間的通訊,以及負責將SoC功能切分成更小的chiplet。(如上圖所示)

針對存儲一致性問題,每顆GPU chiplet都會有其各自的LLC(last-level cache),也就是L3 cache。LLC跨所有的chiplet實現一致性,也是實現跨chiplet存儲一致性乃至提升MCM GPU效率的關鍵。

這套系統中,僅第一顆GPU chiplet接收來自CPU的請求,這樣一來對CPU而言,GPU就好像是傳統的單die方案一樣,對圖形計算開發也就比較友好了。未知AMD是否已將這項專利付諸實現,GPU本身內部的通訊延遲理論上可能會更高。

不過如前所述,MCM GPU最早應用的理論上可能還是數據中心、HPC這些領域。畢竟如英偉達在paper中所述,這樣的設計對于數據中心具備了更天然的替代優勢。而在技術逐步準備就緒之際,MCM GPU的出現的確只是時間問題,包括下放到游戲市場。Intel、AMD和英偉達,哪家將率先踏出這一步,也是值得拭目以待的。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • amd
    amd
    +關注

    關注

    25

    文章

    5490

    瀏覽量

    134509
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4768

    瀏覽量

    129240
  • 顯卡
    +關注

    關注

    16

    文章

    2454

    瀏覽量

    68029
  • SLI
    SLI
    +關注

    關注

    0

    文章

    3

    瀏覽量

    10457
收藏 人收藏

    評論

    相關推薦

    ADS1248測電阻與匹配電阻(即RCOM)差值越大,所測的阻值與器標稱值相差越大,怎么解決?

    大家好,我現在用ADS1248 ,RTD三線制方式,我用精密電阻代替RTD,我發現所測電阻與匹配電阻(即RCOM)差值越大,所測的阻值與器標稱值相差越大,不知道怎么辦?
    發表于 01-22 08:11

    開關電源漏電怎么辦?開關電源漏電流標準是什么?

    在現在水電工程中,開關電源是必不可少的家居用品,開關電源漏電怎么辦,市面上開關電源產品還是不少的,功能很多,品牌也不少,所以,選擇的時候也需要特別注意。好的品牌就會避免漏電的情況出現,開關電源漏電
    發表于 01-09 13:59

    安裝proteus8.15時出現這種情況怎么辦

    安裝proteus8.15時出現這種情況怎么辦,請求幫忙解答一下,急求,需要使用所以要趕緊給下載,求告知。
    發表于 10-24 19:28

    TAS5711功放ESD打掛了,怎么辦?

    TAS5711 功放ESD 打掛了,怎么辦? 1.如何防護。 2,.哪個寄存器判斷是否能工作正常? 3.設計上有什么建議?
    發表于 10-23 08:09

    TAS5751M PurePathTM軟件無法使用怎么辦呢?

    有位客戶說登錄了myTI賬號也無法使用,如下圖,請問怎么辦呢?
    發表于 10-18 07:19

    信號噪聲太大怎么辦

    我用一個TMR磁場傳感器,后面接一個儀表放大器,測出來的信號的噪聲特別大,如圖所示。這種情況怎么辦
    發表于 09-06 11:09

    ddos造成服務器癱瘓后怎么辦

    在服務器遭受DDoS攻擊后,應立即采取相應措施,包括加強服務器安全、使用CDN和DDoS防御服務來減輕攻擊的影響。rak小編為您整理發布ddos造成服務器癱瘓后怎么辦。
    的頭像 發表于 08-15 10:08 ?330次閱讀

    盛顯科技:投影融合處理器出現顏色失真或偏色,該怎么辦

    我們在使用投影融合處理器的過程中,因種種原因,有時候會遇到出現顏色失真或偏色的情況。此種情況的出現,會對視覺效果、信息傳遞和設備性能產生負面影響。因此,需要我們及時采取措施解決問題,以確保投影設備的正常運行和良好的展示效果表現。那么您知道投影融合處理器出現顏色失真或偏色,該怎么辦嗎?
    的頭像 發表于 07-31 17:09 ?317次閱讀
    盛顯科技:投影融合處理器出現顏色失真或偏色,該<b class='flag-5'>怎么辦</b>?

    大電流一體成型電感有噪音怎么辦

    電子發燒友網站提供《大電流一體成型電感有噪音怎么辦.docx》資料免費下載
    發表于 07-30 12:30 ?0次下載

    KT142C-sop16語音芯片,插上usb,出不來虛擬U盤怎么辦

    KT142C-sop16語音芯片的芯片,我直接焊到我的板子上面,插上usb,但是出不來虛擬U盤怎么辦?
    的頭像 發表于 05-23 10:50 ?512次閱讀
    KT142C-sop16語音芯片,插上usb,出不來虛擬U盤<b class='flag-5'>怎么辦</b>

    LIN的UART接收沖突怎么辦

    LIN的UART接收沖突怎么辦?貌似不加LIN的berak和分界符也能被從節點的UART收到
    發表于 05-09 08:12

    工控主板發生故障該怎么辦?

    工控主板發生故障該怎么辦?前幾天有個客戶問了我這個問題,大部分情況下出現的故障并不可怕,主要是用戶粗心大意造成的。那今天小編就來講解一下工控主板一般會出現故障的主要原因及判斷方法:
    的頭像 發表于 04-11 18:19 ?919次閱讀

    電容負極熔斷怎么辦

    在現代科技發展的時代,電容器在各個領域都扮演著重要的角色。然而,由于各種原因,電容器的負極可能會發生熔斷的情況。那么,當電容器的負極熔斷時,我們應該怎么辦呢?
    的頭像 發表于 04-10 14:15 ?570次閱讀
    電容負極熔斷<b class='flag-5'>怎么辦</b>

    rtthread studio已經成功編寫了外部flash下載算法,程序也能下載進去但是不能進行調試怎么辦

    已經成功編寫了外部flash下載算法,程序也能下載進去,但是不能進行調試怎么辦? 我想放在內部flash調試,但是發現已經下載不到內部。 更改了.lds文件ROM地址,關閉download外部算法選項。(將程序瘦身小于內
    發表于 02-20 07:24

    信號發生器輸出電壓功率不夠怎么辦?

    信號發生器輸出電壓功率不夠怎么辦? 當使用信號發生器時,可能會遇到輸出電壓功率不夠的問題。這種情況可能會引起一系列的問題,如信號失真、無法滿足設備的要求等。在面對這種情況時,我們可以采取以下
    的頭像 發表于 01-31 10:07 ?1146次閱讀
    主站蜘蛛池模板: 亚洲精品嫩草研究院久久 | 肉奴隷 赤坂丽在线播放 | 亚洲成 人a影院青久在线观看 | 老师洗澡让我吃她胸的视频 | 中文字幕在线视频免费观看 | 亚洲欲色欲色XXXXX在线AV | 国精产品一区一区三区M | 99久久麻豆AV色婷婷综合 | 国产精品一区二区资源 | 97资源站超碰在线视频 | 人妻体内射精一区二区 | 夫妻性姿势真人做视频 | 午夜性色一区二区三区不卡视频 | 2019午夜福利757视频第12集 | 国模大胆一区二区三区 | 国产精品爽爽久久久久久蜜桃 | 麻豆无人区乱码 | 视频专区亚洲欧美日韩 | 中文字幕 人妻熟女 | georgielyall装修工 | A级超碰视频在线观看 | 国产色综合色产在线视频 | 九九精品在线播放 | 麻豆免费观看高清完整视频在线 | 日本久久久久久久做爰片日本 | 在线国内自拍精品视频 | 9久爱午夜视频 | 日夜啪啪一区二区三区 | 国产深夜福利视频在线 | 91久久精一区二区三区大全 | 国产看黄网站又黄又爽又色 | 亚洲欧洲精品A片久久99 | 免费毛片观看 | 日本不卡一二三 | 女生扒开下面 | 免费黄色网址在线观看 | 亚洲欧洲日产国码中学 | 欧美写真视频一区 | 驯服有夫之妇HD中字日本 | 国产露脸无码A区久久蘑菇 国产露脸无码A区久久 | 亚洲第一免费播放区 |