AI 訓練和推理 SoC 和系統(tǒng)開發(fā)人員正在通過 HBM2e 和 GDDR 規(guī)范進行組合,以確定哪種風格最適合他們的下一代設計。
幾乎每天都有新的人工智能 (AI) 應用程序涌現(xiàn)。然而,訓練和推理 SoC 設計人員和系統(tǒng)工程師在內(nèi)存帶寬、容量和內(nèi)存使用均衡方面面臨著與深度學習計算元素相關的巨大挑戰(zhàn)。
下一代 AI 應用面臨的挑戰(zhàn)包括是選擇高帶寬內(nèi)存第 2 代增強型 (HBM2e) 還是圖形雙倍數(shù)據(jù)速率 6 (GDDR6) DRAM。對于某些 AI 應用程序,每種應用程序都有其自身的優(yōu)點,但作為訓練或推理 SoC/系統(tǒng)設計人員,您必須仔細評估每個應用程序以成功實施您的設計。
獲得概要
這里是您在繼續(xù)進行 AI 設計時可以期待的概要。?HBM2e 和 GDDR6 的“概覽”比較,突出了有助于指導您的 AI 設計的關鍵差異。
對于不同的架構(gòu)和系統(tǒng),您可以使用不同的尺寸、容量和預期性能水平來實現(xiàn)以每瓦兆次運算 (TOPS/W) 衡量的所需性能。但是,在此處的討論中,我們將比較給定 AI 加速器設計的相同帶寬要求。
在我們的比較示例中,使用了一個設備、一個堆棧的 HBM2e。它具有 8 千兆位 (Gb) 的容量,以及高達每秒 2.8 兆位 (Tb/s) 的帶寬。在 HBM2e 下,帶寬被分解為 2.8 Tb/s × 1,024 輸入/輸出 (I/O) 等于 2.8 Tb/s。
至于 GDDR6,為了達到 2.0-Tb/s 的帶寬,您需要四個設備,每個設備提供高達 2-Gb 的容量,因此總?cè)萘颗c HBM2e 的 8 Gb 相同。在帶寬方面,每個 GDDR I/O 提供大約 16 Gb/s 的帶寬。因此,這四個設備中的 32 × 4 或 128 個 I/O 加起來可以提供大約 2 Tb/s。這里的要點是,與四個 GDDR6 設備相比,單個 HBM2e 設備可以為您提供更多帶寬。
HBM2e 設備在 2.8-Gb/s 帶寬下的功耗約為 5 瓦。相比之下,在 GDDR6 的情況下,四個設備中的每個設備的功耗約為 2.5 W,總功耗為 10 W。因此,很明顯單個 HBM2e 設備的功耗幾乎是 GDDR6 解決方案的一半。
系統(tǒng)性能
現(xiàn)在,讓我們進入系統(tǒng)性能。AI 芯片通常以每瓦特浮點運算 (TFLOPS/W) 的形式進行比較。需要指出的是,系統(tǒng)設計師和架構(gòu)師將以不同的方式構(gòu)建深度學習加速器。
HBM2e 采用 2.5D 封裝技術,并通過中介層與 SoC 或 ASIC 進行 die-to-die 連接。因此,與 GDDR6 相比,它在給定操作中消耗的能量更少。與 GDDR6 相比,提供的 TOPS/W 明顯翻了一番。
因此,與 GDDR6 相比,HBM2e 在視頻和圖像識別等 AI 應用中更有效,并為您提供雙倍的性能功耗比。這是因為處理元件通過管芯上的中介層直接連接到 HBM2e。此外,每瓦浮點運算提供了更好的性能。相比之下,在 GDDR6 的情況下,功能從一個芯片轉(zhuǎn)移到另一個芯片,因此能耗和延遲要高得多。
HBM2e 中介層和 TCO
如上所述,HBM2e 是一種基于 2.5-dB 的技術。這意味著在將 ASIC 連接到 HBM2e 內(nèi)存時需要插入器。然而,這種中介層是一種較舊的 65 納米工藝技術。因此,它更便宜。由于 2.5D 封裝是一項相對較新的技術,因此 HBM2e 的總擁有成本 (TCO) 與 GDDR6 相比略高。
另一方面,GDDR6 是一種特殊但商品化的內(nèi)存。它可從三個半導體供應商處獲得,而 HBM2e 目前僅可從兩個供應商處獲得。
最大優(yōu)勢
I/O 可能是 HBM2e 相對于 GDDR6 的最大優(yōu)勢。對于 GDDR6,它們是標準的高速單端 I/O。SoC 需要一個額外的 128 位 I/O 用于數(shù)據(jù),該 I/O 在非常高的功率下切換,并且還與其他信號(例如接地和電源信號)的風險命令相關聯(lián)。
然而,基于中介層的 HBM2e 具有從芯片到芯片的寬 I/O,并且功耗更低。因此,與控制器 SoC 上的典型 GDDR6 PHY 相比,裸片上的內(nèi)存控制器 PHY 功耗要低得多。
結(jié)論
HBM2e 為您提供與 GDDR6 相同或更高的帶寬和類似的容量,但功耗幾乎是一半,而 TOPS/W 則增加了一倍。因此,HBM2e 是業(yè)內(nèi)久經(jīng)考驗的解決方案。
說了這么多,HBM2e 和 GDDR6 在印刷電路板 (PCB) 級別仍然存在設計問題和注意事項。一旦將這些器件放置在 PCB 上,就會出現(xiàn)信號完整性、特性和電路板空間問題,以及相關的設計注意事項。特別是基于中介層的 HBM2e 及其 2.5D 封裝需要特殊的 PCB 制造。
總體而言,HBM2e 是 AI 應用的首選。HBM2e 一代擁有 2.8-Gb/s I/O 或 3.2-Gb/s I/O 帶寬,將滿足下一代 AI 應用的高性能要求。
審核編輯 黃昊宇
評論
查看更多