電子發燒友網報道(文/周凱揚)從回答問題對話到寫文章,ChatGPT這類應用已經幫我們展示了生成式AI帶來的第一波震撼,從OpenAI的路線也可以看出,他們已經在努力把處理對象從單純的文字,轉換成圖片、音頻乃至視頻了。但這也意味著待處理的數據大小以數量級提升,畢竟再長的文本和視頻文件大小比起來還是相去甚遠。
I/O瓶頸
要想進一步提升生成式AI的處理性能,我們就不得不看下背后為其提供動力的基礎設備,也就是GPU、AI加速器、高帶寬內存和光模塊。AI模型發展的早期,只需單個GPU甚至是CPU就能處理簡單的AI模型,而如今這些先進的AI模型,沒有大型機柜組成的服務器和成千上萬個GPU,是很難運行起來的。
比如特斯拉老版的自動駕駛訓練超算,就是由720個節點的8x英偉達A100 GPU構成的,算力高達1.8 EFLOPS。小鵬于去年建成的智算中心扶搖算力規模高達600PFLOPS,預計也用到了上千塊GPU。
盡管部署大量GPU是擴展算力的最直接途徑,但與此同時傳統的互聯方案還是創造了巨大的I/O瓶頸,嚴重影響了GPU的性能利用率,導致更多的時間花在了等待數據而不是處理數據上。
為此,常用的方案變成了添加更多的GPU來彌補性能和計算效率上的損失,可這樣的趨勢已經在逐漸被淘汰,因為從減少碳足跡的角度來看,全球范圍內各個國家都在開始考慮減少數據中心的能源損耗了。
光子IC
除此之外,另一解決方案就是利用光模塊來解決速度慢的節點間電氣連接,然而光模塊成本較高、密度較低,所以需要更高速、端到端又能降低成本互聯方案,即芯片到芯片之間的光學I/O。
利用更高帶寬的光學連接取代諸多并行和高速串行I/O通道,這一愿景促使了行業對近封裝光學和共封裝光學的追求。相較外部可插拔的管模塊,光子IC可將光學I/O集成到GPU封裝內部,用來與其他的GPU節點進行直接通信,進一步提高了AI算力的擴展效率,滿足了當下持續增長的AI需求。
近期,Sivers Semiconductors就在歐洲光通信展覽會上展出了他們打造的八波長分布式反饋(DFB)激光器陣列,該陣列集成在了Ayar Labs的SuperNova多波長光源中,支持GPU之間最高4TB/s的數據傳輸。根據Ayar Labs提供的數據,新的光源配合它們的TeraPHY封裝內光學I/O Chiplet,還提供了低上10倍的延遲和8倍的傳輸能效。
這樣的表現無疑極大地提升GPU的性能利用效率,解決當下生成式AI在I/O性能瓶頸上的燃眉之急。盡管光子計算芯片目前尚不能替代傳統的電子半導體器件,但從解決帶寬和延遲需求上已經有了長足的進步。
寫在最后
面對生成式AI模型大小的指數級上漲,以及逐漸龐大起來的推理數據量,傳統的I/O性能必然會面臨淘汰,而光子IC為高性能的AI芯片提供了一條更快更高效的通路。不過仍然需要注意的是,光子IC與傳統IC還有設計與制造上的區別,比如需要特定的設計工具以及工藝等。因此要想發展光子IC跟上這一波趨勢,就必須從EDA和晶圓代工廠開始抓起。
-
IC
+關注
關注
36文章
5978瀏覽量
176050
發布評論請先 登錄
相關推薦
評論