本文轉自《TechSugar》感謝《TechSugar》對新思科技的關注
當前,以ChatGPT為代表的生成式人工智能應用風頭無兩,正在全球科技巨頭間掀起新一輪的技術競賽。在很多人看來,ChatGPT的上線或可被視作一次新產業革命的引爆點,而這個引爆點之所以能出現,則離不開背后的高性能計算與大數據基礎設施。
ChatGPT基于Open AI公司的GPT-3系列語言大模型來實現,GPT(Generative Pre-trained Transformer)即生成式預訓練轉換模型,是一種基于互聯網可用數據訓練的文本生成深度學習模型。
為了實現和人類可比擬的語言交互和語言組織能力,GPT-3的參數達到1750億個,相比之下,2018年推出的GPT-1,參數為1.17億個,而2019年推出的GPT-2參數則達到15億個,量變最終將引發質變,參數規模的飛速膨脹,對支撐GPT運行的硬件系統提出了越來越高的要求,對于類似GPT這樣的大模型,沒有高性能硬件支撐,根本無法去實現與部署,更不要說隨著新數據的涌入來迭代了。
所以,在眾廠商紛紛宣布加碼大模型AI投入時,有人斷言,新一輪AI競賽鹿死誰手還很難說,但高性能計算(HPC)系統中的高算力芯片、高帶寬互連芯片和存儲芯片一定是贏家。
HPC及其核心
芯片發展趨勢
那么,高性能計算要如何發展才能更好地支持新一波人工智能發展浪潮?而人工智能將如何影響到高性能計算本身呢?有如下幾點,可供探討。
第一,高性能計算與人工智能相得益彰。人工智能的每一次高速發展,都離不開背后硬件基礎設施的支持,而高速發展的AI又對硬件基礎設施提出了更高的要求,激勵芯片或系統性能成倍上升。
在Open AI 2018年發布的報告中,對自2012至2018年人工智能訓練對算力的需求超過30萬倍,算力需求平均每3.5個月翻一番,這給芯片及硬件系統更新換代帶來極大壓力,因為按摩爾定律的性能升級速度,已經不能滿足AI訓練對芯片性能的需求增長速度了。
為了打破性能瓶頸,新思科技提出了SysMoore開發方法學,通過全系統優化,有效釋放了性能提升潛力。
反過來,AI能力也在提升芯片開發效率,幫助開發者設計出性能更出色的芯片。例如,通過應用新思科技的DSO.ai工具,開發者將一款HPC處理器的運行頻率提高了100Mz,而開發時間縮短了一半,整個團隊的產出效率提升至原來的三倍。
第二,HPC芯片性能提升方式從平面擴展轉變為立體增長。多晶片系統(Multi-Die System)正在成為HPC芯片的主要發展潮流,從HPC的系統角度來看,采用先進封裝技術將不同芯片封裝在一起的方式,比PCB互連能大幅提升系統性能,因而HPC芯片在實現上,2.5D封裝與3D封裝的設計將越來越多。
而由于成熟的接口IP可以直接以芯粒(Chiplet)方式與計算內核進行拼接,多晶片系統開發方式還可以有效保證良率,加快開發效率。
多晶片系統的實現,需要設計方法學的更新,以實現高帶寬、低延遲、低功耗和無差錯工作的片間接口,多晶片系統的片間接口技術對于數據中心與邊緣設備的快速、可靠的數據傳輸至關重要。
采用先進封裝技術將芯片進行立體堆疊,為芯片性能提升打開了無限可能,但也需要更強的EDA工具、設計方法學和IP,來處理多晶片系統中的異構集成、互連和封裝問題。此外,隨著數據中心互連技術的發展,開發者還需要具備硅光學等領域的專業知識和技術。
新思科技的3DIC Compiler是一個高效易用的多晶片系統設計實現平臺,可以為各種不同工藝制造的芯粒拼接堆疊提供完整的開發環境。
例如,從多晶片系統項目啟動時,開發者就需要用3DIC Compiler對多晶片系統進行功能劃分,將整體設計分解為多個芯粒,接下來,可以用3DIC Compiler進行早期版圖規劃和基于封裝的信號完整性分析,以實現更好的片間連接性能和更優的功耗表現。
第三,邊緣計算設備將不斷進步迭代。人工智能的訓練發生在數據中心,但推理或數據收集都離不開邊緣設備。
在人工智能應用中,對邊緣設備的延遲要求越來越高,希望能進一步減少邊緣設備數據處理和傳輸延遲,這就要求優化邊緣設備主芯片的數據傳輸速度和效率。而邊緣設備數量眾多,因而在芯片層面能夠降低功耗的話,將對整個云加邊緣體系的節能降耗貢獻極大。
所以,邊緣端芯片需要強大的仿真和驗證工具、功耗和熱分析功能、設計布局的智能實施,以及一系列關鍵功能和接口的認證IP模塊,新思科技可以為開發者提供從邊緣到云端可應用的基礎IP、接口IP、安全IP和處理器IP,優化實現高性能、低延遲和低功耗,同時支持先進的工藝技術。
第四,從信息安全、可靠性和運營成本等考慮,HPC芯片需要全生命周期管理。HPC系統規模巨大,運營成本高昂,可以處理PB乃至ZB級別的數據,可以實時運行大模型。這種級別的系統一旦出現故障,由于業務暫停造成的經濟損失,數字會十分驚人。
所以,一個好的HPC系統,應該具備卓越的可靠性、可用性和服務能力,而要做到這一點,系統角度可以通過冗余設計來增加可靠性,但更重要的則是從芯片層級來減少故障率。
在芯片層級減少系統的故障率,就需要用到新思科技的硅生命周期管理(Silicon Lifecycle Management,SLM )的理念。
SLM通過內置IP來收集芯片運行中的各種參數,并將芯片運行數據傳輸至指定位置進行分析和跟蹤,從而讓系統可以實時監控各個核心芯片的運行狀況,為系統建立起芯片健康狀況跟蹤圖,從而更好地預測和預防故障的發生,最終實現故障率降低和最小化故障損失。
第五,可持續發展是HPC產業長期繁榮的基礎。由于規模巨大,HPC系統能耗驚人,專家預測,到2030年,僅數據中心用電量將占到全球總用電量的3%至7%,不少區域甚至抵制建設數據中心,以免因其耗能巨大而導致當地環境惡化。所以,如何有效解決HPC/數據中心能耗和散熱問題,已經成為其能否可持續發展的關鍵。
在新思科技為HPC/數據中心提供的完整解決方案中,處處體現了節能降耗的理念。例如,通過低功耗設計方法學和功耗優化過的IP核來實現HPC芯片的整體功耗優化,從而降低HPC系統能耗,有效降低系統功耗,而新思科技各種高效率開發、仿真和驗證工具,大幅降低了研發一款芯片的總體用時和資源占用,則是從更廣泛角度上為可持續發展做出的貢獻。
總結
隨著互聯網與人工智能技術的發展,HPC產業的重要性與日俱增,大數據與大數據模型的應用,都對HPC系統的性能與能耗提出了更高要求,只有從芯片層級出發來對HPC系統進行優化,才能真正讓HPC系統性能不斷升級,能效持續優化,走上真正的可持續發展之路。
-
新思科技
+關注
關注
5文章
807瀏覽量
50398
原文標題:新一輪AI競賽中,為什么HPC一定是贏家?
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論