后摩智能致力于打造通用人工智能芯片,自主研發的存算一體芯片在支持各類模型方面表現突出,包括YOLO系列網絡、BEV系列網絡、點云系列網絡等。這一系列芯片不僅在性能上有著顯著的優勢,而且特別針對目前自動駕駛領域的算法進行了專門的優化。近期,后摩智能剛完成新一款技術驗證芯片的量產測試,屬于國內首款基于存算一體架構的7nm車規級技術驗證芯片,專為Transformer 等車端大模型設計。
當前,自動駕駛等領域中,Transformer模型的應用逐漸占據主導地位。這一架構的優勢在于其能夠更好地捕捉長距離依賴關系,有助于提高模型對復雜場景的理解和處理能力。面對Transformer在自動駕駛中的日益增長的需求,一個關鍵的問題浮現出來:存算一體芯片是否能夠高效部署Transformer模型?
Q1?存算一體芯片能高效部署Transformer嗎?
Transformer架構是一種強大的神經網絡架構,能夠實現高效的序列建模和復雜的任務處理,它的核心組成部分包括多層感知機(MLP)和多頭注意力(MHA)。MLP是一種前饋神經網絡結構,由多個層次的神經元組成,每一層都與上一層的所有神經元相連。
這些神經元通過權重進行連接。MLP在Transformer中負責對輸入特征進行變換和映射,幫助網絡捕捉不同層次的抽象特征;MHA允許網絡在不同位置對輸入序列的不同部分進行關注,從而提高模型的并行性和全局信息的捕捉能力。MHA的基本思想是通過多個注意力頭(Attention Head)并行處理輸入序列,每個頭都學習關注輸入的不同方面。
這種并行性有助于有效地處理長序列,并使網絡更具擴展性和泛化能力。在部署Transformer時,AI芯片的任務就是高效執行網絡中的MLP和MHA結構。這需要AI芯片能對其中所有算子都有很高的并行執行能力。
Q2?多層感知機如何高效部署在存算一體芯片上?
全連接層的本質是執行兩個矩陣(輸入特征矩陣和權重矩陣)的矩陣乘法。我們將其中權重存放在存算單元上。將輸入的特征送入存算單元,由存算單元中的計算單元直接完成乘累加操作,輸出乘累加結果。由于存算單元的計算密度很高,執行這種全連接層的并行度很高,因此效率很高。另一方面,權重被保持在存算單元上,不發生移動,從而大幅降低了搬移權重所帶來的能耗開銷。
多頭注意力是Transformer模型的一個關鍵組成部分,它有點像大腦的多個小模塊,每個模塊都負責關注輸入數據的不同方面。這個結構之所以特別,是因為它包含了多個小“頭”,每個“頭”都在關注輸入數據的不同部分。
在處理輸入數據時,每個“頭”都有三個關鍵矩陣,分別是查詢(Q)、鍵(K)、和值(V)。通過一系列數學運算,多頭注意力可以捕捉到輸入序列中不同位置之間的關系。
關系計算:首先,我們讓查詢(Q)和鍵(K)進行一種特殊的數學操作,就像在查找輸入數據中不同部分之間的聯系。這為模型提供了對輸入序列中不同位置的關注程度。
重要性映射:接著,我們通過一個函數(softmax)把剛才計算的結果映射到0到1之間,就好像在給不同位置分配注意力的“權重”,表示它們的相對重要性。
信息整合:最后,我們把剛才得到的歸一化的結果與值(V)進行另一次數學操作,這樣就得到了最終輸出。這一步把被注意到的值通過權重相加,得到多頭注意力的最終輸出。
雖然這里提到的數學操作和全連接層有點相似,但在多頭注意力中,查詢、鍵、和值這三個矩陣是動態生成的。這就意味著在執行數學操作時,需要靈活的加載數據到存算單元上,這一過程的效率對于處理器性能非常關鍵。
為了解決這個問題,后摩智能設計了高效的存算單元數據加載硬件。這可以極大地提高存算單元中數據的替換效率,確保在多頭注意力的計算中,動態產生的矩陣K、V能夠快速而高效地加載到存算單元中。這種巧妙的設計使得存算一體芯片能夠在執行多頭注意力結構時取得最佳性能,為Transformer模型的高效運行提供了強有力的支持。
除了計算密集型的全連接層和矩陣乘法之外,后摩智能的芯片還擁有大量的向量算力和標量算力來處理其它算子,例如softmax和layernorm算子。為了充分利用這些算力資源,后摩智能采用了先進的編譯優化算法。這一算法的設計使得存算單元、向量單元和標量單元能夠被同時調度,實現并行執行不同的計算任務。這種并行計算的優勢不僅僅體現在同一算子的多個實例之間,更在于不同算子之間的并發執行。通過同時處理各個算子,后摩智能的芯片在運行Transformer時能夠達到最高的效率,極大地提升了整個計算過程的速度和效能。
綜合而言,后摩智能芯片以其先進的設計理念和高效的存算一體架構,成功解決了對Transformer算法的高效支持問題。通過優化全連接層、矩陣乘法和動態加載、向量和標量運算等關鍵環節,后摩智能為Transformer運行的高效性和性能提供了強大的支持,為自動駕駛等領域的發展注入了新的動力。未來,后摩智能的存算一體架構芯片也將隨著算法與硬件的演進,不斷迭代,滿足萬物智能時代對算力的澎湃需求。
審核編輯:劉清
-
人工智能芯片
+關注
關注
1文章
121瀏覽量
29382 -
后摩智能
+關注
關注
0文章
29瀏覽量
1314
原文標題:存算十問|(九):存算一體芯片如何支持Transformer等不同模型?
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
濟南市中區存算一體化智算中心上線DeepSeek
梯度科技推出DeepSeek智算一體機
存算一體行業2024年回顧與2025年展望
開源芯片系列講座第24期:基于SRAM存算的高效計算架構

直播預約 |開源芯片系列講座第24期:SRAM存算一體:賦能高能效RISC-V計算

存算一體化與邊緣計算:重新定義智能計算的未來

存算一體架構創新助力國產大算力AI芯片騰飛
科技新突破:首款支持多模態存算一體AI芯片成功問世

后摩智能首款存算一體智駕芯片獲評突出創新產品獎
蘋芯科技引領存算一體技術革新 PIMCHIP系列芯片重塑AI計算新格局

后摩智能推出邊端大模型AI芯片M30,展現出存算一體架構優勢
知存科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘
探索存內計算—基于 SRAM 的存內計算與基于 MRAM 的存算一體的探究

知存科技攜手北大共建存算一體化技術實驗室,推動AI創新
北京大學-知存科技存算一體聯合實驗室揭牌,開啟知存科技產學研融合戰略新升級

評論