在CPU 芯片領域,延續至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導體芯片的計算也正在從通用走向專用,其中AI 計算正是其中增長最快的一種專用計算。
現在,AI 計算正在接棒摩爾定律,延續并超越其倍增神話。2019 年,OpenAI 發布了 AI 算力的增長情況,結果顯示 AI 算力以 3.4 個月的倍增時間實現了指數增長,從 2012 年起,該指標已經增長了 30 萬倍。
在 AI 算力爆炸式增長的過程中,英偉達的 GPU 功不可沒。廣為人知的一個故事就是 2012 年,來自多倫多大學的 Alex 和他的團隊設計了 AlexNet 的深度學習算法,并用了 2 個英偉達的 GTX580 GPU 進行訓練后,打敗了其他所有計算機視覺團隊開發的算法,成為那一屆 ImageNet 的冠軍。
此后,在計算機視覺和自然語言處理領域,GPU 的高并行計算能力得到了充分的發揮,英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發展。與此同時,更多為機器學習而專門定制的專用芯片開始出現,比如專用集成電路(ASIC)的張量處理單元 TPU、神經網絡單元 NPU 以及半定制芯片 FPGA 等等。
英國一家名為 Graphcore 的創業公司推出了一種專門用于 AI 計算的處理器芯片IPU(Intelligence Processing Unit)。一經問世,IPU就受到 AI 界越來越多的關注。
ARM 創始人,被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價,將其譽為“計算機史上三次革命中,繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產業的地位自然不容置疑,但由于 Graphcore 是英國芯片產業中為數不多的新生力量,難免赫曼有“護犢子”的打廣告之嫌。
IPU 出道 2 年時間,現已推出了量產第二代型號為 GC2 的 IPU。那么,IPU 的表現如何,與 GPU 相比有哪些優勢之處,這是本文要重點探討的問題。
GPU 所開啟的深度學習
一個廣為人們熟知的例子就是,在計算機視覺發展初期的 2011 年,谷歌大腦想要在 YouTube 的視頻中識別人類和貓,當時這樣一個簡單的任務,谷歌要動用一家大型數據中心內的 2,000 顆服務器 CPU,這些 CPU 的運行會產生大量的熱量和能耗,關鍵是代價不菲,很少能有研究人員可以用得起這種規模的服務器。
不過在當時,研究人員注意到了英偉達的 GPU,斯坦福大學的吳恩達團隊開始和英偉達合作,將 GPU 應用于深度學習。后來證明,只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經網絡 (DNN)的訓練。
現在我們都知道,GPU 能夠在深度學習的訓練中大顯身手,正是源于 GPU 的計算架構正好適用于深度學習的計算模式。深度學習是一種全新的計算模式,其采用的 DNN 算法包含數十億個網絡神經元和數萬億個連接來進行并行訓練,并從實例中自己學習規律。
深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而 GPU 多核架構在原本圖像渲染中可以大規模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務,使得 DNN 訓練速度大幅提升。
此后,GPU 成為輔助完成深度學習算法的主流計算工具,大放異彩。但 GPU 本身并非是專門為 AI 計算而設計的芯片,其中有大量的邏輯計算對于 AI 算法來說毫無用處,所以行業自然也需要專門針對 AI 算法的專用 AI 芯片。
近幾年,全球已經有上百家公司投入到新型 AI 芯片的研發和設計當中,當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數實力雄厚的獨角獸公司。
這其中,2017 年初創成立的 Graphcore 所研發的 AI 芯片 IPU,則成為這些 AI 芯片當中的另類代表,因其不同于 GPU 架構的創新得到了業內的關注。而這正是我們要著重介紹的部分。
更適合 AI 計算的 IPU 芯片
近兩年,AI 芯片出現了各種品類的井噴,其中甚至出現一些堪稱瘋狂的另類產品。
比如一家同樣創立四年的 AI 芯片創業公司 Cerebras Systems 就發布了史上最大的半導體芯片 Wafer Scale Engine(WSE),號稱“晶圓級發動機”,擁有 1.2 萬億個晶體管,比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場,其創新之處在于一體化的芯片設計大幅提高了內部的數據通信數據,但其架構仍然類似于 GPU 的計算架構。
而 Graphcore 的 IPU 與 GPU 的架構差異非常大,代表的是一種新的技術架構,可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設計的。
IPU 為 AI 計算提供了全新的技術架構,同時將訓練和推理合二為一,兼具處理二者工作的能力。
我們以目前已經量產的 IPU 的 GC2 處理器來看,IPU GC2 采用臺積電的 16nm 工藝,擁有 236 億個晶體管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 內存的帶寬、8TB/s 片上多對多交換總線,2.5 TB/s 的片間 IPU-Links。
其中,片內有 1216 個 IPU-Tiles 獨立處理器核心,每個 Tile 中有獨立的 IPU 核,作為計算以及 In-Processor-Memory(處理器內的內存)。對整個 GC2 來說共有 7296 個線程(每個核心最多可以跑 6 個線程),能夠支持 7296 個程序并行運行,處理器內的內存總共可以達到 300MB,其設計思路就是要把所有模型放在片內處理。
首先,IPU 作為一個標準的神經網絡處理芯片,可以支持多種神經網絡模型,因其具備數以千計到數百萬計的頂點數量,遠遠超過 GPU 的頂點規模,可以進行更高潛力的并行計算工作。此外,IPU 的頂點的稀疏特性,令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數的復用,這些復用特性可以獲取數據中的空間或時間不變性,對于訓練與推理的性能會有明顯幫助。
其次,為解決芯片內存的寬帶限制,IPU 采用了大規模并行 MIMD(多指令流多數據流)眾核架構,同時,IPU 架構做了大規模分布式的片上 SRAM。片內 300MB 的 SRAM,相對于 GPU 的 GDDR、HBM 來說,可以做到數十倍的性能提升,而且與訪問外存相比,SRAM 的片內時延基本可以忽略不計。
第三,IPU 采用了高效的多核通信技術 BSP(Bulk Synchronous Parallel)。IPU 是目前世界上第一款采用 BSP 通信的處理器,支持內部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協議,并通過 BSP 協議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發工作。
基于以上 IPU 的差異化特點,IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網絡收斂。片內的 SRAM 相對于片外存儲,也有高帶寬和低延時的優勢。
今年 7 月,Graphcore 發布了二代的 Colossus MK2 IPU (MK2),以及包含四顆 MK2 芯片系統方案的 IPU-Machine:M2000 (IPU-M2000),其核心數增加了 20%,達到 1472 個,8832 個可并行執行的線程。片內 SRAM 則多出 3 倍,增加到 900MB,互聯擴展性能是上一代的 16 倍。顯然在計算、數據和通信擴展層面,MK2 都算是延續了第一代 IPU 堆料狂魔的作風。
由 4 個 IPU 芯片構成的 IPU-M2000 系統,可以提供大約 1 PetaFLOPs 的算力。基于 IPU 的多層級存儲結構,與 IPU Exchange Memory 等技術優化,整體與 GPU 的 HBM2 存儲比較,可以提供超過 100 倍的帶寬以及大約 10 倍的容量,可以適用于更復雜的 AI 模型和程序。
計算加上數據的突破可以讓 IPU 在原生稀疏計算中展現出領先 GPU 10-50 倍的性能優勢,在通信上,Graphcore 專為為 AI 橫向擴展設計了 IPU-Fabric,解決數據中心大規模計算橫向擴展的關鍵問題。Graphcore 將計算、數據、通信三者的突破技術結合,構建了大規模可擴展的 IPU-POD 系統,最終可以提供一個 AI 計算和邏輯進行解耦、系統易于部署、超低網絡延時、高可靠的 AI 超算集群。
可以預計,未來 IPU 在各類 AI 應用中將具有更大的優勢,而這也必然會引起英偉達的注意。那么,相較于英偉達 GPU 所占據的 AI 行業生態位的霸主地位,IPU 會有哪些前景,也會遭遇哪些困境呢?
走向通用 AI 計算的“另辟蹊徑”
如果回顧下 AI 芯片的發展經歷,我們看到在經過這幾年專用 AI 芯片的井噴之后,也開始面臨一個尷尬困境,那就是 ASIC 芯片的靈活性或者說可編程性很差,對應的專用 AI 芯片只能應對一種算法應用,而算法本身則在 3-6 個月的時間就有可能變化一次,或許出現很多 AI 芯片還未上市,算法就已經發生進化的問題,一些 AI 芯片注定無法生產。當然,專用 AI 芯片的優勢也很明顯,在性能、功耗和效率上遠勝更加通用的 GPU,對于一些非常具體的 AI 應用場景,這些專用芯片就具有了巨大的收益。
從專注圖像渲染崛起的英偉達的 GPU,走的也是相當于 ASIC 的技術路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現,英偉達的 GPU 也在向著 GPGPU(General Purpose GPU)的方向演進。為保持其在 GPU 領域的寡頭地位,使得英偉達必須一直保持先進的制程工藝,保持其通用性,但是要犧牲一定的效能優勢。
這給后來者一定的啟發,那就是 AI 芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優勢。這為 IPU 找到了一個新的細分市場,也就是介入 GPU 不能很好發揮效能的神經網絡模型,比如強化學習等類型,同時又避免的專用 AI 芯片的不可擴展性,能夠部署在更大規模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。
目前來看,IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺,基于 IPU 的應用已經覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應用場景。
典型的如通過 IPU 可以訓練胸片,幫助醫學人員快速進行新冠肺炎的診斷;如在金融領域,對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷;此外在生命科學領域、通信網絡等方面,都可以同 IPU 實現高于 GPU 性能的 AI 加速。
(NLP 模型參數的指數增長)
當然,IPU 想要在 AI 計算中擁有挑戰 GPU 地位的資格,除了在性能和價格上面證明自己的優勢之外,還需要在為機器學習框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持,在標準生態、操作系統上也需要有廣泛的支持,對于開發者有更方便的開發工具和社區內容的支持,才能從實際應用中壯大 IPU 的開發生態。
今年, AI 芯片產業正在遭遇洗牌期,一些 AI 芯片企業黯然退場,但這并不意味著 AI 計算遭遇寒冬,反而 AI 算力正在得到大幅提升,以今年數量級提升 GPT-3 的出場就可以看出這樣的趨勢。
一個 AI 芯片從產出到大規模應用必須要經過一系列的中間環節,包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態等等,打通這樣一條鏈條都會面臨一個巨大挑戰。
現在,GPU 已經形成一個非常完整的 AI 算力生態鏈路,而 IPU 則仍然在路上,是否能真正崛起,還需要整個 AI 產業和開發者用實際行動來投票。
責任編輯:pj
-
gpu
+關注
關注
28文章
4768瀏覽量
129238 -
AI
+關注
關注
87文章
31490瀏覽量
269983 -
處理器芯片
+關注
關注
0文章
117瀏覽量
19811
發布評論請先 登錄
相關推薦
評論