作為Intel公司的Fellow,Alan Gara表示隨著神經(jīng)形態(tài)計算、量子計算等新型計算、存儲、通信技術(shù)快速推動百億億次計算成為現(xiàn)實,人工智能與高性能計算將走向融合。
英特爾數(shù)據(jù)中心事業(yè)部的Fellow艾倫·加拉(Al Gara)表示,隨著我們使用新的計算、存儲和通信技術(shù)以及神經(jīng)形態(tài)芯片和量子計算芯片向百億億級未來過渡,高性能計算和人工智能之間的關(guān)聯(lián)將會越來越緊密。加拉認(rèn)為,“人工智能(AI)、數(shù)據(jù)分析和傳統(tǒng)仿真的融合將帶來具有更廣泛功能和可配置性以及交叉授粉(cross pollination)特質(zhì)的系統(tǒng)。”
加拉為這一高性能計算(HPC)和人工智能交織的未來設(shè)定了十分具有挑戰(zhàn)性的硬件目標(biāo)。在這一未來中,硬件會提供百億億次以上的雙精度使用性能,且會在減少精度運算的情況下提供更高的性能。他相信,如果用戶將重點放在單位內(nèi)存容量的計算性能上,那么用戶將跨各種架構(gòu)獲得豐厚回報,并為系統(tǒng)軟件和用戶應(yīng)用程序提供通過百億億級及更高級別計算保持指數(shù)級性能增長的機會。
1.“三大支柱”的統(tǒng)一
加拉提出的愿景基于高性能計算“三大支柱”的統(tǒng)一:人工智能(AI)和機器學(xué)習(xí)(ML);數(shù)據(jù)分析和大數(shù)據(jù);以及高性能計算(HPC)。這意味著未來的用戶會使用互相利用并通過內(nèi)存交互的模型進行編程。
具體而言,英特爾正在努力研究高度可配置的百億億級系統(tǒng),該系統(tǒng)可支持到全新技術(shù)的升級,其中包括可擴展處理器、加速器、神經(jīng)網(wǎng)絡(luò)處理器、神經(jīng)形態(tài)芯片、FPGA、英特爾持久內(nèi)存、3D NAND和自定義硬件。
加拉的愿景有一個共同特征,那就是同一架構(gòu)會通過配置涵蓋高性能計算、人工智能和數(shù)據(jù)分析,這意味著這些不同的硬件后端需要擁有一致的軟件環(huán)境來處理高性能計算和人工智能工作負(fù)載。
目前,加拉的愿景有一個非常實際的實例,即在TensorFlow等熱門機器學(xué)習(xí)軟件包中使用Intel nGraphT庫。從本質(zhì)上來說,Intel nGraph庫被用作中間語言(類似于LLVM),可在從CPU到FPGA、專用神經(jīng)網(wǎng)絡(luò)處理器等各種硬件平臺上提供優(yōu)化的性能。
英特爾人工智能產(chǎn)品事業(yè)部首席技術(shù)官辦公室的杰森·奈特(Jason Knight)如是寫道,“我們將Intel nGraph庫視為由流行深度學(xué)習(xí)框架的優(yōu)化通道(optimization pass)、硬件后端和前端連接器構(gòu)成的生態(tài)系統(tǒng)的開端。”
整體而言,加拉指出“高性能計算實際上是許多架構(gòu)的發(fā)源地…和測試環(huán)境”,因為高性能計算編程人員、研究人員和領(lǐng)域科學(xué)家通過探索架構(gòu)空間描繪出了如下性能格局:
數(shù)據(jù)級別并行(從細(xì)粒度到粗粒度)
節(jié)能加速器(計算密度和能源效率通常是相關(guān)的)
在所有級別利用可預(yù)測的執(zhí)行(緩存到粗粒度)
集成的固定功能數(shù)據(jù)流加速器
通用數(shù)據(jù)流加速器
2.技術(shù)機遇
高性能計算和人工智能科學(xué)家將有機會獲得并能夠利用許多新網(wǎng)絡(luò)、存儲和計算架構(gòu)的性能功能。
其中,高性能計算是光學(xué)技術(shù)的重大驅(qū)動因素,這是因為光纖是超級計算機最具挑戰(zhàn)性且成本最高昂的要素之一。出于此原因,加拉認(rèn)為,隨著我們過渡到線性設(shè)備和環(huán)形設(shè)備以及使用不同波長的光進行通信的光學(xué)設(shè)備,硅基光子學(xué)將產(chǎn)生顛覆性影響,集成硅基設(shè)備或光學(xué)設(shè)備的能力將帶來巨大的經(jīng)濟和性能優(yōu)勢,包括增長空間(從技術(shù)角度而言)。
新的非易失性存儲技術(shù)(例如英特爾持久內(nèi)存)正在模糊內(nèi)存和存儲之間的界線。加拉描述了一種用于百億億級超級計算機的新存儲堆棧,當(dāng)然,此類堆棧也可在通用計算集群中實施。
加拉評論道,關(guān)鍵在于此類堆棧是為了使用NVM存儲而重新設(shè)計的。這會帶來與任意對齊和事務(wù)大小相關(guān)的高吞吐IO操作,因為應(yīng)用程序可通過新的用戶空間NVMe/pmem軟件堆棧執(zhí)行超細(xì)粒度IO。在系統(tǒng)級別,這意味著用戶將能夠在軟件托管的自我修復(fù)型冗余環(huán)境中使用可擴展的通信和IO操作跨同源、無共享服務(wù)器管理大規(guī)模分布式NVM存儲。換而言之,高性能、大容量的可擴展存儲能夠支持大數(shù)據(jù)和核心內(nèi)算法以及針對稀疏及非結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)分析。
科研人員正在利用內(nèi)存性能和容量方面的進步來改變我們處理人工智能和高性能計算問題的方法。美國猶他大學(xué)(University of Uta)和沙特阿拉伯阿卜杜拉國王科技大學(xué)(King Abdullah University of Science and Technology,KAUST)都在做這方面的工作。
例如,猶他大學(xué)的科研人員強調(diào)了對數(shù)運行時算法在Ospray可視化軟件包中的重要性。對數(shù)運行時算法對于大型可視化和百億億級計算而言十分重要。運行時基本上隨數(shù)據(jù)規(guī)模的增長而緩慢增長。但即使數(shù)據(jù)規(guī)模呈數(shù)量級增長,運行時的增長仍然會十分緩慢,因而對數(shù)增長十分重要。否則,運行時增長會阻止計算在合理的時間內(nèi)完成,從而讓大內(nèi)存容量計算機的優(yōu)勢消失殆盡。
因此,提供低延遲數(shù)據(jù)訪問的大內(nèi)存容量計算節(jié)點成為能夠在博弈中與大規(guī)模并行加速器競爭并獲勝的使能技術(shù)。猶他大學(xué)的研究表明,相較擁有128個節(jié)點的GPU集群而言,單一大內(nèi)存(三萬億字節(jié))工作站可提供具有競爭力,甚至更加優(yōu)秀的交互式渲染性能。猶他大學(xué)的研究小組還在使用P-k-d樹和其他快速核心內(nèi)方法探索原位可視化(in-situ visualization),以展示大型“直接”核心內(nèi)技術(shù)是傳統(tǒng)高性能計算可視化方法的可行替代方案。
在第二個示例中,KAUST一直在與英特爾和東京工業(yè)大學(xué)(Tokyo Institute of Technology)協(xié)作,增強用于多核心(multi-core)和許多核心(many-core)處理器的數(shù)值工具生態(tài)系統(tǒng)。想象一下使用CPU技術(shù)以在數(shù)學(xué)和計算方面都高效的方式處理十億乘以十億的超大規(guī)模矩陣會是什么樣子。
非高性能計算科學(xué)家十分認(rèn)可線性代數(shù)和快速多級方法(Fast Multi-pole Methods,F(xiàn)MM)中這些貢獻(xiàn)的重要性,因為數(shù)值線性代數(shù)是工程、物理、數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域中幾乎所有應(yīng)用的根源所在。FMM方法已被列為二十世紀(jì)十大算法之一。
結(jié)果表明,相較使用目前在相同硬件上運行的英特爾數(shù)學(xué)核心函數(shù)庫(Intel Math Kernel Library,Intel MKL)等經(jīng)過高度優(yōu)化的庫,高性能計算科學(xué)家現(xiàn)在能夠以更快的速度解決更大的密集線性代數(shù)問題和FMM相關(guān)數(shù)值問題。這些方法已在名為ExaFMM和HiCMA的經(jīng)過高度優(yōu)化的庫中提供。
3.展望未來:神經(jīng)形態(tài)計算和量子計算
代號為“Loihi”的新神經(jīng)形態(tài)測試芯片可能能夠代表人工智能領(lǐng)域的相變,因為它們能夠“自學(xué)”。目前,數(shù)據(jù)科學(xué)家花費了大量時間處理相關(guān)數(shù)據(jù),以創(chuàng)建用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題的訓(xùn)練數(shù)據(jù)集。神經(jīng)形態(tài)芯片讓人們不再需要創(chuàng)建訓(xùn)練數(shù)據(jù)集(例如,整個過程無人類的干涉)。相反,人類需要在神經(jīng)形態(tài)硬件發(fā)現(xiàn)解決方案后驗證其準(zhǔn)確性。
簡單說來,神經(jīng)形態(tài)計算利用與機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)完全不同的計算模型。此模型可更準(zhǔn)確地模仿生物大腦的運行,因此,神經(jīng)形態(tài)芯片只需通過觀察其所處的環(huán)境就能以事件驅(qū)動的方式“學(xué)習(xí)”。此外,它們的運行方式非常節(jié)能。時間將告訴我們這是否能夠以及何時能夠帶來優(yōu)勢。好消息是,神經(jīng)形態(tài)硬件現(xiàn)在已經(jīng)進入市場。
加拉表示,目標(biāo)在于創(chuàng)建在當(dāng)前架構(gòu)下提供100倍以上能源效率的可編程架構(gòu),從而更加高效地解決人工智能疑難問題。他提供了稀疏編碼、字典學(xué)習(xí)、約束補償(constraint satisfaction)、模式匹配以及動態(tài)學(xué)習(xí)和適應(yīng)等示例。
最后,加拉介紹了量子計算領(lǐng)域取得的進步,這是通過與荷蘭代爾夫特理工大學(xué)(Delft University)協(xié)作實現(xiàn)的。這項協(xié)作旨在生成更好的Qubit(量子比特)、增強Qubit之間的關(guān)聯(lián)以及開發(fā)可擴展的IO。量子計算是非直觀的,因為大多數(shù)人無法直觀地理解糾纏的概念或同時處于多個狀態(tài)的物質(zhì)。但是,網(wǎng)絡(luò)上仍然有加拿大滑鐵盧大學(xué)(University of Waterloo)的《量子計算101》(Quantum Computing 101)等優(yōu)秀資源,可幫助人們了解這一快速進步的技術(shù)。如果成為現(xiàn)實,這項技術(shù)將永遠(yuǎn)改變我們的計算世界。
量子計算使得解決目前對于普通計算機而言棘手的問題成為可能。加拉重點介紹了英特爾的量子計算工作目前在量子化學(xué)、微型架構(gòu)和算法協(xié)同設(shè)計,以及后量子安全密碼方面的應(yīng)用。
4.總結(jié)
現(xiàn)在,新的計算、存儲和制造技術(shù)不斷涌現(xiàn),這讓人工智能和高性能計算社區(qū)不得不重新思考其傳統(tǒng)方法,以便能夠使用這些比以往性能更高的可擴展且可配置的架構(gòu)。艾倫·加拉指出,技術(shù)正在推動“三大支柱”的統(tǒng)一,這也會反過來讓人工智能和數(shù)據(jù)中心內(nèi)高性能計算的未來無法區(qū)分開來。
-
人工智能
+關(guān)注
關(guān)注
1795文章
47642瀏覽量
239694
原文標(biāo)題:Intel Fellow:人工智能與高性能計算將走向融合
文章出處:【微信號:AI_News,微信公眾號:人工智能快報】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論