在過(guò)去幾年中,我們目睹了數(shù)據(jù)生成、處理和進(jìn)一步利用以獲取額外價(jià)值和智能的方式發(fā)生了巨大變化,所有這些都受到基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)應(yīng)用的新計(jì)算模型出現(xiàn)的影響。這種深刻的變化始于數(shù)據(jù)中心,深度學(xué)習(xí)技術(shù)被用于提供對(duì)海量數(shù)據(jù)的洞察,主要用于分類和/或識(shí)別圖像,啟用自然語(yǔ)言或語(yǔ)音處理,或者理解、生成或成功學(xué)習(xí)如何玩復(fù)雜的游戲。策略游戲。這一變化還帶來(lái)了一波更節(jié)能的計(jì)算設(shè)備(基于 GP-GPU 和 FPGA),專門針對(duì)這類問(wèn)題創(chuàng)建,后來(lái)包括完全定制的 ASIC,
大數(shù)據(jù)和快速數(shù)據(jù)
大數(shù)據(jù)應(yīng)用程序使用專業(yè)的 GP-GPU、FPGA 和 ASIC 處理器通過(guò)深度學(xué)習(xí)技術(shù)分析大型數(shù)據(jù)集,并揭示趨勢(shì)、模式和關(guān)聯(lián),從而實(shí)現(xiàn)圖像識(shí)別、語(yǔ)音識(shí)別等。因此,大數(shù)據(jù)主要基于過(guò)去的信息,或通常駐留在云中的剩余數(shù)據(jù)。大數(shù)據(jù)分析的一個(gè)常見(jiàn)結(jié)果是“訓(xùn)練有素”的神經(jīng)網(wǎng)絡(luò)能夠執(zhí)行特定任務(wù),例如識(shí)別和標(biāo)記圖像或視頻序列中的所有面部。語(yǔ)音識(shí)別也展示了神經(jīng)網(wǎng)絡(luò)的力量。
該任務(wù)最好由專門的引擎(或推理引擎)執(zhí)行,這些引擎直接駐留在邊緣設(shè)備上并由快速數(shù)據(jù)應(yīng)用程序領(lǐng)導(dǎo)(圖 1)。通過(guò)處理在邊緣本地捕獲的數(shù)據(jù),F(xiàn)ast Data 利用源自大數(shù)據(jù)的算法來(lái)提供實(shí)時(shí)決策和結(jié)果。由于大數(shù)據(jù)提供了從“發(fā)生了什么”到“可能發(fā)生什么”(預(yù)測(cè)分析)得出的見(jiàn)解,F(xiàn)ast Data 提供了可以改進(jìn)業(yè)務(wù)決策、運(yùn)營(yíng)和減少低效率的實(shí)時(shí)行動(dòng),這些行動(dòng)總是會(huì)影響底線結(jié)果。這些方法可能適用于各種邊緣和存儲(chǔ)設(shè)備,例如相機(jī)、智能手機(jī)和 SSD。
計(jì)算數(shù)據(jù)
新的工作負(fù)載基于兩個(gè)場(chǎng)景:(1)在特定工作負(fù)載上訓(xùn)練大型神經(jīng)網(wǎng)絡(luò),例如圖像或語(yǔ)音識(shí)別;(2) 在邊緣設(shè)備上應(yīng)用經(jīng)過(guò)訓(xùn)練(或“擬合”)的神經(jīng)網(wǎng)絡(luò)。這兩種工作負(fù)載都需要大量并行數(shù)據(jù)處理,包括大型矩陣的乘法和卷積。這些計(jì)算函數(shù)的最佳實(shí)現(xiàn)需要對(duì)大型向量或數(shù)據(jù)數(shù)組進(jìn)行操作的向量指令。RISC-V是一個(gè)非常適合此類應(yīng)用程序的架構(gòu)和生態(tài)系統(tǒng),因?yàn)樗峁┝艘粋€(gè)由開(kāi)源軟件支持的標(biāo)準(zhǔn)化流程,使開(kāi)發(fā)人員能夠完全自由地采用、修改甚至添加專有矢量指令。圖 1 概述了突出的 RISC-V 計(jì)算架構(gòu)機(jī)會(huì)。
移動(dòng)數(shù)據(jù)
邊緣快速數(shù)據(jù)和計(jì)算的出現(xiàn)產(chǎn)生了一個(gè)事實(shí)結(jié)果,即將所有數(shù)據(jù)來(lái)回移動(dòng)到云端進(jìn)行計(jì)算分析效率不高。首先,它涉及通過(guò)移動(dòng)網(wǎng)絡(luò)和以太網(wǎng)長(zhǎng)距離傳輸相對(duì)較大的數(shù)據(jù)延遲,這對(duì)于必須實(shí)時(shí)運(yùn)行的圖像或語(yǔ)音識(shí)別應(yīng)用程序來(lái)說(shuō)并不是最佳選擇。其次,邊緣計(jì)算允許更多可擴(kuò)展的架構(gòu),其中圖像和語(yǔ)音處理或 SSD 上的內(nèi)存計(jì)算操作可以以可擴(kuò)展的方式執(zhí)行。因此,每個(gè)添加的邊緣設(shè)備都會(huì)帶來(lái)所需計(jì)算能力的增量增加。數(shù)據(jù)移動(dòng)方式和時(shí)間的優(yōu)化是新架構(gòu)可擴(kuò)展性的關(guān)鍵因素。
【圖1 | 大數(shù)據(jù)、快速數(shù)據(jù)和 RISC-V 機(jī)會(huì)]
在圖 1a 中,云數(shù)據(jù)中心服務(wù)器使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對(duì)大型大數(shù)據(jù)集進(jìn)行訓(xùn)練來(lái)執(zhí)行機(jī)器學(xué)習(xí)。在圖 1b 中,邊緣的安全攝像頭使用經(jīng)過(guò)大數(shù)據(jù)訓(xùn)練的推理引擎,并實(shí)時(shí)識(shí)別圖像(快速數(shù)據(jù))。在圖 1c 中,智能 SSD 設(shè)備使用推理引擎進(jìn)行數(shù)據(jù)識(shí)別和分類,有效利用了設(shè)備的帶寬。由于圖 1 顯示了 RISC-V 內(nèi)核的潛在機(jī)會(huì),它可以自由添加專有和未來(lái)標(biāo)準(zhǔn)化矢量指令,這些指令有助于處理深度學(xué)習(xí)和推理技術(shù)。
數(shù)據(jù)移動(dòng)和訪問(wèn)方式的另一個(gè)類似且重要的趨勢(shì)存在于大數(shù)據(jù)端和云中(圖 2)。傳統(tǒng)的計(jì)算機(jī)架構(gòu)(圖 2a)利用連接到許多其他設(shè)備(例如專用機(jī)器學(xué)習(xí)加速器、顯卡、快速 SSD、智能網(wǎng)絡(luò)控制器等)的慢速外圍總線。慢速總線通過(guò)限制它們自身、主 CPU 和主要的、潛在的持久內(nèi)存之間的通信能力來(lái)影響設(shè)備利用率。這類新的計(jì)算設(shè)備也不可能在它們之間或與主 CPU 共享內(nèi)存,這會(huì)導(dǎo)致通過(guò)慢速總線的浪費(fèi)和有限的數(shù)據(jù)移動(dòng)。
關(guān)于如何改善不同計(jì)算設(shè)備(例如 CPU 和計(jì)算和網(wǎng)絡(luò)加速器)之間的數(shù)據(jù)移動(dòng),以及如何在內(nèi)存或快速存儲(chǔ)中訪問(wèn)數(shù)據(jù),出現(xiàn)了幾個(gè)重要的行業(yè)趨勢(shì)。這些新趨勢(shì)專注于開(kāi)放標(biāo)準(zhǔn)化工作,以提供更快、更低延遲的串行結(jié)構(gòu)和更智能的邏輯協(xié)議,從而實(shí)現(xiàn)對(duì)共享內(nèi)存的一致訪問(wèn)。
下一代以數(shù)據(jù)為中心的計(jì)算
未來(lái)的架構(gòu)將需要為連接到計(jì)算加速器的持久內(nèi)存和支持緩存一致性的快速總線(例如TileLink、RapidIO、OpenCAPI和Gen-Z)部署開(kāi)放接口,不僅可以顯著提高性能,還可以使所有設(shè)備能夠共享內(nèi)存并減少不必要的數(shù)據(jù)移動(dòng)。
【圖2 | 計(jì)算架構(gòu)中的數(shù)據(jù)移動(dòng)和訪問(wèn)]
在圖 2a 中,由于用于快速存儲(chǔ)和計(jì)算加速設(shè)備的外圍總線速度較慢,傳統(tǒng)計(jì)算架構(gòu)已達(dá)到其極限。在圖 2b 中,未來(lái)的計(jì)算架構(gòu)部署開(kāi)放接口,提供平臺(tái)中所有計(jì)算資源對(duì)共享持久內(nèi)存的統(tǒng)一緩存一致訪問(wèn)(稱為以數(shù)據(jù)為中心的架構(gòu))。在圖 2c 中,部署的設(shè)備能夠利用相同的共享內(nèi)存,從而減少不必要的數(shù)據(jù)復(fù)制。
CPU 非核心和網(wǎng)絡(luò)接口控制器的作用將成為移動(dòng)數(shù)據(jù)的關(guān)鍵推動(dòng)力。CPU 非核心組件必須支持關(guān)鍵內(nèi)存和持久內(nèi)存接口(例如 NVDIMM-P),以及靠近 CPU 的內(nèi)存。還需要實(shí)施用于計(jì)算加速器、智能網(wǎng)絡(luò)和遠(yuǎn)程持久內(nèi)存的智能和快速總線。總線上的任何設(shè)備(例如 CPU、通用或?qū)S糜?jì)算加速器、網(wǎng)絡(luò)適配器、存儲(chǔ)或內(nèi)存)都可以包含自己的計(jì)算資源,并能夠訪問(wèn)共享內(nèi)存(圖 2b 和 2c)。
為了優(yōu)化數(shù)據(jù)移動(dòng),RISC-V 技術(shù)可以成為關(guān)鍵推動(dòng)因素,因?yàn)樗鼘⒃谒杏?jì)算加速器設(shè)備上為新的機(jī)器學(xué)習(xí)工作負(fù)載實(shí)施矢量指令。它啟用了支持開(kāi)放內(nèi)存和智能總線接口的開(kāi)源 CPU 技術(shù),并實(shí)現(xiàn)了具有連貫共享內(nèi)存的新的以數(shù)據(jù)為中心的架構(gòu)。
用 RISC-V 解決挑戰(zhàn)
大數(shù)據(jù)和快速數(shù)據(jù)帶來(lái)了未來(lái)的數(shù)據(jù)移動(dòng)挑戰(zhàn),為 RISC-V 指令集架構(gòu) (ISA) 及其開(kāi)放的模塊化方法鋪平了道路,非常適合作為以數(shù)據(jù)為中心的計(jì)算架構(gòu)的基礎(chǔ)。它提供了以下能力:
擴(kuò)展邊緣計(jì)算設(shè)備的計(jì)算資源
添加新指令,例如用于關(guān)鍵機(jī)器學(xué)習(xí)工作負(fù)載的向量指令
將小型計(jì)算核心定位在非常靠近存儲(chǔ)和內(nèi)存介質(zhì)的位置
啟用新的計(jì)算范式和模塊化芯片設(shè)計(jì)
啟用以數(shù)據(jù)為中心的新架構(gòu),其中所有處理元素都可以連貫地訪問(wèn)共享持久內(nèi)存,優(yōu)化數(shù)據(jù)移動(dòng)
RISC-V由超過(guò)一百個(gè)組織的成員開(kāi)發(fā),包括一個(gè)軟件和硬件創(chuàng)新者的協(xié)作社區(qū),他們可以使 ISA 適應(yīng)特定目的或項(xiàng)目。加入該組織的任何人都可以根據(jù)伯克利軟件分發(fā) (BSD) 許可設(shè)計(jì)、制造和/或銷售 RISC-V 芯片和軟件。
最后的想法
為了實(shí)現(xiàn)其價(jià)值和可能性,需要捕獲、保存、訪問(wèn)和轉(zhuǎn)換數(shù)據(jù)以充分發(fā)揮其潛力。具有大數(shù)據(jù)和快速數(shù)據(jù)應(yīng)用程序的環(huán)境已經(jīng)超過(guò)了通用計(jì)算架構(gòu)的處理能力。未來(lái)以數(shù)據(jù)為中心的極端應(yīng)用程序需要專門構(gòu)建的處理,以開(kāi)放的方式支持?jǐn)?shù)據(jù)資源的獨(dú)立擴(kuò)展。
擁有一個(gè)以存儲(chǔ)在持久內(nèi)存中的數(shù)據(jù)為中心的通用開(kāi)放計(jì)算機(jī)架構(gòu),同時(shí)允許所有設(shè)備發(fā)揮計(jì)算作用,是這些新的可擴(kuò)展架構(gòu)的關(guān)鍵推動(dòng)因素,這些架構(gòu)由一類新的機(jī)器學(xué)習(xí)計(jì)算工作負(fù)載驅(qū)動(dòng)。跨所有云和邊緣部分的下一代應(yīng)用程序?qū)⑿枰@種新型的低能耗處理,因?yàn)閷I(yè)計(jì)算加速處理器專注于手頭的任務(wù),減少移動(dòng)數(shù)據(jù)的浪費(fèi)時(shí)間,或執(zhí)行與數(shù)據(jù)。人、社區(qū)和我們的星球通過(guò)數(shù)據(jù)的力量、潛力和可能性而蓬勃發(fā)展。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19349瀏覽量
230321 -
芯片
+關(guān)注
關(guān)注
456文章
50967瀏覽量
424920 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132803
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論