架構(gòu)探索一直是產(chǎn)品設(shè)計(jì)的圣杯。它有可能徹底改變產(chǎn)品工程。研究和用例評(píng)估表明,在架構(gòu)探索期間可以實(shí)現(xiàn) 80% 的系統(tǒng)優(yōu)化和幾乎 100% 的性能/功耗權(quán)衡。
不幸的是,除了公司投入大量資源和時(shí)間的利基領(lǐng)域外,架構(gòu)探索未能起飛。架構(gòu)探索被高度誤解,并且已經(jīng)推出了聲稱架構(gòu)探索但圍繞現(xiàn)有產(chǎn)品(例如指令集模擬器、軟件時(shí)序分析器和硬件驗(yàn)證)的產(chǎn)品。用一組類庫(kù)突出顯示語(yǔ)言不足以建立方法、輕松創(chuàng)建模型、針對(duì)基準(zhǔn)進(jìn)行驗(yàn)證和性能系統(tǒng)優(yōu)化。
架構(gòu)探索的主要障礙是缺乏高端內(nèi)核、互連、緩存和內(nèi)存的架構(gòu)模型。有限的模型范圍往往適用于架構(gòu)探索不會(huì)增加顯著價(jià)值的低端處理器,每秒運(yùn)行最多 1,000 條指令的周期精確模型,需要很長(zhǎng)時(shí)間來(lái)安裝、學(xué)習(xí)和組裝,并在 IP 發(fā)貨后很好地發(fā)布。這些模型需要數(shù)周時(shí)間才能運(yùn)行一個(gè)基準(zhǔn)測(cè)試,并且對(duì)于比較驗(yàn)證很有用。此外,它們不能跨內(nèi)核、SoC、系統(tǒng)和軟件進(jìn)行擴(kuò)展。
架構(gòu)模型往往是 IP 提供商和 EDA 供應(yīng)商的低優(yōu)先級(jí),因?yàn)樗麄儽仨毺峁?RTL 和軟件工具,例如編譯器、調(diào)試器和驗(yàn)證 IP。此外,為大規(guī)模分發(fā)創(chuàng)建架構(gòu)模型需要特殊的技能,因?yàn)槊總€(gè)核心類型的流程都重新開(kāi)始。組裝需要很長(zhǎng)時(shí)間,需要多種資源,并且運(yùn)行速度極慢。每個(gè)新的處理器內(nèi)核都有很多變化——緩存的讀/寫寬度、多線程、ISA 版本、可變流水線階段、用于將指令分派到執(zhí)行單元的調(diào)度邏輯以及指令緩沖區(qū)。
具有隨機(jī)性的傳統(tǒng)架構(gòu)模型被組裝大型系統(tǒng)和數(shù)據(jù)中心的公司使用。這些模型將模擬不同類型的請(qǐng)求和任務(wù)的延遲和功耗。
另一個(gè)主要問(wèn)題是驗(yàn)證過(guò)程。對(duì)于新處理器,用于驗(yàn)證模型準(zhǔn)確性的基準(zhǔn)數(shù)據(jù)有限。這個(gè)問(wèn)題對(duì)于功耗、高速緩存命中未命中率和內(nèi)存吞吐量而言更為嚴(yán)重。當(dāng)然,FPGA 板可以通過(guò)使用舊版本的內(nèi)核以及更新的緩存、互連和內(nèi)存設(shè)置來(lái)減輕一些負(fù)載。測(cè)試新內(nèi)核正確性的最佳方法是仔細(xì)檢查每個(gè)可能的場(chǎng)景,包括并發(fā)執(zhí)行,運(yùn)行緩存層次結(jié)構(gòu)和 DMA 的舊跟蹤,并生成確保絕對(duì)覆蓋的場(chǎng)景。
圖 1:基于 RISC-V 和 ARM 的 VisualSim 處理器架構(gòu)探索
Mirabilis Design 最近采用的一種方法是在具有圖形開(kāi)發(fā)環(huán)境的離散事件模擬器上提供混合處理器架構(gòu)庫(kù)。這類架構(gòu)模型消除了早期方法的所有問(wèn)題。這是一個(gè)通用的生成器,它使用電子表格來(lái)定義核心配置。內(nèi)部定序器通過(guò)消除不影響流正確性、性能和功率的邏輯來(lái)優(yōu)化仿真性能,并提供靈活的選項(xiàng)列表來(lái)定義不同的管道變體。這種方法的美妙之處在于可以快速構(gòu)建新的甚至不存在的內(nèi)核。
這種方法有多種好處,包括:
單個(gè)庫(kù)模塊可以將微控制器建模為高性能處理器。
處理器庫(kù)具有研究單個(gè)集群、多核集群組、片上系統(tǒng)和完整系統(tǒng)(如 ECU、雷達(dá)或超級(jí)計(jì)算機(jī))的仿真性能。
這種方法提供了一個(gè)龐大的供應(yīng)商內(nèi)核庫(kù)。
混合核心與隨機(jī)核心不同,具有運(yùn)行軟件跟蹤的能力。
擴(kuò)展庫(kù)具有使生成的內(nèi)核與緩存、動(dòng)態(tài)系統(tǒng)緩存、TileLink、AMBA AXI、NoC、DDR、LPDDR、GDDR、DMA 和橋完全集成的所有連接性和方法。
這些使用混合處理器的模型可用于選擇時(shí)鐘速度、緩沖區(qū)大小、寬度和容量,同時(shí)提供拓?fù)洹⒙酚伞lit 大小和設(shè)備連接性。在電源方面,系統(tǒng)模型可以確定最佳電源狀態(tài)集和最佳電源管理算法。在這個(gè)早期階段分析功率可以深入了解配電、電池容量、充電系統(tǒng)和熱要求。混合模型的準(zhǔn)確性使軟件性能調(diào)整和調(diào)度器和仲裁器的選擇成為可能。
需要為性能生成的所需指標(biāo)是延遲、吞吐量、緩沖區(qū)占用率、命中率、流水線停頓、MIPS 和周期/指令。對(duì)平均和瞬時(shí)功率、能耗、每個(gè)任務(wù)和設(shè)備的功率以及能源管理算法的影響進(jìn)行真正的功率分析指標(biāo)。高級(jí)分析將涵蓋功能正確性、發(fā)生故障時(shí)的行為和服務(wù)質(zhì)量。
要在混合處理器中定義的屬性包括對(duì)執(zhí)行單元和延遲周期的 ISA 分配、浮點(diǎn)和整數(shù)單元的數(shù)量、每個(gè)集群的核心數(shù)、有序和無(wú)序的分布以及大/小數(shù)量核心。緩存配置可以涵蓋包含/排除、容量、關(guān)聯(lián)性、銀行計(jì)數(shù)、暫存器的使用以及各種替換和寫入策略。對(duì)于互連,吞吐量要求、緩沖區(qū)占用率、最有效的仲裁算法以及傳輸突發(fā)/閃存大小。在內(nèi)存中,該模型可以測(cè)量跟蹤、順序和隨機(jī)地址的帶寬、延遲和打開(kāi)/關(guān)閉頁(yè)面。
在 SoC 級(jí)別,使用了 DMA 與 TCP 傳輸、張量操作探索和拆分鎖安排。必須對(duì)系統(tǒng)進(jìn)行跨集群的任務(wù)分區(qū)、內(nèi)存控制器調(diào)度、路由器數(shù)量和設(shè)備連接性測(cè)試。隨著系統(tǒng)越來(lái)越接近客戶部署,可以擴(kuò)展相同的模型以集成多處理器集成,最大限度地減少芯片到芯片的開(kāi)銷,將應(yīng)用程序分配到處理器以及存儲(chǔ)策略。
架構(gòu)師可以從供應(yīng)商列表中選擇或在幾天內(nèi)創(chuàng)建一個(gè)新的。一旦處理器內(nèi)核被實(shí)例化,用戶就可以連接其他半導(dǎo)體 IP 以形成完整的 SoC。在短時(shí)間內(nèi),用戶可以擁有一個(gè)多核多集群、基于 NoC 的 SoC,帶有 GPU、TPU/AI 加速器、內(nèi)存、顯示控制器、以太網(wǎng)和其他接口。為了模擬這個(gè)模型,IO 由泊松分布和數(shù)據(jù)范圍生成的數(shù)據(jù)流觸發(fā),處理器執(zhí)行軟件跟蹤以執(zhí)行模擬。多個(gè) SoC 可以通過(guò)連貫的 PCIe 或 CXL 組合,或與高速以太網(wǎng)或可靠的 OpenVPX 背板連接。
圖 2:具有高速緩存存儲(chǔ)器層次結(jié)構(gòu)的亂序處理器管道的系統(tǒng)級(jí)模型
新的混合處理器對(duì)加載/存儲(chǔ)行為具有指令感知,按順序/無(wú)序執(zhí)行,支持多指令獲取和分派,支持每個(gè)流水線階段的不同屬性,支持之間的流控制階段、任務(wù)發(fā)布隊(duì)列、跳轉(zhuǎn)流水線階段、流水線和緩存之間的緩沖、可變讀寫寬度和搶占支持。混合方法可以擴(kuò)展到 20 個(gè)整數(shù)、浮點(diǎn)、向量、分支、加載和存儲(chǔ)類型的執(zhí)行單元。同時(shí),每個(gè)執(zhí)行單元的流水線級(jí)數(shù)可以是可變的,最多可以定義為 20 個(gè)。
混合處理器的所有這些新功能都支持帶有緩存地址的執(zhí)行軟件跟蹤。為了準(zhǔn)備在此處理器模型上執(zhí)行的軟件,全自動(dòng)系統(tǒng)會(huì)生成指令序列、指令高速緩存地址和數(shù)據(jù)高速緩存地址以用于加載存儲(chǔ)。架構(gòu)模型與流量和軟件執(zhí)行的結(jié)合提供了一個(gè)有效的平臺(tái)來(lái)測(cè)試內(nèi)核、緩存、互連和內(nèi)存的準(zhǔn)確性。該測(cè)試涵蓋了端到端設(shè)計(jì)的延遲和功耗,還測(cè)量了緩存命中率和內(nèi)存吞吐量。這種新的基準(zhǔn)測(cè)試方法可以增強(qiáng)用戶的信心,并確保進(jìn)行高質(zhì)量的權(quán)衡分析。
新的混合處理器可供使用 ARM 或 RISC-V 內(nèi)核開(kāi)發(fā)定制 SoC 的系統(tǒng)公司、集成多個(gè)非異構(gòu)主設(shè)備、加速器、GPU 和其他處理單元的半導(dǎo)體公司,以及實(shí)施新應(yīng)用程序和高級(jí) AI/ML 工作負(fù)載的 AI 公司使用。 系統(tǒng)和半導(dǎo)體的競(jìng)爭(zhēng)在所有市場(chǎng)上都很重要,新產(chǎn)品的時(shí)間安排正在縮短。由于半導(dǎo)體短缺,公司必須更長(zhǎng)時(shí)間地使用現(xiàn)有 SoC,識(shí)別新應(yīng)用并支持現(xiàn)有設(shè)備上增加的功能。進(jìn)行廣泛的架構(gòu)覆蓋將提供對(duì)實(shí)際性能和容量的詳細(xì)視圖,從而為將產(chǎn)品集成到其環(huán)境中的客戶提供有價(jià)值的見(jiàn)解。
圖 3:具有 Aaa65AE 的多集群多核處理器,用于汽車安全關(guān)鍵型應(yīng)用
混合處理器的一個(gè)重要附帶好處是能夠運(yùn)行軟件并準(zhǔn)確查看目標(biāo)配置上的軟件性能。當(dāng)今的 SoC 配置非常復(fù)雜,以至于在 FPGA 上運(yùn)行它會(huì)導(dǎo)致您錯(cuò)過(guò)一致性、數(shù)據(jù)分配、跨集群的工作負(fù)載分配以及數(shù)據(jù)路徑和緩存之間復(fù)雜的通信。當(dāng)一組軟件任務(wù)在多核架構(gòu)上同時(shí)運(yùn)行時(shí),軟件團(tuán)隊(duì)可以及早了解時(shí)序和功耗。
類似地,每個(gè)內(nèi)核都提供了緩存層次結(jié)構(gòu)的變化以及與諸如回寫、寬度、塊大小、預(yù)取條件、存儲(chǔ)體、關(guān)聯(lián)性、私有與系統(tǒng)等項(xiàng)目的連接。然后是來(lái)自DDR、LPDDR、GDDR、HBM的內(nèi)存,以及商業(yè)內(nèi)存控制器中不同類型的調(diào)度器。最后,不同的互連選項(xiàng):供應(yīng)商特定的片上網(wǎng)絡(luò)、極小的 NoC、AMBA 變體和 Tilelink。為此添加 DMA、網(wǎng)橋、中斷、動(dòng)態(tài)共享緩存單元、IO、以太網(wǎng)、CAN/CAN-FD 和 PCIe 以獲得完整的要求。
混合處理器是電子設(shè)計(jì)行業(yè)的一項(xiàng)重大創(chuàng)新。它為架構(gòu)師提供了更多的權(quán)力,并使團(tuán)隊(duì)能夠在開(kāi)發(fā)之前可視化系統(tǒng)行為。由于分析速度很快,真正的架構(gòu)覆蓋是可能的,并且可以涵蓋性能、功率、服務(wù)質(zhì)量、效率、可靠性和功能正確性。通過(guò)添加軟件性能分析和調(diào)整,所有系統(tǒng)團(tuán)隊(duì)都可以在同一環(huán)境中參與。隨著設(shè)計(jì)人員參與新應(yīng)用、小型工藝技術(shù)和不斷增加的功率要求,混合處理器是未來(lái)。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19404瀏覽量
230788 -
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5460瀏覽量
172402 -
soc
+關(guān)注
關(guān)注
38文章
4199瀏覽量
218801
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論