現(xiàn)在,人們需要采用一種創(chuàng)新型架構(gòu)來(lái)管理數(shù)百Gbps的系統(tǒng)性能,以實(shí)現(xiàn)全線速下的智能處理能力,并擴(kuò)展至Tb級(jí)性能和每秒10億次浮點(diǎn)運(yùn)算水平。實(shí)現(xiàn)上述要求的必要條件并非僅僅是改善每個(gè)晶體管或系統(tǒng)模塊的性能,或者增加系統(tǒng)模塊數(shù)量這么簡(jiǎn)單,而是要從根本上提高通信、時(shí)鐘、關(guān)鍵路徑以及互連性能,以滿足行業(yè)新一代高性能應(yīng)用(如下圖所示)對(duì)海量數(shù)據(jù)流和智能數(shù)據(jù)包、DSP或圖像處理等的要求。
UltraScale? 架構(gòu)通過(guò)在完全可編程的架構(gòu)中應(yīng)用最先進(jìn)的ASIC 技術(shù),可應(yīng)對(duì)上述這些挑戰(zhàn)。該架構(gòu)能從20nm平面FET結(jié)構(gòu)擴(kuò)展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴(kuò)展到3D IC。UltraScale架構(gòu)不僅能解決系統(tǒng)總吞吐量擴(kuò)展和時(shí)延方面的局限性,而且還能直接應(yīng)對(duì)先進(jìn)工藝節(jié)點(diǎn)上的頭號(hào)系統(tǒng)性能瓶頸,即互連問(wèn)題。
圖2:ASIC級(jí)可編程架構(gòu)的必備條件
UltraScale?架構(gòu)具有無(wú)與倫比的高集成度、高容量和ASIC級(jí)系統(tǒng)性能,可滿足最嚴(yán)苛應(yīng)用的要求。UltraScale架構(gòu)經(jīng)過(guò)精調(diào)可提供大規(guī)模布線能力并且與Vivado?設(shè)計(jì)工具進(jìn)行了協(xié)同優(yōu)化,因此該架構(gòu)的利用率達(dá)到了空前的高水平(超過(guò)90%),而且不會(huì)降低性能。
為您量身定做的新一代架構(gòu)
賽靈思對(duì)UltraScale架構(gòu)進(jìn)行了數(shù)百項(xiàng)設(shè)計(jì)提升,并將這些改進(jìn)實(shí)現(xiàn)有機(jī)結(jié)合,讓設(shè)計(jì)團(tuán)隊(duì)能夠打造出比以往功能更強(qiáng)、運(yùn)行速度更快、單位功耗性能更高的系統(tǒng)。
UltraScale架構(gòu)與Vivado?設(shè)計(jì)套件結(jié)合使用可提供如下這些新一代系統(tǒng)級(jí)功能:
· 針對(duì)寬總線進(jìn)行優(yōu)化的海量數(shù)據(jù)流,可支持?jǐn)?shù)Tb級(jí)吞吐量和最低時(shí)延
· 高度優(yōu)化的關(guān)鍵路徑和內(nèi)置高速存儲(chǔ)器,級(jí)聯(lián)后可消除DSP和包處理中的瓶頸
· 增強(qiáng)型DSP slice包含27x18位乘法器和雙加法器,可以顯著提高定點(diǎn)和IEEE 754標(biāo)準(zhǔn)浮點(diǎn)算法的性能與效率
· 第二代3D IC系統(tǒng)集成的晶片間帶寬以及最新3D IC寬存儲(chǔ)器優(yōu)化接口均實(shí)現(xiàn)階梯式增長(zhǎng)
· 類似于ASIC的多區(qū)域時(shí)鐘,提供具備超低時(shí)鐘歪斜和高性能擴(kuò)展能力的低功耗時(shí)鐘網(wǎng)絡(luò)
· 海量I/O和存儲(chǔ)器帶寬,用多個(gè)硬化的ASIC級(jí)100G以太網(wǎng)、Interlaken和PCIe? IP核優(yōu)化,可支持新一代存儲(chǔ)器接口功能并顯著降低時(shí)延
· 電源管理可對(duì)各種功能元件進(jìn)行寬范圍的靜態(tài)與動(dòng)態(tài)電源門(mén)控,實(shí)現(xiàn)顯著節(jié)能降耗
· 新一代安全策略,提供先進(jìn)的AES比特流解密與認(rèn)證方法、更多密鑰模糊處理功能以及安全器件編程
· 通過(guò)與Vivado工具協(xié)同優(yōu)化消除布線擁塞問(wèn)題,實(shí)現(xiàn)了90%以上的器件利用率,同時(shí)不降低性能或增大時(shí)延
系統(tǒng)設(shè)計(jì)人員將這些系統(tǒng)級(jí)功能進(jìn)行多種組合,以解決各種問(wèn)題。下面的寬數(shù)據(jù)路徑方框圖可以很好地說(shuō)明這一問(wèn)題。
圖3:海量數(shù)據(jù)流挑戰(zhàn)
圖中,高速數(shù)據(jù)流(Tbps級(jí)的匯聚速率)從左側(cè)進(jìn)入再?gòu)挠覀?cè)流出??赏ㄟ^(guò)運(yùn)行速度為數(shù)Gbps的高速SerDes收發(fā)器進(jìn)行I/O傳輸。一旦以數(shù)Gbps速度傳輸?shù)拇袛?shù)據(jù)流進(jìn)入芯片,就必須扇出,以便與片上資源的數(shù)據(jù)流、路由和處理能力相匹配。新一代系統(tǒng)要求使用極高的數(shù)據(jù)速率,因此時(shí)鐘歪斜、大量總線布置以及系統(tǒng)功耗管理方面的挑戰(zhàn)會(huì)達(dá)到令人生畏的程度。
UltraScale架構(gòu)提供類似ASIC時(shí)鐘功能
多虧UltraScale 架構(gòu)提供類似ASIC的多區(qū)域時(shí)鐘功能,使得設(shè)計(jì)人員現(xiàn)在可以將系統(tǒng)級(jí)時(shí)鐘放在整個(gè)晶片的任何最佳位置上,從而使系統(tǒng)級(jí)時(shí)鐘歪斜降低多達(dá)50%。將時(shí)鐘驅(qū)動(dòng)的節(jié)點(diǎn)放在功能模塊的幾何中心并且平衡不同葉節(jié)點(diǎn)時(shí)鐘單元(leaf clock cell)的時(shí)鐘歪斜,這樣可以打破阻礙實(shí)現(xiàn)多Gb系統(tǒng)級(jí)性能的一個(gè)最大瓶頸。UltraScale架構(gòu)的類似ASIC時(shí)鐘功能消除了時(shí)鐘放置方面的一切限制并且能夠在系統(tǒng)設(shè)計(jì)中實(shí)現(xiàn)大量獨(dú)立的高性能低歪斜時(shí)鐘資源,而這正是新一代設(shè)計(jì)的關(guān)鍵要求之一。這是與前幾代可編程邏輯器件所采用的時(shí)鐘方案的最大不同之處,而且實(shí)現(xiàn)了重大改進(jìn)。
新一代路由:從容應(yīng)對(duì)海量數(shù)據(jù)流挑戰(zhàn)
UltraScale架構(gòu)的新一代互連功能與Vivado軟件工具進(jìn)行了協(xié)同優(yōu)化,在可編程邏輯布線方面取得了真正的突破。賽靈思將精力重點(diǎn)放在了解和滿足新一代應(yīng)用對(duì)于海量數(shù)據(jù)流、多Gb智能包處理、多Tb吞吐量以及低時(shí)延方面的要求。通過(guò)分析我們得出一個(gè)結(jié)論,那就是在這些數(shù)據(jù)速率下,互連問(wèn)題已成為影響系統(tǒng)性能的頭號(hào)瓶頸。
我們來(lái)做個(gè)類比。位于市中心的一個(gè)繁忙十字路口,交通流量的方向是從北到南,從南到北,從東到西,從西到東,有些車(chē)輛正試圖掉頭,所有交通車(chē)輛試圖同時(shí)移動(dòng)。這樣通常就會(huì)造成大堵車(chē)?,F(xiàn)在考慮一下將這一十字路口精心設(shè)計(jì)為現(xiàn)代化高速公路或主干道,情況又會(huì)如何。道路設(shè)計(jì)人員設(shè)計(jì)出了專用坡道(快行道),用以將交通流量從主要高速路口的一端順暢地疏導(dǎo)至另一端。交通流量可以從高速路的一端全速移動(dòng)到另一端,不存在堵車(chē)現(xiàn)象。下面的兩幅圖說(shuō)明了這一觀點(diǎn):
賽靈思為UltraScale架構(gòu)加入了類似的快速通道。這些新增的快速通道可供附近的邏輯單元之間傳輸數(shù)據(jù),盡管這些單元并不一定相鄰,但它們?nèi)酝ㄟ^(guò)特定的設(shè)計(jì)實(shí)現(xiàn)了邏輯上的連接。這樣,UltraScale架構(gòu)所能管理的數(shù)據(jù)量就會(huì)呈指數(shù)級(jí)上升,如下圖所示。
通過(guò)UltraScale架構(gòu)提供的高布線效率從根本上完全消除了布線擁塞問(wèn)題。結(jié)果很簡(jiǎn)單:只要設(shè)計(jì)合適,布局布線就沒(méi)有問(wèn)題。這樣也使器件利用率達(dá)到90%以上,且不降低性能或增加系統(tǒng)時(shí)延。
下面的這兩幅圖顯示出UltraScale架構(gòu)以及Vivado設(shè)計(jì)套件的相應(yīng)改進(jìn)對(duì)于系統(tǒng)性能和器件利用率的改善效果。與競(jìng)爭(zhēng)產(chǎn)品PLD 架構(gòu)相比,UltraScale架構(gòu)將利用率和性能提升到了全新的高度,無(wú)需像PLD架構(gòu)那樣為了實(shí)現(xiàn)設(shè)計(jì)目標(biāo),不得不在利用率、性能、時(shí)延和延長(zhǎng)布局布線時(shí)間等方面進(jìn)行權(quán)衡取舍。
圖4 :UltraScale架構(gòu)在不降低性能的前提下提供高利用率
圖4中左圖的藍(lán)綠色區(qū)域表示:如果系統(tǒng)設(shè)計(jì)適合使用UltraScale器件,那么就可以布線,而且不受設(shè)計(jì)復(fù)雜性和器件利用率方面的制約。左圖中的灰色區(qū)域表明Vivado設(shè)計(jì)套件在任何利用率水平下的運(yùn)行速度都比競(jìng)爭(zhēng)設(shè)計(jì)工具快2至12倍。兩幅圖的藍(lán)綠色區(qū)域都表明Vivado 設(shè)計(jì)套件是唯一可以在高器件利用率條件下對(duì)大型復(fù)雜系統(tǒng)設(shè)計(jì)進(jìn)行布局布線的工具。同時(shí),右圖的灰色區(qū)域顯示采用Vivado設(shè)計(jì)套件創(chuàng)建出設(shè)計(jì)的速度在任何利用率等級(jí)下都比競(jìng)爭(zhēng)產(chǎn)品快25%。UltraScale架構(gòu)可支持海量數(shù)據(jù)流與布線,Vivado設(shè)計(jì)套件與之結(jié)合使用,能夠在競(jìng)爭(zhēng)產(chǎn)品無(wú)法企及的設(shè)計(jì)空間內(nèi)提供更高的系統(tǒng)性能。
UltraScale架構(gòu)3D集成可增強(qiáng)所有功能
最新Virtex? UltraScale和Kintex? UltraScale系列成員產(chǎn)品能使賽靈思第二代3D IC架構(gòu)中的連接功能資源數(shù)量及相關(guān)晶片間帶寬實(shí)現(xiàn)階梯式增長(zhǎng)。布線、帶寬和最新3D IC大容量存儲(chǔ)器優(yōu)化接口容量的顯著增加能確保新一代應(yīng)用在極高的利用率水平下實(shí)現(xiàn)目標(biāo)性能。
實(shí)現(xiàn)快速、智能處理
從噪聲中提取更多信號(hào),創(chuàng)建更加逼真的畫(huà)面,以及應(yīng)對(duì)無(wú)止境的數(shù)據(jù)包流量增長(zhǎng),所有這些都在對(duì)智能處理性能提出更高要求。與此同時(shí),還要將成本控制在規(guī)定的預(yù)算范圍內(nèi),這樣就給設(shè)計(jì)帶來(lái)了諸多實(shí)際限制。簡(jiǎn)言之,市場(chǎng)需要以更少的成本實(shí)現(xiàn)更高的系統(tǒng)性能,這是大多數(shù)電子產(chǎn)業(yè)永恒不變的趨勢(shì)。而賽靈思的UltraScale器件非常適合滿足這些多元化的設(shè)計(jì)要求。
最新的27x18位乘法器和雙加法器以及關(guān)鍵路徑優(yōu)化功能顯著提升了定點(diǎn)和IEEE 754標(biāo)準(zhǔn)浮點(diǎn)算法的性能與效率。UltraScale架構(gòu)能夠讓雙精度浮點(diǎn)運(yùn)算的資源利用率實(shí)現(xiàn)1.5倍的效率提升,并具有更多的DSP資源數(shù)量,因此可以滿足新一代應(yīng)用在TMAC處理性能和集成方面的要求,并實(shí)現(xiàn)最優(yōu)價(jià)格點(diǎn)。
UltraScale架構(gòu)經(jīng)過(guò)專門(mén)優(yōu)化,可解決以數(shù)百Gbps速率運(yùn)行的包處理功能有關(guān)的關(guān)鍵路徑瓶頸問(wèn)題,這些功能包括:誤差校正與控制(ECC)、循環(huán)冗余校驗(yàn)(CRC)以及前向糾錯(cuò)(FEC)。增強(qiáng)型DSP子系統(tǒng),與硬化的100 GbE MAC和Interlaken接口以及賽靈思SmartCore 包處理與流量管理IP完美結(jié)合在一起,采用最佳封裝,能夠?qū)崿F(xiàn)線速高達(dá)數(shù)百Gbps的包處理功能。
提供海量I/O和存儲(chǔ)器帶寬
UltraScale架構(gòu)能在顯著增強(qiáng)高速SerDes收發(fā)器性能的同時(shí)大幅降低其功耗。Virtex UltraScale器件采用可支持5 Tbps以上串行系統(tǒng)帶寬的新一代SerDes(收發(fā)器)。ASIC級(jí)SerDes的靈活性要高于早期器件中的SerDes,同時(shí)保留了前代產(chǎn)品可靠的自適應(yīng)均衡功能(自動(dòng)增益控制、連續(xù)時(shí)間線性均衡、判定反饋均衡以及sliding 滑動(dòng)DFE)。賽靈思的自適應(yīng)均衡功能可將誤碼率維持在無(wú)法察覺(jué)的水平(<1017)并允許UltraScale SerDes直接驅(qū)動(dòng)每秒高達(dá)數(shù)GHz的高速背板。
賽靈思UltraScale架構(gòu)集成了多個(gè)DDR3/4-SDRAM存儲(chǔ)控制器以及硬化的DDR物理層(PHY)片上模塊,從而將存儲(chǔ)器接口功能推向一個(gè)全新高度。UltraScale器件包含:
· 更多SDRAM控制器
· 更廣泛的SDRAM端口
· 更快的存儲(chǔ)器端口
硬化的SDRAM PHY模塊與軟核PHY相比能夠?qū)⒆x取時(shí)延降低30%,同時(shí)它具有控制DDR4 SDRAM的能力,可將外部存儲(chǔ)器功耗降低20%以上。
片上模塊RAM(BRAM)經(jīng)重新構(gòu)建后可與系統(tǒng)中其它可編程模塊性能相匹配并降低功耗。利用新的架構(gòu)特性,設(shè)計(jì)人員無(wú)需使用其它片上布線或邏輯資源就能高效創(chuàng)建出大規(guī)模快速RAM陣列和FIFO。
UltraScale架構(gòu)滿足新一代系統(tǒng)的系統(tǒng)級(jí)功耗要求
每一代All Programmable邏輯器件系列都能顯著降低系統(tǒng)級(jí)功耗,UltraScale架構(gòu)正是建立在這一傳統(tǒng)優(yōu)勢(shì)之上。低功耗半導(dǎo)體工藝以及通過(guò)芯片與軟件技術(shù)實(shí)現(xiàn)的寬范圍靜態(tài)與動(dòng)態(tài)電源門(mén)控可將系統(tǒng)總功耗降低至賽靈思7系列FPGA(業(yè)界最低功耗的All Programmable器件)的一半。
圖5:采用UltraScale架構(gòu)實(shí)現(xiàn)最低總功耗
降低功耗對(duì)設(shè)計(jì)人員來(lái)說(shuō)意味著兩件事:(1)更低的功耗預(yù)算和散熱管理要求;(2)更高的速度。這兩點(diǎn)對(duì)滿足新一代應(yīng)用不斷提高的要求極為重要。
UltraScale的IP保護(hù)與防篡改安全功能
賽靈思的安全解決方案與創(chuàng)新產(chǎn)品已經(jīng)歷了五代以上的發(fā)展,UltraScale All Programmable架構(gòu)在這一基礎(chǔ)上引入了多種增強(qiáng)型安全特性,可對(duì)載入器件內(nèi)的IP提供更強(qiáng)的保護(hù)并實(shí)現(xiàn)防篡改功能,繼續(xù)保持著延續(xù)賽靈思在安全解決方案領(lǐng)域的領(lǐng)先地位。UltraScale 架構(gòu)在安全性方面的改進(jìn)包括:更強(qiáng)大更先進(jìn)的AES比特流解密與認(rèn)證方案;更多密鑰模糊處理功能;確保在編程過(guò)程中無(wú)法對(duì)加密密鑰進(jìn)行外部訪問(wèn)。這樣就能得到穩(wěn)定可靠的業(yè)界領(lǐng)先解決方案,滿足不斷變化的新一代安全要求。
UltraScale與Vivado協(xié)同優(yōu)化 = 成功保障
要為最嚴(yán)苛的應(yīng)用提供前所未有的集成度、容量和ASIC級(jí)系統(tǒng)性能,并實(shí)現(xiàn)90%以上的空前器件利用率且不降低性能,這就需要采用業(yè)界獨(dú)有的SoC增強(qiáng)型設(shè)計(jì)環(huán)境。
Vivado設(shè)計(jì)套件是一款全新的SoC增強(qiáng)型設(shè)計(jì)環(huán)境,最初針對(duì)賽靈思7系列器件推出,主要用于未來(lái)十年的All Programmable器件(例如UltraScale架構(gòu))。Vivado能解決可編程系統(tǒng)集成與實(shí)現(xiàn)方面的關(guān)鍵設(shè)計(jì)瓶頸,其生產(chǎn)力相對(duì)同類競(jìng)爭(zhēng)開(kāi)發(fā)環(huán)境提高了四倍。
要實(shí)現(xiàn)新一代設(shè)計(jì)提出的超高性能、集成度以及結(jié)果質(zhì)量目標(biāo),就需要采用全新的器件布局布線方案。傳統(tǒng)FPGA布局布線工具依靠模擬退火作為主要的布局優(yōu)化算法,無(wú)法顧及擁塞程度或總導(dǎo)線長(zhǎng)度等全局設(shè)計(jì)指標(biāo)。要實(shí)現(xiàn)具備多Tb性能的設(shè)計(jì),需要采用寬總線而且要求時(shí)鐘歪斜幾乎為零。因此,采用模擬退火這種不考慮總體導(dǎo)線長(zhǎng)度和擁塞情況的布局布線算法是絕對(duì)不可行的。
Vivado設(shè)計(jì)套件利用多變量成本函數(shù)找出最優(yōu)布局方案,這樣,設(shè)計(jì)人員就可以快速確定布線方案,并使器件利用率達(dá)到90%以上且不降低性能。與采用其他解決方案相比,這種方式的運(yùn)行時(shí)間更短而且結(jié)果的變化程度也更小,這樣實(shí)現(xiàn)設(shè)計(jì)收斂所需的迭代次數(shù)就更少,并且性能和器件利用率都達(dá)到了業(yè)界前所未有的高水平。
UltraScale架構(gòu)與工藝技術(shù)
工藝技術(shù)在任何芯片架構(gòu)中都是一個(gè)重要的考慮因素,賽靈思UltraScale架構(gòu)可以支持多種工藝技術(shù)。賽靈思與臺(tái)積(TSMC)合作推出的28nm HPL(低功耗高性能)工藝技術(shù)是賽靈思7系列All Programmable器件能夠取得巨大成功的主要因素。憑借之前合作所取得的經(jīng)驗(yàn),賽靈思與臺(tái)積又開(kāi)發(fā)出了20nm 20SoC平面工藝技術(shù),用以支持預(yù)計(jì)將于2013年推出的第一代賽靈思UltraScale All Programmable器件。
然而,賽靈思設(shè)計(jì)UltraScale架構(gòu)還有另一個(gè)目的,那就是充分利用繼20SoC之后的工藝節(jié)點(diǎn)16FinFET所提供的更高的性能、容量和節(jié)電性能。 另外,在賽靈思“FinFast”開(kāi)發(fā)計(jì)劃(該計(jì)劃匯集了賽靈思和臺(tái)積的優(yōu)秀工程設(shè)計(jì)人才)的支持下,賽靈思UltraScale架構(gòu)和Vivado 設(shè)計(jì)套件針對(duì)臺(tái)積 16FinFET工藝技術(shù)進(jìn)行了協(xié)同優(yōu)化。這樣,賽靈思與臺(tái)積將于2014年推出第二代UltraScale All Programmable器件芯片。
結(jié)論
為了實(shí)現(xiàn)數(shù)百Gbps的系統(tǒng)級(jí)性能,實(shí)現(xiàn)全線速智能處理,并擴(kuò)展至Tbps和每秒10億次的浮點(diǎn)運(yùn)算水平,我們需要采用一種全新的架構(gòu)方案。賽靈思根據(jù)新一代高性能系統(tǒng)需求已經(jīng)開(kāi)發(fā)出了新一代UltraScale 架構(gòu)和Vivado設(shè)計(jì)套件。UltraScale架構(gòu)能提供ASIC級(jí)的系統(tǒng)性能,滿足最嚴(yán)苛的新一代應(yīng)用要求:即實(shí)現(xiàn)海量I/O和存儲(chǔ)器帶寬、海量數(shù)據(jù)流、極高的DSP與包處理性能,并在不影響性能的前提下實(shí)現(xiàn)超過(guò)90%的前所未有的器件利用率。
UltraScale是業(yè)內(nèi)首款在All Programmable架構(gòu)中應(yīng)用最前沿ASIC架構(gòu)增強(qiáng)功能的產(chǎn)品,能夠從20nm平面FET擴(kuò)展到16nm 鰭式FET,甚至更先進(jìn)的技術(shù),此外還能從單芯片電路擴(kuò)展至3D IC。 通過(guò)整合臺(tái)積的先進(jìn)技術(shù)并與Vivado新一代設(shè)計(jì)套件實(shí)現(xiàn)協(xié)同優(yōu)化,賽靈思提前一年實(shí)現(xiàn)同類競(jìng)爭(zhēng)產(chǎn)品1.5倍至2倍的系統(tǒng)級(jí)性能與集成度。這相當(dāng)于我們比競(jìng)爭(zhēng)對(duì)手領(lǐng)先整整一代。
評(píng)論
查看更多