什么是自恢復設(shè)計
在芯片設(shè)計過程中,通常會針對特殊情況導致芯片無法使用額外添加一些功能,使得芯片具有更好的抗干擾能力。自恢復設(shè)計應用場景很廣泛,比如、針對芯片溫度過高的處理、針對殘缺數(shù)據(jù)包的處理、針對長時間無數(shù)據(jù)響應的處理、針對各類錯誤的處理。
1、高溫保護設(shè)計
幾乎每一顆芯片都溫度監(jiān)控模塊,大型芯片甚至有多個溫度監(jiān)控模塊。以電腦主板為例,在CPU或者顯卡溫度升高時,散熱風扇的轉(zhuǎn)速會隨之增加,一旦芯片溫度過高,會觸發(fā)關(guān)機保護機制。這種設(shè)計僅僅是常見的被動式自恢復,而不是芯片自己主動觸發(fā)。芯片主動自恢復設(shè)計原理如下:芯片會主動監(jiān)控溫度值,當溫度值進入高溫區(qū)域時,會進行主動告警,比如發(fā)出溫度中斷,從而告知管理軟件等。當溫度值進入超高溫區(qū)域,可能會導致芯片燒毀的風險時,會主動進行芯片降頻或者復位等操作。降頻操作是將時鐘頻率降低,從而降低功耗。
此設(shè)計在GPU中比較常見。復位操作是芯片自動產(chǎn)生邏輯復位,關(guān)閉部分或者全部功能,有效降低功耗,從而達到降低溫度的目的。
2、讀數(shù)據(jù)返回超時保護
主機讀芯片內(nèi)部寄存器時,有時會出現(xiàn)長時間沒有返回的情況,而AXI等讀寫總線必須要有返回數(shù)據(jù),否則會一直卡住。針對此類情況,需要讀模塊產(chǎn)生讀返回信號與響應信號。比如返回32’hdeaddead數(shù)據(jù),并且給響應信號rresp賦值相應的錯誤值。例如PCIe作為Endpoint時,收到host主機的memrd讀請求時,并且將請求通過接口轉(zhuǎn)發(fā)給內(nèi)部總線,如果長時間沒有收到讀數(shù)據(jù)rdata,則需要進行主動超時,自行返回rdata給主機,防止host主機因收不到rdata而卡住。
3、交互接口超時響應保護
各類芯片的低速接口通常是握手交互處理機制,在沒有保護機制的情況下,如果slave端口因為某些原因卡住,無法正確響應時,master端口也會被卡住。添加交互接口超時響應保護邏輯,如果slave接口超時沒有響應,master接口不應該被卡住,而應該能夠恢復到初始狀態(tài),能夠發(fā)起下一次請求。特別是一個master對應多個slave時,master的自恢復尤為重要。
4、殘缺數(shù)據(jù)過濾
像MAC、PCS等模塊處理數(shù)據(jù)時,完成的數(shù)據(jù)包有包頭和包尾,完整的數(shù)據(jù)包才能進行正常的處理,而缺乏包頭或者包尾的殘缺包則會導致各類錯誤,因此需要在模塊入口處理對殘缺包進行過濾,選擇補齊或者直接拋棄不完整的數(shù)據(jù)包,保證模塊入口數(shù)據(jù)的完整性。
5、模塊卡死自恢復
芯片內(nèi)部重要模塊發(fā)生錯誤(配置流程不合理等原因)會導致模塊或者整個芯片卡死,那么必須要添加自恢復設(shè)計。例如鏈表指針錯亂,接口復位長期沒有釋放,此種情況下,盡量保證模塊能夠自行恢復,能夠跳轉(zhuǎn)到初始狀態(tài),如觸發(fā)自動初始化。
總結(jié)
芯片的考核指標不僅僅是性能達標,功能正常,可靠性同樣重要。自恢復設(shè)計能夠增強芯片的可靠性,保證芯片一些極端場景中依舊可以長期運行,是產(chǎn)品的加分項。一顆高品質(zhì)的芯片肯定實現(xiàn)了各種自恢復設(shè)計。
審核編輯:湯梓紅
-
芯片
+關(guān)注
關(guān)注
455文章
50851瀏覽量
423867 -
cpu
+關(guān)注
關(guān)注
68文章
10870瀏覽量
211871 -
IC設(shè)計
+關(guān)注
關(guān)注
38文章
1297瀏覽量
103983 -
芯片設(shè)計
+關(guān)注
關(guān)注
15文章
1019瀏覽量
54907
原文標題:IC設(shè)計:5種常見的自恢復設(shè)計
文章出處:【微信號:處芯積律,微信公眾號:處芯積律】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論