過去這幾個月,Intel酷睿13/14代臺式機處理器的“縮缸”事件可謂沸沸揚揚。借著Intel發布終極聲明的機會,我們嘗試對該事件做個盤點、總結和分析。
電子工程專輯雖然并沒有全線追Intel酷睿13/14代臺式機處理器所謂的“縮缸”事件,不過此事還是在PC行業造成了相當影響的,也算是此前大半年Intel負面新聞不斷的佐料之一了。
此事件最早可以追溯到今年上半年。部分用戶和企業機構反應,酷睿13/14代處理器存在不穩定的情況,可能在高頻點或高負載下,出現死機、藍屏等現象。部分媒體對“縮缸”的定義是,處理器“體質縮水”,表現為CPU需要更高的電壓才能維持穩定運行。
因為最近Intel就此事件發布了應該算是終極聲明和最終解決方法。趁此機會,本文總結性質地談談事件前因后果——如果你也恰巧在用受影響的處理器,那么也能了解該怎么應對這波問題;順便聊聊我們對其中問題的看法。
“縮缸”事件前因后果
受到該事件影響的處理器,主要包括面向臺式機的酷睿13/14代i9和i7(也有說i5受影響的,只不過可能i5及更低型號發生問題的概率較低)——典型型號帶K(如酷睿i9-14900K,酷睿i7-13700KF等),也就是核心數更多、頻率更高、可承載更高功耗的那一波。
未有筆記本CPU產品受影響的記錄。Intel也在聲明中強調了,除酷睿13/14代臺式機處理器外,沒有發現其他處理器產品受到該問題的影響。
這個問題持續發酵,可能有兩個關鍵點:一是前兩個月,部分13/14代酷睿處理器的游戲玩家,在初次啟動某些游戲,進行shader編譯時,發生編譯失敗的情況——這是典型的CPU高負載場景;另一,則是部分游戲公司及媒體下場研究和談論13/14代酷睿處理器可能存在的問題。
Intel在此期間給出了多輪回應,也相繼發布了一些BIOS更新嘗試解決問題——包括鎖PL2、控制CPU的運行電壓、修復eTVB問題等策略...6月份,Intel提到會在7月底公布調查結果和解決方案。7月末我們也收到了Intel的官方聲明,提及經過調查分析發現,“確定是過高的運行電壓導致部分13/14代酷睿處理器出現不穩定情況”。
“...過高的運行電壓由微代碼算法造成,而該算法向處理器發送了錯誤的電壓請求。”聲明中還提到Intel會提供微代碼補丁修復過高電壓導致的根本問題。
8月份,Intel發布了針對酷睿13/14代臺式機處理器的0x129微碼更新。這份更新聲明中提到,分析發現跨多核的Vmin(最小運行電壓)因為升高的電壓而大幅提升。升高電壓事件(elevatedvoltageevents)隨時間累積,就會致使Vmin提升。所以0x129微碼更新限制了電壓請求,緩解處理器的不穩定。
不過當時Intel仍然提到了還在做持續調查分析,主要是那些會發生Vmin偏移的場景。同期Intel針對受影響處理器提供了延保服務,后文也會進一步提到。
上面這些應該是絕大部分關注此事件的讀者,對此的主流認知。不過這次發布的“終極聲明”還是言簡意賅地給出了事件全貌的,下面嘗試仔細研讀。
終極聲明中導致不穩定的“根因”
最近Intel發布有關此事件的終極聲明將此問題稱為“VminShiftInstability”(最低運行電壓偏移),基于上述解釋應該就很好理解了:即Vmin偏移所致的處理器及系統不穩定——這個名稱也算得上是一種總結歸因。
一般我們說Vmin是處理器能夠運行在100%穩定狀態的最小電壓。“Vminshift”應該是從6月份以來,所有問題的最終呈現;當然“Instability”不穩定,就是用戶感受到的結果了。
在這份終極聲明中,Intel認為,“VminShiftInstability”的根本原因是“IA內核內的時鐘樹電路”(aclocktreecircuitwithintheIAcore),“其在升高的電壓和溫度下容易受到可靠性老化的影響”。“這些情況會導致時鐘的占空比偏移和系統不穩定(dutycycleshiftoftheclocksandobservedsysteminstability)”
所謂的時鐘樹電路,我們也問了一下Copilot,解釋是系統或硬件設計中的時鐘分布網絡。而所謂的時鐘分布網絡(clockdistributionnetwork),本身是數字電路中的一個系統,提供從中央源到電路各部分的時鐘信號。
要打比方的話,可以將clockdistribution想象成一棵樹,樹根就是時鐘源(如晶振),時鐘信號通往電路的不同組成部分——這個路徑也就是樹枝;樹葉就是最終目的地。時鐘分布的目標是確保時鐘信號能夠同時抵達電路的各部分,最小化延遲和變量。此過程中有好幾個關鍵部件合作,確保時鐘信號的準確傳遞。
從Intel的聲明來看,Vminshift問題就與處理器核心內的某時鐘樹電路有關,該電路在升高的電壓和溫度下,會發生可靠性下降。隨后Intel又說,上述情況會導致“時鐘的占空比偏移和系統不穩定”。這里的“時鐘的占空比偏移”(dutycycleshiftoftheclock)咋理解呢?
時鐘信號的dutycycle,指的應該是時鐘信號激活狀態下的周期。而dutycycleshift也就是該周期的偏移和變化。比如說,如果dutycycle從50%偏移到60%,整體也就影響到了系統的時序和同步。最終導致了不穩定。(理解差不多就是這樣,若Copilot存在模型幻覺或者我們理解有偏差,歡迎各位同學留言指正...
除了這,還原一下問題全貌
基于對這份聲明的理解,上述根因應當是導致VminShift的核心原因。不過實際上,在過去幾個月間,基于先后發布的多個緩解方案,Intel對于酷睿13/14代臺式機處理器不穩定問題有4個階段的研究和結果公布。
故此,終極聲明中,Intel也總結性地回顧了導致VminShift的4個運行場景。前3個問題,在此之前已經修復;而最后一階段,也是Intel在此次聲明中提及、本文前述的“根因”,并著手解決了由此帶來的另一個問題。下面就針對這4個階段或場景,一一談一談。
其一是主板供電設置“超出Intel建議設置”——這也是最早Intel在回應該問題時給出的說法。主板廠商的BIOS設定中,可能出廠就解鎖PL2、自動超頻,或者有各種核心性能強化方案,而沒有采用Intel的建議設置:比如之前測過的華碩主板,普遍自帶“多核心增強”選項。這里面可能就有增壓方案。
不過我們認為這也合理,尤其旗艦主板市場競爭,誰都希望自家主板能跑出更好看的成績——在這種情況下,主板廠商都不得不卯足勁兒嘗試榨干處理器的每一點性能余量。且這一點可能也佐證了,部分媒體對于Intel酷睿13/14代臺式機CPU“出廠即灰燼”的說法。即Intel留給主板廠商的可操作余量其實不及以前那么多。
所以針對這一場景的緩解措施建議,就是在主板BIOS設置中采用IntelDefaultSettings默認設置。
其二,“高溫下,eTVB微代碼算法”仍然允許酷睿13/14代i9臺式機處理器運行在更高性能狀態下。eTVB的全稱是“EnhancedThermalVelocityBoost”。
對Intel酷睿處理器比較熟悉的讀者應該知道,TVB是香港的一家電視臺...是Intel于2018年引入的一項技術,官方文檔解釋說是當散熱和功耗預算仍有空間的情況下,釋放CPU額外的性能。一般認為,TVB是一種官超方案,可基于某些負載,進一步提升睿頻頻率,對游戲之類的應用相當有價值。
Intel此前對該問題的描述是eTVB可能錯誤計算了頻率限制,讓處理器(高溫下仍)可在高頻狀態下運行。簡單來說,也就是相關于eTVB的某個微碼算法出現錯誤數值。6月份,Intel就發布了0x125微碼更新,解決該問題。
其三,“頻繁和持續請求高電壓的微代碼SVID算法可能導致最低運行電壓偏移”(MicrocodeSVIDalgorithmrequestinghighvoltagesatafrequencyanddurationwhichcancauseVminshift)...
首先所謂的“微代碼SVID算法”(microcodeSVIDalgorithm)當然就是處理器微碼的一部分,對應算法用于管理和請求處理器的電壓,確保針對不同性能狀態給出正確的電壓。在基于負載和運行狀態調節電壓的問題上,它對于維持處理器穩定和高效還是比較關鍵的。
這句話的英文表意,應該是指基于某種模式的高電壓請求(不管這里的frequency指的是核心頻率,還是請求高電壓的操作頻率),會導致Vminshift。今年8月,Intel在發現該問題后發布了微碼0x129更新,“解決了處理器請求更高電壓的問題”。
其四,就是這次終極的微碼0x12B更新,嘗試解決“微代碼和BIOS代碼請求升高的核心電壓可能會導致最低運行電壓偏移,特別是在空閑和/或輕度活動期間”,應當也是伴隨前文提到的“根因”分析,所做的終極更新,“解決處理器在空閑和/或輕度活動期間的電壓升高需要”。值得一提的是,0x12B也包含前述0x125與0x129更新。
從聲明來看,現階段Intel“正與合作伙伴共同努力,以推出相關的BIOS更新”。主板廠商應該會在后續幾周發布對應的BIOS更新。
解決方案,及一點想法和建議
另外,Intel也在聲明中提到,實測微碼補丁并不會對處理器性能產生多大程度的影響(performanceimpactiswithinrun-to-runvariation)。所以對于正在使用酷睿13/14代臺式機處理器的用戶而言,當前要做的首先就是去主板廠商的官網看看,是否有對應0x12B微碼更新的BIOS版本發布,并做及時更新。
但也需要明確,即如果使用的這些受影響的處理器長期處在Vminshift問題狀態下,則過高的電壓最終會讓CPU及早走向老化。長期高溫高壓對芯片壽命會產生影響,算是個常識。
說具體些,如高壓會提升金屬互聯層的電流密度,長期致電遷移問題;還有所謂的HotCarrierInjection熱載流子注入會降低晶體管性能;高溫隨時間持續,導致PMOS晶體管的閾值電壓偏移;以及TDDB電介質隨時間變化擊穿等等...
所以在保修政策方面,Intel也宣布“為受不穩定問題影響的英特爾酷睿第13/14代盒裝/散裝臺式機處理器延長2年保修期”。已經出現不穩定問題(典型如碰到游戲shader編譯過程崩潰問題)的用戶,應當考慮申請售后。
最后談一點我們自己的想法。前兩個月正值縮缸問題影響最盛之時,我們就猜測,應當是處理器過高的默認電壓致不穩定問題發生。主板廠商則在該問題的基礎上,基于對極限性能的渴求,又“助推”了一把。所以前期某些僅鎖定最高功率的做法,并不能解決問題。
部分使用undervolting方法來降壓超頻的用戶也反應,他們并沒有遭遇處理器不穩定問題。感覺這也應當佐證了高溫高壓是關鍵。
雖然不清楚,這次公布的根因(核心內的時鐘樹電路在升高的電壓和溫度下,發生時鐘dutycycle偏移),作為Vminshift的根本原因,與此前包括eTVB,SVID微碼算法錯誤在內的問題,具體是什么樣的邏輯關系(猜測可能是微碼bug導致根因所致的Vminshift問題進一步惡化,放大了問題),但長期跑在高溫高壓狀態,無疑就是不穩定的問題關鍵所在。
這段故事落下帷幕,大概也能表現當代芯片設計的變量之多、復雜性提升的現狀。EDA廠商過去這段時間的理念宣導,及他們所說的新市場機會,看起來還的確是那么回事…
審核編輯 黃宇
-
英特爾
+關注
關注
61文章
10004瀏覽量
172130 -
cpu
+關注
關注
68文章
10901瀏覽量
212626
發布評論請先 登錄
相關推薦
評論