20世紀80年代,CPU性能有了顯著提升,但這受到板載內存訪問速度緩慢增長的阻礙。隨著這種差異的惡化,工程師們發現了一種通過新的設計技術緩存來解決問題的方法。本文將幫助你進一步了解什么是緩存,它如何工作以及如何設計CPU緩存。
什么是CPU硬件緩存?
CPU硬件緩存是一個較小的內存,位于離處理器較近的位置,用于存儲最近引用的數據或指令,以便在需要時可以快速檢索它們。通過減少訪問較慢主存儲器的昂貴的讀寫操作,緩存對CPU的性能產生巨大影響。實際上,所有現代處理器都采用某種形式的緩存。第一個緩存是片外或外部的。這些很快就被通常由SRAM制成的片上高速緩存存儲器取代。為了進一步提高性能,這些片上高速緩存分為指令和數據分區。圖1顯示了分區的示例。
圖1.Intel80486使用了通用緩存,而其后繼產品PentiumP5則使用了分區緩存(總線寬
緩存分區導致了多級緩存層次結構的誕生,其中處理器核心將擁有自己的小型私有緩存(L1),其位于更大的共享緩存(L2)之上,其中一些處理器包括第三級緩存(L3),偶爾會有第四級緩存(L4)。
位置(又稱緩存如何工作?)
為什么緩存工作?緩存通過參考局部性原則工作。引用位置是指處理器在運行應用程序時訪問相同內存位置的趨勢。因為這些內存訪問是可預測的,所以可以通過緩存來利用它們。局部性通常分為時間局部性和空間局部性兩個子集,有時又分為三個子集,稱為算法局部性。
時間位置
時間局部性是指在短時間內重用特定數據項。這依賴于以下事實:在處理器上運行的程序往往在短時間內使用相同的變量和數據結構。從主內存中提取一個項目并將其存儲在緩存中之后,對該數據的任何后續調用都可以更快地完成。
空間位置
空間位置是指很快將需要的數據項駐留在當前需要的項附近或相鄰的內存位置的趨勢。這可能是程序員或編譯器在內存中聚集項目的結果。例如,使用數組(一種數據結構)的應用程序將把數組的元素存儲在相鄰的存儲單元中。通過緩存當前正在使用的數據項旁邊的數據項,處理器可以在必要時快速訪問那些相鄰項。
算法局部性
一種不常討論的局域類型是算法局部性。算法局部性是應用程序在相關數據項上執行操作的趨勢,盡管不是在任何短時間段內,并且盡管事物在內存中彼此不相鄰。使用鏈表(另一種數據結構)的應用程序可能會出現此行為。這種類型的局部性可能出現在圖形處理或迭代模擬中。
邏輯緩存組織
緩存存儲和檢索數據的方式和位置取決于緩存的組織方式。這稱為緩存的邏輯組織。確定存儲的內容由內置于緩存中的管理啟發式控制,但它也受到邏輯組織的嚴重影響。因此,緩存的布局方式在其性能中起著巨大的作用。組織緩存有三種主要方法:全相聯緩存;直接映射高速緩存;組相聯緩存。
緩存塊
當CPU需要訪問主內存中的項目時,它使用地址來查找該項目。CPU硬件緩存通常透明地工作,這意味著程序員不必以任何方式確認緩存。因此,用于訪問存儲器的地址首先由高速緩存處理。該地址用于標識數據項是否位于緩存中。
術語緩存命中表示在緩存中找到數據項,緩存未命中表示沒有找到。高速緩存被組織成稱為高速緩存塊的數據組。每個地址被劃分為若干個個位字段,以便可以識別正確的高速緩存塊。這些字段是緩存標記、組編號和字節偏移量。圖2顯示了分成緩存可以解釋的字段的地址。
圖2.尋址緩存塊
當一個CPU緩存被賦予一個地址時,它會將該地址分成必要的字段并開始檢查其緩存條目。緩存條目包括緩存標記(此處標記為標記)和緩存塊(標記數據)。緩存標記是一個標識符,用于指示引用哪個緩存塊。緩存塊是存儲在該標記上的實際數據,表示來自主內存的一個項目塊。要獲取該塊中的單個字段,需要使用偏移量。
直接映射
在直接映射的高速緩存中,高速緩存項被組織成多個組。地址中的組編號用于索引每組條目。一旦識別出組,就比較緩存標簽。如果它們匹配,則這是緩存命中并輸出指定的數據。理解直接映射緩存的關鍵是每個組只有一個緩存條目。這使得直接映射緩存非常快,同時消耗最少的功率。
圖3.Adirect-mapped緩存
由于每個集合只能包含一個項,因此直接映射的緩存確實具有更高的爭用率,這意味著需要將多個數據項存儲在同一位置。這導致緩存未命中。解決此問題的一種方法是使用完全關聯的緩存。
全相聯
全相聯緩存與直接映射緩存相反。全相聯緩存具有多個緩存項,而不是包含單個項的多個集合,而是包含在單個集合中。因此,設定的號碼不再提供任何信息,也不會使用。相反,當緩存處理內存地址時,將檢查每個緩存條目的匹配標記。如果找到,則使用字節偏移量在高速緩存塊內輸出正確的數據。檢查每個緩存條目使得全相聯的緩存比直接映射緩存消耗更多的功率。通過使用組關聯高速緩存來完成功耗和更高競爭率之間的平衡。
圖4.全相聯緩存
組相聯
組相聯緩存提供了兩全其美的優勢。它由多個集合組成,每個集合具有多個緩存條目。它是如何工作的?首先,設置好允許緩存跳轉到適當的條目集。接下來,搜索每組條目以尋找匹配的標簽。如果找到,則使用字節偏移量來輸出所請求的數據。此方法允許緩存提供功耗和爭用率的優化平衡。
圖5顯示了一個4路組相聯緩存。它被稱為4路,因為每個集合最多可以包含四個緩存條目。如果每個集合只能容納兩個緩存條目,那么它將是一個雙向的。因此,直接映射高速緩存實際上只是單向組關聯高速緩存,而組相聯高速緩存是單組m路組相聯高速緩存,其中m是高速緩存條目的數量。
責任編輯人:CC
-
cpu
+關注
關注
68文章
10901瀏覽量
212640 -
緩存
+關注
關注
1文章
240瀏覽量
26724
發布評論請先 登錄
相關推薦
評論