作者:尚長興,俞定玖,季新生
在電信、電力、國防等應用領域中,經常要求其所用設備有極高的實時性。當需要在各個設備間進行大容量的信息交換時,傳統的網絡包交換模式已不能很好地滿足實時性的要求。而借助于CPCI總線,兩個設備可以互訪對方的內存,具有傳輸速度快、傳輸容量大和高可靠性等特點,非常適合大容量的信息傳遞。國家數字交換系統工程技術研究中心承擔的國家863計劃項目——“中國第三代移動通信系統”CDMA2000系統集成就選擇基于CPCI總線的多SBC平臺。各個SBC間的通信效率直接決定了整個系統性能的高低。
目前常用的實時操作系統如VxWorks、Lynx等,都針對CPCI總線實現了消息隊列,可用于SBC間的消息通信。但VxWorks、Lynx中消息傳遞的實現方式很不靈活,一般是通過在一個特定的SBC(通常為system board)中開啟一塊共享內存,其他各個SBC(通常為non system board)通過對共享內存的讀寫交換信息;每完成一次兩個non system SBC間的信息交換,都要進行一次PCI讀寫操作,效率不高。另外VxWorks、Lynx中的消息長度都有一個最大值,當要進行大數據量(如1GB的內存數據庫)的信息傳輸時,操作系統提供消息傳遞機制也無能為力。而以上這些問題,都可以通過任意兩個SBC間的直接內存訪問得到解決。本文首先介紹了PCI Bridge的工作原理;然后以Motorola公司提供的CPX8000系列工控機為例,討論了兩個SBC是如何基于背板(Backplane)上的CPCI總線,并利用PCI Bridge的地址映射機制,通過互訪內存的方式最終實現雙機通信;最后介紹了實際應用時應注意的性能優化問題。
1 PCI Bridge的工作原理
在簡單的計算機系統中,其擁有的外部設備較少,單級總線結構便能滿足系統的需要。但是由于單個 PCI總線可支持的 PCI 設備數量有電氣限制,對擁有大量外設的計算機系統而言,單級總線結構已不能滿足系統的要求,因此便產生了橋接設備。通過PCI-to-PCI Bridge可擴展出新的PCI總線,通過PCI-to-ISA Bridge可擴展出ISA總線。借助PCI Bridge這些特殊的PCI設備,系統中各級總線被粘和在一起,使整個系統成為一個有機整體。
每個PCI設備都有自己的PCI I/O空間、PCI內存空間和PCI配置空間(configuration space)。PCI設備的設備驅動程序對PCI配置空間進行初始化設置后,各個智能控制器如CPU、DMA控制器等,可以對PCI設備的PCI I/O空間、PCI內存空間進行訪問。在圖1中,CPU若要訪問網卡,首先會在PCI Bus0上生成一個物理地址,這個地址經PCI-to-PCI Bridge的過濾及轉換后,在PCI Bus1上產生一PCI Bus地址,網卡通過地址譯碼,響應對這個地址的訪問。
圖1 基于PCI的系統
從這個過程可以了解到,PCI-to-PCI Bridge有兩種基本的功能:
(1)地址映射功能。雖然同是對網卡進行訪問,但PCI Bus0與PCI Bus1上的地址意義是不同的。兩個地址分屬各自的地址空間,通過PCI-to-PCI Bridge實現兩個地址的映射。根據這兩個地址是否相同,可將PCI-to-PCI Bridge區分為兩種類型:
·PCI-to-PCI Transparent Bridge。PCI Bridge不對PCI Bus0上的地址進行轉換,直接將其映射到PCI Bus1上。PCI Bus0與PCI Bus1上的地址是相同的。
·PCI-to-PCI Non Transparent Bridge。PCI Bus0上的地址必須經過PCI Bridge的轉換,才能映射到PCI Bus1上。PCI Bus0與PCI Bus1上的地址是不同的。
(2)地址過濾功能。PCI Bridge在把PCI Bus0上的地址向下游總線(ISA Bus、PCI Bus1)傳遞時,具有選擇性。在圖1中,CPU在PCI Bus0上所產生的地址,只有對SCSI和Ethernet的訪問,PCI-to-PCI Bridge才予以接收;而對于PCI Bus0的其他地址,PCI-to-PCI Bridge均不予響應。每一個PCI Bridge所響應的地址范圍,可形象地稱其為此PCI Bridge的地址窗口,只有當上游總線的地址落進PCI Bridge的地址窗口中,PCI Bridge才響應此地址并向下游總線傳遞。
2 雙機通信的具體實現
本節以Motorola公司提供的CPX8000系列工控機為例,介紹了如何通過CPCI總線實現雙機間的通信。如圖2所示,兩個SBC通過背板上的CPCI總線實現了物理上的連接。如果兩個SBC能夠互相訪問對方的內存,就可實現兩者間的數據交流。以系統處理機板(System Processor Board,又稱主機板)訪問非系統處理機板(Non-system Processor Board, 又稱子機板)內存為例,介紹雙機通信的具體實現。本方案已在Lynx及VxWorks實時操作系統上實現。
在圖2中,主機板CPU若要訪問子機板中的1MB內存單元,必須將這塊內存映射到主機板CPU的虛擬地址空間中,可以通過對主機板、子機板、主機板與子機板的接口配置來達到目的。此1MB的內存單元可被映射到不同的地址空間(如CPU虛擬地址空間、物理地址空間、本地PCI地址空間、系統CPCI地址空間等),映射地址也各不相同。在圖2中,對于此1MB內存的起始單元在不同地址空間中的映射地址,分別用符號A1、A2、…A7表示。
圖2 數據通信原理圖
2.1 子機板的配置
(1)調用內核內存分配函數申請1MB的內核虛擬地址空間,得到申請空間的開始地址A7。
(2)根據操作系統的內存映射關系,得到虛擬地址A7的物理映射地址A6。
(3)Raven ASIC是一個Host-to-PCI Bridge,因為Processor Bus不是一個標準總線,所以通過Raven將其轉換為PCI總線,以掛接各類PCI設備。CPU和Raven一起構成了一組套片(chipset),配合使用。根據Raven的設置,獲得物理地址A6在Local PCI Bus的映射地址A5。
(4)21554是一PCI-to-PCI Non Transparent Bridge,并可進行雙向數據傳遞。通過其內部的兩個配置寄存器,將其地址窗口的大小設為1MB;地址窗口的起始地址在Local PCI Bus端設為A5。
2.2 主機板的配置
(1)申請大小1MB的內核虛擬地址空間,得到其開始地址A1。
(2)根據操作系統的內存映射關系,得到虛擬地址A1的物理映射地址A2。
(3)根據Raven的設置,得到物理地址A2在Local PCI Bus上的映射地址A3。
(4)21154是一PCI-to-PCI Transparent Bridge,它也可以在兩個方向上進行數據訪問。設置其內部的兩個配置寄存器,將其地址窗口的大小設為1MB;地址窗口的起始地址設置為A3。由于21154的透明性,地址A3與其在System CPCI Bus端的映射地址A4的值是相同的。
2.3 主機板與子機板的接口配置
在主機板端對子機板進行配置,設置21554的配置寄存器,將其在System CPCI Bus端的地址窗口開始地址設為A4。由于在Local PCI Bus端的地址窗口起始地址已設為A5,所以將地址A4映射到了地址A5。可以看到,由于21554的非透明性,使主機板與子機板的地址空間相互隔離,各自可獨立分配,并在System CPCI Bus級實現了對接。在主機板CPU看來,整個子機板與主機板網卡一樣,都是掛在主機板Local PCI Bus下的一個外設。對子機板的訪問與對主機板網卡的訪問方式是一樣的,沒有什么不同。
2.4 地址轉換流程
當所有的配置完成后,主機板CPU只對地址A1進行讀寫操作,便可實現對子機板1MB內存起始單元的訪問;對1MB內存中其他單元的訪問,只要將地址A1加上相應的偏移量即可。通過下面的地址轉換流程,可以清楚地看到各級地址是如何通過一級級映射,最終命中指定單元的。
主機板CPU給出虛擬內存訪問地址A1→主機板物理地址A2→主機板Local PCI Bus地址A3→System CPCI Bus地址A4→子機板Local PCI Bus地址A5→子機板物理地址A6→經Falcon Memory Controller譯碼后,選中所申請的1MB內存的起始單元。
從上述介紹可以看出,要想實現雙機的內存互訪,關鍵是要進行正確的地址映射。當要實現多個SBC間的相互訪問時,地址的映射會更復雜,需要對操作系統的地址空間分配、各個SBC的PCI-to-PCI Bridge設置、System CPCI Bus地址空間分配等進行通盤考慮。
?圖3 在兩SBC間進行讀操作時的時間圖
圖4 在兩SBC間進行寫操作時的時間圖
3 性能優化
圖3、圖4是用VMETRO的總線分析儀截獲的數據。分別是在兩個SBC間進行讀寫訪問時,連續進行100 Byte傳輸的時間圖。
從圖3可以看出,每進行一次4Byte的讀操作,要花費956.8+4×149.5+179.4=1734.2ns,這相當于1734.2ns/29.9ns=58 PCI clock cycles。
從圖4可以看到,第一個4Byte的寫操作花費了159.5ns,接著是兩次猝發傳送,隨后一個4Byte寫操作花費了119.6ns。進行一次4Byte的寫操作平均花費(159.5ns+2×29.9ns+119.6ns)/(4×29.9ns)=11 PCI clock cycles。
對比讀寫兩種訪問方式可以看出,寫操作比讀操作的效率要高得多。這主要有以下一些原因:
(1)當PCI上的一個主設備發起對一個目標設備的訪問時,讀和寫操作的完成時間差別很大。目前的PCI設備中一般都有一個用于存儲器寫的轉發(post)緩沖器。若要進行寫操作(如圖2中主機板對子機板的寫操作),主設備只需將其寫緩沖區數據復制到目標設備的轉發緩沖器中,便認為操作完成。例如在圖2中,主機板的Raven只要將數據發給21154,便認為寫操作完成,后續的數據傳輸由21154驅動完成。可以看到,寫操作在目的總線上(子機板的Process Bus)完成之前可以先在源總線上(主機板的Local PCI Bus)完成,實際上是寄存器對寄存器的操作。而要實現一個讀操作,則必須經過存儲器本身的訪問和各級PCI接口的邏輯延遲才可完成。與寫操作相比,讀操作在源總線上完成之前必須先在目的總線上完成,這導致了讀操作的效率很低。(2)從圖3、圖4中可以看到,PCI設備還可進行寫操作的猝發操作,但讀操作則無法進行。這是由于猝發操作只有在前一事務是寫事務時才能實現。猝發傳送取消了FRAME#、AD、C/BE#、IRDY#、TRDY#、DEVSEL#等總線信號的周轉周期,實現了每一個PCI clock cycle進行一次數據傳送。 (3)猝發傳送操作不可能無限制地進行下去。連續進行猝發傳送的次數與轉發緩沖器的大小、Latency Timer的取值、總線的繁忙狀況都有關系。
由于以上原因,在兩個SBC間進行數據傳送時,應該采用如下方式: (1)提供數據的SBC應將數據直接寫到消費數據的SBC內存中;而不是提供者將數據放在本地內存,再由消費者經過PCI讀操作來實現。也就是說,總是進行PCI寫操作。(2)當需要在多個SBC間進行數據互傳時,要合理地設置Latency Timer的取值,以使各SBC公平使用PCI總線資源。考慮兩個子機板間的通信實現。若采用操作系統提供的消息傳遞機制,數據提供者必須先將數據寫到主機板,數據消費者再從主機板讀取數據。對一個4 Byte的數據傳輸來說,平均要花費58+11=69 PCI clock cycles。若采用本文提供的方法,提供數據的SBC將數據直接寫到消費數據的(接上頁) SBC內存中,則傳輸一個4 Byte的數據,平均只需11 PCI clock cycles。可知,后者比前者快了69/11≈6.3倍,極大提高了傳輸效率。
責任編輯:Gt
-
工控機
+關注
關注
10文章
1753瀏覽量
50740 -
操作系統
+關注
關注
37文章
6889瀏覽量
123602 -
總線
+關注
關注
10文章
2900瀏覽量
88292
發布評論請先 登錄
相關推薦
評論