性能一直是存儲的核心話題,如果說可靠性是業務數據的生命線,那么性能就是業務加速發展的推進器。
存儲系統的性能來自于軟件和硬件的配合,硬件體系包括CPU、內存、網絡、硬盤,組網方式,軟件架構等等,所有這些軟硬件協同作用的合力就表現為存儲系統對外提供的性能吞吐能力。
相比于傳統存儲,分布式存儲的性能問題尤為棘手,涉及到多個節點之間的數據轉發,IO路徑更長,因此對性能的影響點更多,更復雜。純軟件由于其硬件的多樣性,往往出現性能體驗的波動和不穩定,在某些配置上得到的性能數據,在最終用戶得到的硬件配置上卻不一定能達到。
面向場景 補齊影響性能的每塊短板
新華三集團存儲產品線X10000產品首席架構師陳釗介紹:“存儲系統的性能問題是個典型的木桶效應,再解決當前短板之前,很難準確預知下一個短板;或者是否存在比當前發現的短板更短的短板。存儲性能優化團隊通過在整個存儲IO路徑協議棧上進行細致的打點分析,逐個排查性能瓶頸點,不斷突破性能極限。”
“同時,我們深耕業務場景,比如廣電、運營商、HPC等,專項進行性能優化,從硬件驅動到協議棧,一層一層分析系統瓶頸,逐項優化。H3C UniStor X10000存儲一體機從用戶場景出發,通過軟硬件的聯合調優,基于業務場景給出最佳的硬件典配,交付用戶有保障的存儲性能。”
除了針對各項場景應用進行定向優化精細開發,研發團隊還介紹了X10000性能優化過程中的一個小小的難點……
不走回頭路 用聰明的方法解決問題
原來,隨著新的特性功能不斷開發,加載了新功能后的產品,很有可能出現性能的倒退。那么,要怎樣解決和避免這樣的問題呢?
負責自動化性能看護系統的研發人員馮翔宇介紹,中央電視臺和中科大洋聯合poc測試是一次難忘的經歷,當時,X10000存儲系統在用戶的測試環境中出現了性能回退。為了排查確切的引入問題源,測試團隊重新對每一個列入問題單的性能影響因素進行了測試評估,整個周期持續了一月有余。
同時,針對新版本性能回退的主要矛盾,測試團隊決定建立一套自動化性能系統。通過自動化CI集成,在性能倒退的最初就能識別并解決;當性能優化成果合入版本后,又刷新性能基線。從而使存儲產品的性能能夠不斷提升。
馮翔宇介紹,性能自動化系統建立初期,測試團隊查找和嘗試了大量的開源工具和資料,決定了基于一個開源的基礎框架。真正開展后卻發現,框架雖然體系清晰,但是原生系統卻是基于塊業務實現的,且該系統實際上僅僅是一個預研階段的產物,實際操作的資料基本沒有。在初次部署時,便有層層報錯。
測試團隊花費了大量的時間梳理系統框架、終于建立了文件系統測試系統框架。然而,進行初步測試的過程中,卻發現存儲關注的性能數據分析和統計功能并不適配。
眾所周知,存儲產品的性能測試與硬件環境強相關,在保證性能測試數據能及時、有效提供的同時,還需要保證周邊的測試環境、可供分析的perf數據準確抓取,這對于長期的性能穩定性至關重要。
為此,測試與開發團隊內部專家反復溝通性能perf數據的抓取,建立可以反復、長期使用的perf數據庫,確定抓取、命名、分類等準則;針對代碼的簡潔準確性、接口可復用繼承性、異常流程處理等,測試人員反復考慮和優化已經調試走通的代碼,對加強異常報錯代碼的提示信息也格外注重,快速解決問題。
團隊的努力沒有白費,經過反復的測驗和不斷集思廣益優化,當前自動化測試系統具備一鍵完成自動安裝、多個測試任務一鍵下發、性能數據準確收集等功能,讓運維人員從性能測試環境確認、腳本確認、數據人力收集等諸多重復操作中解放,節約一半以上的人力投入,真正實現版本性能看護,為用戶的業務開展提供最強加速度。
后記:披荊斬棘 初露鋒芒
排查完性能問題之后的X10000存儲系統,到客戶的應用測試環境中,也表現出了優異的性能,為X10000在廣電行業的破冰與開拓奠定了堅實的基礎。
上文我們記載的是X10000性能研發過程中的一個小小的插曲,正如前文提到的,存儲系統的性能涉及到無數的IO環節,只有我們掃除了每個IO環節上的瓶頸,才能造就存儲系統優異穩定的性能,在這個不斷排查瓶頸的過程中,研發中心上演了一幕幕感人的小故事,奠定了X10000存儲系統的性能基礎,鋪就了X10000在多個行業開疆擴土的發展前景!
責任編輯:pj
-
cpu
+關注
關注
68文章
10879瀏覽量
212199 -
軟件
+關注
關注
69文章
4970瀏覽量
87717 -
存儲系統
+關注
關注
2文章
413瀏覽量
40880
發布評論請先 登錄
相關推薦
評論