科技云報道原創(chuàng)。
在論壇上,國外某企業(yè)的真實案例引發(fā)了熱議。一開始該企業(yè)只顧技術(shù)創(chuàng)新,積極上云,不顧成本。
直到有一天,高層介入喊停:“這個云不能再上了,成本已經(jīng)遠(yuǎn)大于收益了”。該企業(yè)因為成本失控導(dǎo)致上云進(jìn)度延遲兩年,嚴(yán)重影響企業(yè)技術(shù)創(chuàng)新。
隨著企業(yè)上云越來越普及,企業(yè)會發(fā)現(xiàn)用云成本也水漲船高,似乎與當(dāng)初云計算誕生時宣稱的“降低IT成本”理念背道而馳。
正因如此,云時代如何有效控制成本、質(zhì)量和效率,成為企業(yè)用云管云的新課題。與之對應(yīng)的云成本優(yōu)化(FinOps)一詞,也變得越來越流行。
在Google Trends上,“FinOps”關(guān)鍵字的搜索量在2019年到2023年的四年間增長了410倍。在國外,有18000多人把FinOps技能列在了自己的LinkedIn簡歷里。
CNCF發(fā)布的云原生2023年趨勢預(yù)測報告中,10個熱點(diǎn)趨勢中有4個與FinOps相關(guān),分別是FinOps、GreenOps、GitOps和削減成本。
今天就來聊聊,什么是FinOps,以及企業(yè)該如何實踐FinOps?
FinOps:用最低成本創(chuàng)造最大價值
FinOps的歷史并不悠久,公有云早期用戶Adobe和Intuit在2012年首次描繪出了FinOps的雛形。FinOps本質(zhì)上是一個理論框架,沒有特定的技術(shù)棧,其方法論來自各個云廠商最佳實踐的整合和抽象,從組織流程、識別浪費(fèi)、優(yōu)化措施等方面給出建議。
FinOps定義了一系列云財務(wù)管理規(guī)則和最佳實踐,通過助力工程和財務(wù)團(tuán)隊、技術(shù)和業(yè)務(wù)團(tuán)隊彼此合作,進(jìn)行數(shù)據(jù)驅(qū)動的成本決策,使組織能夠獲得最大收益。
FinOps基金會的這張圖被引用了很多次,圖里簡單列出了FinOps理論的原則、目標(biāo)和參與方等。
圖片來源:FinOps基金會(中譯版)
FinOps理論的最終目的是要最低的成本來創(chuàng)造最大的價值,并指出了成本優(yōu)化的三個階段:
●成本感知節(jié)點(diǎn)關(guān)注成本可視化、成本分?jǐn)偟龋?/p>
●成本優(yōu)化階段可聚焦目標(biāo)制定,然后通過費(fèi)率優(yōu)化和用量優(yōu)化來節(jié)省成本;
●運(yùn)維階段通過持續(xù)優(yōu)化流程、規(guī)范和資源運(yùn)營手段等實現(xiàn)持續(xù)成本優(yōu)化。
同時,F(xiàn)inOps理論還有一些成熟度評估模型,來評估企業(yè)做得好不好。
這三個方面牽扯廣、執(zhí)行難,是一個需要拉動企業(yè)全員參與的系統(tǒng)工程,因此成功的前提是組織目標(biāo)的高度對齊,全員經(jīng)營意識的建立,組織堅定的執(zhí)行力和不斷提升的執(zhí)行效率,實踐的本身就是對組織效率的大練兵。
FinOps如何實施?
知名IT軟件企業(yè)Flexera對云計算決策者進(jìn)行年度調(diào)研已經(jīng)持續(xù)12年,在3月8日發(fā)布的《Flexera 2023年云計算現(xiàn)狀報告》中顯示,82%的受訪者表示,他們面臨的最大挑戰(zhàn)是管理云支出。
近一半(45%)受訪者表示,由于經(jīng)濟(jì)不確定性,他們預(yù)計的云使用量和支出要比原計劃中的略高或大幅度提高。
因此,云成本管理的關(guān)注度也許并不令人意外。如今的經(jīng)濟(jì)波動意味著,盡管云的使用和支出依然保持強(qiáng)勁增長,但企業(yè)對與之相關(guān)的費(fèi)用越來越敏感。
那么,涉及到云成本優(yōu)化時,到底該如何降本增效呢?
企業(yè)要做到降本增效,無非是兩個途徑:一是減量,減少浪費(fèi)。國外有調(diào)查報告顯示,現(xiàn)在至少有35%的云資源是被浪費(fèi)掉的。二是減價,從計費(fèi)模式切入優(yōu)化。
確立了路徑之后,企業(yè)具體該如何實施呢?有業(yè)內(nèi)專業(yè)給出了以下步驟:
第一,全體動員。讓該參與的這種角色或者組織或者團(tuán)隊加入進(jìn)來。
第二,構(gòu)建精確的IT資源全景地圖。通過CMDB的方式構(gòu)建一個企業(yè)全局的資源圖譜,便于各個團(tuán)隊之間的溝通,或者在談某個項目或某一個環(huán)境的降本增效時,確保大家的信息是對齊的。
第三,合理的標(biāo)簽。成本的分?jǐn)偅峭ㄟ^在IT資源全景地圖上,基于系統(tǒng)的層次架構(gòu)、技術(shù)架構(gòu)、業(yè)務(wù)架構(gòu)等來分?jǐn)偅谶@其中有一套標(biāo)簽體系是非常重要的,需要把它當(dāng)成日常重要的工作來做。
第四,有效的IT資源利用率監(jiān)控。很多時候,企業(yè)做IT資源的可觀測性,大家比較關(guān)注系統(tǒng)可用性監(jiān)控,或是性能監(jiān)控,不太重視資源利用率的監(jiān)控。如果連利用率監(jiān)控都監(jiān)控不準(zhǔn)的話,那么就沒法判斷哪些資源是浪費(fèi)的。
值得注意的是,面向FinOps的利用率監(jiān)控和傳統(tǒng)的運(yùn)維監(jiān)控不太一樣。傳統(tǒng)的運(yùn)維監(jiān)控比較關(guān)注平均利用率,而FinOps更加關(guān)注峰值。如果不按照峰值去算容量的話,那么降本增效之后,系統(tǒng)大概率就崩潰了。
除了減量減價的優(yōu)化方式,還有一些被忽視的“省錢之道”也需要受到企業(yè)關(guān)注,例如:
●選擇適合自己的多云架構(gòu)。并非所有的業(yè)務(wù)都適合上云,有的業(yè)務(wù)上了云之后可能更貴。同時,需關(guān)注多云的最大公約數(shù),保證既能跨云,又不會被某一個云廠商鎖定。
●善用托管服務(wù)。比如有的企業(yè)數(shù)據(jù)中心上云后,將原有數(shù)據(jù)中心的機(jī)器托管給服務(wù)商,基于原有的機(jī)器去上云,可以節(jié)省一大筆成本。
知名互聯(lián)網(wǎng)企業(yè)的FinOps實踐
盡管FinOps在國內(nèi)提及不多,但早在2020年12月,中國信通院就牽頭成立FinOps產(chǎn)業(yè)推進(jìn)方陣,推進(jìn)規(guī)模化實踐。
在那些率先擁抱云原生的互聯(lián)網(wǎng)大廠內(nèi)部,云成本優(yōu)化的種子其實早就生根萌芽,形成了最佳實踐的方法論。FinOps的出現(xiàn),讓大廠們的優(yōu)化經(jīng)驗得到了更體系化的表達(dá)。
以字節(jié)跳動為例,他們內(nèi)部已有相關(guān)實踐,例如云賬單分析,多云架構(gòu)下對不同廠商定價策略的審視,推薦、廣告、搜索的在離線任務(wù)混合部署等。目前,字節(jié)跳動在云成本優(yōu)化上的最佳實踐,將通過火山引擎對外提供服務(wù)。
阿里集團(tuán)也搭建了自己的混合云資源管理平臺(HCRM),推進(jìn)自身成本數(shù)字化從無到有的建設(shè),重新疏通集團(tuán)內(nèi)部的云資源計費(fèi)和結(jié)算鏈路。
在騰訊內(nèi)部,云業(yè)務(wù)成本中心承擔(dān)著FinOps團(tuán)隊的職責(zé),需要背上資源優(yōu)化的考核指標(biāo),從平臺側(cè)、業(yè)務(wù)側(cè)著手,甚至可以向上匯報,通過GM的層級去推動。
以騰訊為例,其內(nèi)部構(gòu)建了豐富的成本和利用率績效看板,每天晾曬績效,做得好或不好都會及時披露。
騰訊內(nèi)部的成本看板主要包括兩個維度:第一個是哪個帳號買了哪些資源,第二個是哪些業(yè)務(wù)使用了這些資源,包括一些分?jǐn)偧?xì)節(jié)。
此外,還有面向平臺和業(yè)務(wù)的利用率、成熟度等成熟度指標(biāo)看板,主要了解資源大盤的整體情況,看投入使用部分用得好不好,同時盤活閑置資源、減少浪費(fèi)。
平臺側(cè)提供的FinOps能力從以下幾個角度助力業(yè)務(wù)和平臺達(dá)成目標(biāo):
業(yè)務(wù)優(yōu)化:在云控制臺上提供了資源優(yōu)化專項頁面,基于業(yè)務(wù)的資源用量歷史進(jìn)行預(yù)測,構(gòu)建業(yè)務(wù)資源畫像,并給出資源優(yōu)化建議。
規(guī)格建議:通過對比業(yè)務(wù)資源的申請量和使用量,可以告訴業(yè)務(wù)可以節(jié)省的成本數(shù)據(jù),然后業(yè)務(wù)可以通過系統(tǒng)的控制臺直接做優(yōu)化。
彈性建議:比如某個工作日資源使用非常高,但周末基本沒有流量,這時候周末就要縮容,這些業(yè)務(wù)也可以通過控制臺自己優(yōu)化。
平臺優(yōu)化:云平臺在進(jìn)行業(yè)務(wù)調(diào)度時,提供了眾多基于資源畫像的調(diào)度能力。
調(diào)度優(yōu)化:提出了面向真實利用率的動態(tài)調(diào)度能力,管理員設(shè)定節(jié)點(diǎn)目標(biāo)利用率,只要利用率還未達(dá)標(biāo),調(diào)度器就可以調(diào)度更多業(yè)務(wù)進(jìn)來。
混部能力:引入差異化 SLA,允許高優(yōu)在線業(yè)務(wù)和低優(yōu)近離線業(yè)務(wù)混部,壓榨每一分算力,同時離線服務(wù)可以在發(fā)生資源競爭時立即讓渡資源需求,實現(xiàn)對在線業(yè)務(wù)零干擾。
據(jù)悉,騰訊內(nèi)部的在線業(yè)務(wù)通過調(diào)度優(yōu)化手段把資源利用率拉到48%,再加上離線混部,部分集群資源利用率可以達(dá)到65%以上。
整體來看,騰訊CPU規(guī)模達(dá)到了5000萬核,而云成本優(yōu)化總節(jié)省30億元。
企業(yè)何時下場FinOps?
盡管互聯(lián)網(wǎng)大廠們已做出表率,在FinOps實踐中取得了可觀的成績,這是否意味著眼下所有的企業(yè)都應(yīng)該進(jìn)入到FinOps的實踐中?
事實上,企業(yè)對上云的關(guān)注點(diǎn)是循序漸進(jìn)的:第一階段企業(yè)關(guān)注的更多是隱私、穩(wěn)定,以及行業(yè)監(jiān)管政策;第二階段則是云與業(yè)務(wù)、研發(fā)、管理等體系的適配,關(guān)注效率的提升;第三階段,才會來到成本優(yōu)化的層次。
目前大多數(shù)國內(nèi)企業(yè)還處在業(yè)務(wù)遷上云原生的時期,當(dāng)企業(yè)面對業(yè)務(wù)壓力時,成本管控的優(yōu)先級自然會先“放一放”;當(dāng)業(yè)務(wù)趨于穩(wěn)定,應(yīng)用的容器化、架構(gòu)的現(xiàn)代化接近完成,也就是時候?qū)㈥P(guān)注點(diǎn)轉(zhuǎn)到成本優(yōu)化上來。
但現(xiàn)狀如此,并不代表這就是理想的狀態(tài)。
有業(yè)內(nèi)專家直言,云成本優(yōu)化應(yīng)該從上云的第一天就開始規(guī)劃,并且不斷優(yōu)化。
“很多企業(yè)在上云的過程中,只是把過去的經(jīng)驗簡單粗暴的套用在新技術(shù)棧上。也有眾多團(tuán)隊武斷地認(rèn)為成本優(yōu)化和業(yè)務(wù)穩(wěn)定性是相背離的,二者只能取其一”,該專家表示。
結(jié)語
FinOps是大勢所趨,而且正處于快速發(fā)展的早期階段。對于企業(yè)來說,早期的實踐和轉(zhuǎn)變總會帶來陣痛,實踐者需要做好這樣的心理準(zhǔn)備。而 FinOps未來如何幫助企業(yè)把云“用好”,還需要全行業(yè)的不懈努力和探索。
【關(guān)于科技云報道】
專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
審核編輯 黃宇
-
監(jiān)控
+關(guān)注
關(guān)注
6文章
2233瀏覽量
55306 -
云計算
+關(guān)注
關(guān)注
39文章
7852瀏覽量
137688 -
IT
+關(guān)注
關(guān)注
2文章
868瀏覽量
63589 -
云原生
+關(guān)注
關(guān)注
0文章
251瀏覽量
7968
發(fā)布評論請先 登錄
相關(guān)推薦
評論