在數據和分析領域中,數據網格(Data Mesh)范式是取代數據湖、成為主要架構模式的強勢候選者。 重要的是,數據網格引入了新的組織視角,并且它與特定技術無關。 其關鍵思想是將領域驅動設計(DDD)和產品思維,應用到數據和分析領域的難題中。與引入DevOps文化相比,建立數據網格文化包含人與人的連接,同理心,以及聯合責任結構的建立。 通過這種方式,從數據中產生業務價值能夠實現可持續的規模化。
隨著各個公司在關鍵業務領域進行數字化,他們收集了越來越多的有關其自身流程和客戶的數據。 因此,他們希望使用這些數據來推動基于事實的決策,以便更好地滿足客戶的需求。 在某些行業中,數據驅動的水平,即公司能夠基于數據而不是憑直覺做出決策的速度,已經成為決定性的競爭優勢。
數據倉庫、數據湖以及關于中心化數據所有權的問題
在傳統的商業智能(BI)中,集中維護的數據倉庫是許多商業決策的基礎,例如:通過最新的報表來支持這些商業決策。 隨著大數據技術的成熟以及數據科學的日益普及,許多公司投資建設了中央數據湖——有些是為了替代數據倉庫,但更多情況下是對現有數據倉庫的補充。 二者的主要區別在于集展和建模的不同:通過數據倉庫的方式,數據在攝取時,已經根據特定的應用進行了轉換; 對于數據湖,這種轉換僅在數據用于消費時發生。 但是,這兩種方法的共同特點是中心化。 而正是這種中心化導致了問題的反復出現。
我一次又一次看到,一個模式是不堪重負、壓力重重的中央“數據團隊”。 這個團隊維護著中央數據基礎設施,無論是數據倉庫還是數據湖。然而,更重要的是,該團隊孤立地負責向利益相關者,產品團隊和數據科學家提供及時可靠的數據集或報表。 我故意稱其為數據團隊,而不是更具體地稱為數據工程或數據洞察團隊,是因為它反映了這個團隊經常要處理的不明確的責任組合。
因此,該數據團隊的成員經常會陷入困境。 他們花費大量時間進行“消防員”式的救急工作,也修復數據生產團隊引入的問題,但也很難使數據的消費者滿意。 尤其令人悲傷的是,這些團隊成員通常是公司中最精通數據的人。并且經常可以看到的是:這種長期的壓力會導致生產力下降,工作場所滿意度降低,甚至員工流失率增加。
如今有能力的工程師為什么無法解決這種問題? 原因在于這不是技術問題,而是組織問題。 主要問題之一是參與各方的職責劃分不當。
數據生產者一方,具有領域專業知識,即他們了解數據的含義,并且可以直接更改數據的形式; 而數據使用者一方,是數據的既得利益者,了解數據的業務潛力,因此可以清楚地描述需求,包括數據質量的相關需求。 數據團隊的成員夾于這兩方之間:他們有責任交付可靠和高質量的數據,但他們既沒有領域專業知識,也無法直接影響數據如何產生。 此外,他們并不是最終使用數據的決策者。 這意味著利益,責任和能力分布在三個不同的方面,這導致了摩擦,沮喪和誤解。
圖一,處理數據的傳統方式切斷了數據負責人與數據使用者的關系
Data Mesh:去中心化的領域所有權,共享的基礎設施
相反,數據網格的目標狀態是讓數據生產者和數據使用者盡可能緊密地合作。從組織的角度來看,理想的情況是同一團隊同時生產和使用相同的數據,以便能夠在同一個團隊中考量利益,責任和能力。在實踐中,這通常是不可行的,因為數據生產團隊已經在其特定領域承擔了太多責任,以至于他們也無法完全負責數據消費應用。因此,將這些角色分成兩個直接溝通無需中間人的團隊,已經是向前邁出了一大步。數據生產團隊的目標應該是提供數據,以便其他人可以在不需要詳細領域知識的前提下就能從該數據中獲得價值,即數據產生者應隱藏“實施細節”。當然,這樣的數據生產團隊也可以同時處于數據消費者的位置。有一些面向消費者的數據領域非常復雜,足以證明整個領域專家團隊的價值,但是這些專家自己使用的數據與數據源對齊。
單純從組織角度來看,這種數據生產者和消費者的雙邊關系結構將特定領域的一切交給了一個團隊,有利于減少摩擦,增加了所有權,從而能夠高質量地擴展。如果我們接受這個前提,那為什么有著集中所有權的中央數據團隊的模式如此普遍?以我的經驗,有三個主要的關注點,它們在很大程度上驅動了企業中不幸的中心化數據所有權模式:
擔心團隊中沒有足夠的數據工程師和數據科學專家來組成多個團隊。相反,中央團隊被認為可以更有效地利用那些稀缺的專家,并可以更平等地支持多個團隊。
擔心失去對數據質量的控制,例如建立去中心化所有權的全局標準似乎很困難。
擔心重復的基礎設施投資,因為每個團隊都需要創建和維護類似的基礎設施,例如管道,服務和存儲。
通常,中心化數據所有權和中心化數據基礎設施之間缺乏概念上的分離, 阻礙了去中心化數據所有權的優勢。 實際上,在上述所有三種情況下,創建專注于自助服務工具的共享數據基礎設施平臺可以幫助緩解此類擔憂。但是,至關重要的是,與領域無關的自助服務工具要能夠使該數據架構平臺脫離中心化的領域數據所有權。 然而,通過使用領域無關的自助服務工具,能夠與讓數據基礎設施平臺脫離中心化的領域數據所有權。否則,數據基礎設施平臺將存在迅速成為具有中心化數據所有權的中央數據平臺的風險,這正是我們首先要擺脫的境況。 最后,此方法還需要與建立針對數據的產品思維相結合,以確保去中心化的數據所有權是可持續的。
圖2:與領域無關的數據平臺
領域無關基礎架構以及產品思維
為什么說數據基礎設施平臺確實是領域無關且專注于自助服務的呢?一個標志是,無需聯系數據基礎設施平臺團隊,團隊即可通過提供領域數據來共享其專業知識。這意味著,那些數據基礎設施平臺的開發人員在完成本職工作時,并不需要詳細的領域知識。
另一方面,該平臺必須提供工具,讓領域數據專家在無需深厚的數據工程專業知識的情況下管理其數據交付物的整個生命周期。這意味著必須使他們能夠創建數據領域產品,對其進行描述和演進升級,觀察其使用情況以及適時銷毀數據。
創建提供這種使能水平的自助服務平臺是一項巨大的技術和產品開發挑戰。不過,它的核心是傳統的內部軟件產品開發可以從實現最常見的用例開始,再逐步地擴展平臺的功能。
這樣,可以避免了構建重復的基礎設施,因為沒有將基礎設施平臺團隊拉入中心化的數據所有權中。這樣一個與領域無關的平臺團隊可以更好地進行擴展,因為其成員不需要跟進特定領域的難題和所有業務領域的需求。相反,那些領域數據團隊應該積極地培養和維護這些詳盡的領域知識。因此,如果能夠正確地關注重點,一個中型團隊就能夠可持續地開發和維護共享的數據基礎設施平臺。
共享的自助服務數據基礎設施平臺的另一個重要優點是,除了避免重復工作外,還關乎數據治理和標準化。如果對于領域數據團隊而言,使用平臺的工具提供數據要比通過構建自己的基礎設施還方便,那么通過這些平臺工具來實施某些標準將變得很容易。這樣,標準化和一定程度上的治理就會由便利性驅動。
因此,在上面概述的關于去中心化數據所有權的三個問題中,僅剩下一個數據質量的相關問題。現在,中心化團隊無法承擔數據質量的責任。如今,數據質量的責任無論如何也不能由一個中心化的團隊以可擴展和可持續的方式來承擔。沒有任何一個團隊可以針對所有業務領域建立足夠的領域專業知識來確保數據質量。這就是數據質量的意義:它不是對數據形態的普遍保證,而是與數據的具體內容,語義和演進的息息相關。
但是,單純以去中心化的責任制還不能解決這一挑戰。為此,產品思維開始發揮作用。需要激勵領域數據團隊以可靠的方式提供高質量的數據,例如通過使預算與數據消費者的數量和消費滿意度相匹配。這樣,領域數據團隊將嘗試提高其數據的價值,并嘗試滿足其數據消費者的需求。
最后總結一下,我們需要建立三種方法,以實現具有去中心化數據所有權的可擴展和可持續的數據格局:
使用領域驅動設計作為主要手段構建數據,并將領域(或子域)的完整端到端所有權分配給一個能夠滿足其職責所需的跨職能團隊。
利用平臺思維,投資創建共享且與領域無關的自助數據基礎設施平臺。該平臺沒有中心化的數據所有權,而是專注于支持和促進數據生產者和消費者者之間的直接協作。
利用產品思維,激勵領域數據團隊提高高質量的數據以滿足數據消費團隊的需求。
fqj
-
數據分析
+關注
關注
2文章
1460瀏覽量
34113 -
數據網格
+關注
關注
0文章
7瀏覽量
6143
發布評論請先 登錄
相關推薦
評論