近日,OSCHINA 和 Gitee 聯合發布了《2022 中國開源開發者報告》。
其中“前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源云原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。
本篇為開源大數據領域的解讀。
近幾年,數據技術快速發展,技術棧逐漸成熟,從新一代數據源體系到數據處理體系,再到數據分析、AI 算法體系,數據技術逐步相互融合、相互支持形成有機整體。OLAP、數據湖、數據集成、DataOps、MLOps 等領域變得更加火熱。未來,大數據技術會沿著異構計算、批流融合、云化、兼容AI、內存計算等方向持續更迭。
新一代數據棧將逐步替代國內單一“數據中臺”
2021 年,美國硅谷最火爆的詞匯就是現代數據棧(Modern Data Stack,簡稱 MDS),它們是以云原生、開源為背景的一系列全新數據技術引擎。相對于傳統的閉源、私有化的數據技術來講,現代數據棧憑借其開放性及公有云的 SaaS 服務快速得到了大量企業用戶的認可。
現代數據棧分為若干層次,每個層次相互支持,相互協助,形成一個有機的整體。企業使用的時候,很容易就能利用 SaaS 模式將其整合到一起解決企業數據問題。而開源模式,又給 MDS 生態加入了新的活力,快速發展社區的同時讓上下游快速出現新的合作。
近幾年,國內出現了大量的開源數據技術。2022 年,這些技術形成了具有上下游的有機集合體,從新一代數據源體系到數據處理體系,再到數據分析、AI 算法體系,逐步相互融合、相互支持形成有機整體。可以看到,國內新一代的數據棧在支持云原生技術基礎上,還支持私有云/公有云部署,用新一代的計算引擎、算法、調度、同步機制來支持新一代的數據基礎建設。
這些新一代技術棧的流行和商業工具生態的整合,將逐步替代國內單一“數據中臺”服務四五個領域的局面。這變得跟美國類似——若干家各自領域的專業企業相互集成,最終給用戶提供高效且靈活的專業解決方案。
同時,我也高興看到,這些開源現代數據棧中很多的商業公司,正在美國、歐洲快速建立社區、SaaS 和相關的商業服務,也有一些公司已經和全球的開源現代技術棧公司進行競爭。整體上,來自國內的新一代的開源現代數據棧(Open-source MDS)現在剛剛興起。我相信,國內具有大量優秀的開發者、豐富的場景和大量的數據基礎,一定會有若干家卓越的開源商業公司出現,最終在全球開源現代數據棧中有一席之地!
郭煒
Apache 基金會成員,Apache 孵化器導師,ClickHouse 華人社區創始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 導師。郭煒先生畢業于北京大學,曾任易觀 CTO,聯想研究院大數據總監,萬達電商數據部總經理,先后在中金、IBM、Teradata 任大數據方重要職位,對大數據前沿研究做出卓越貢獻。同時郭先生參與多個技術社區工作,Presto、 Alluxio、Hbase 等,是國內開源社區領軍人物。
數據湖與 LakeHouse 依然炙手可熱
2022 年,數據湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內的一些基礎軟件公司也開始在數據湖開源領域積極布局,代表有網易數帆開源的湖倉管理系統 Arctic,阿里云開源的流式數倉 Flink Tablestore;另一方面,一些傳統架構的開源數倉軟件,以及閉源的數據分析引擎,也開始積極擁抱開放的數據湖格式,標志性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數倉可以查詢 Iceberg 數據。
在眾多開源項目與頭部企業的帶動下,行業和市場相比去年對 LakeHouse 的價值認知有了長足進步。
目前,用戶切入 LakeHouse 主要有兩點:一是數據湖上云,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導致用戶在把圍繞 Hadoop 構建的數倉體系遷往云端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,并且提供了 ACID、模式演進等高階特性,為用戶提供了更好的上云方案;二是數據處理的流批一體,新型數據湖格式的快照機制對流更加友好,可以將數據湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現實時數倉和離線數倉在湖倉上的統一。
但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處于期望膨脹期的臨界點,距離主流市場采納還需要 2-5 年的時間。得益于數據湖天然的體量和成本優勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業的數字化轉型帶來極具意義的變革。
馬進
網易數帆大數據實時計算技術專家、湖倉一體項目負責人,負責網易集團分布式數據庫、數據傳輸平臺、實時計算平臺、實時數據湖等項目,長期從事中間件、大數據基礎設施方面的研究和實踐,目前帶領團隊聚焦于流批一體、湖倉一體的平臺方案和技術演進,及流式湖倉服務 Arctic 項目開源。
數據技術快速更迭, DataOps 應運而生
今年的大數據發展如火如荼,OLAP、數據湖、數據集成、DataOps、MLOps 等領域非?;馃幔髽I數字化、數智化發展十分蓬勃,開源原生公司發展迅速,數據湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導的 Delta Lake 都已經有商業化公司的助力。數據領域的估值愈發突起,比如 DBT Labs 估值已經達到 40 多億美金,Airbyte 估值已經 15 億美金。國內以天謀科技、思斐、SelectDB、白鯨開源為代表的大數據開源原生公司開始展露頭角。
數據技術正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術多達幾十種,在此的背景下,DataOps 應運而生。DataOps 圍繞云原生、敏捷智能化、多云能力等方向重構現代數據技術棧,涵蓋了現代數據處理的整個生命周期,包括數據采集、數據加工(ELT/ETL)、數據集成、數據安全、數據治理等多個方面,利用 DataOps 可以高效打造現代數據智能高速公路。
根據 Gartner 的總結,我們來看一下 DataOps 在數據運營體系關鍵要素中的作用:
(1)流程控制:在 DataOps 中,自動化測試和統計流程控制在數據管道的每一步運行,過濾和消除數據錯誤,這些數據錯誤會破壞分析,并產生大量計劃外工作影響生產效率。
(2)變更管理:DataOps 關注的是跟蹤、更新、同步、集成和維護驅動數據分析管道的代碼、文件和功能組件。
(3)并行開發:DataOps 組織并劃分數據開發各個階段,以便團隊成員可以高效地協同工作,而不會發生資源沖突。
(4)虛擬化技術環境:DataOps 會虛擬化技術環境,以便將開發與生產隔離。虛擬化可以讓業務創新更輕松地通過開發流程,并快速流向生產環境。當需要時,數據分析師可以快速啟動一個開發環境,其中包括所需的工具、安全訪問、數據、代碼。
(5)復用:DataOps 支持復用模型,標準化被廣泛使用的功能和分析組件,并簡化虛擬環境之間的遷移。
(6)響應能力和靈活性:DataOps 設計數據分析管道以適應不同的運行時情況。這種靈活性使分析能夠更好地響應組織的需求和不斷變化的優先級。
(7)快速變化:DataOps 將構建技術環境,以實現盡可能短的開發周期時間,同時滿足數據使用者的要求。DataOps 的設計理念就是基于變革,DataOps 體系結構將動態數據處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事后的更改。
(8)團隊協同:DataOps 協調任務、角色和工作流,以打破不同數據團隊和業務團隊之間的障礙,以便更好地協同工作。
可以說,DataOps 是快速實踐數字化轉型的理論指導,貫穿于現代數據技術棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。
代立冬
白鯨開源聯合創始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導師,ApacheCon Asia 大數據論壇主席。
更多內容請查看《2022 中國開源開發者報告》
-
開源
+關注
關注
3文章
3393瀏覽量
42624 -
內存計算
+關注
關注
1文章
15瀏覽量
12188 -
大數據
+關注
關注
64文章
8904瀏覽量
137625 -
云原生
+關注
關注
0文章
251瀏覽量
7964
原文標題:前沿開源技術領域解讀——開源大數據
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論