色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

前沿開源技術領域的開源大數據一一解讀

OSC開源社區 ? 來源:2022 中國開源開發者報告 ? 2023-02-21 15:19 ? 次閱讀

近日,OSCHINA 和 Gitee 聯合發布了《2022 中國開源開發者報告》。

其中“前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發者和開源商業化公司創始人,對目前國內外流行的前沿開源技術領域過去的發展和未來的趨勢進行了深入的洞察,覆蓋開源云原生、開源 AI、開源大前端、開源大數據、開源 DevOps、RISC-V、開源操作系統、開源數據庫、編程語言九大領域。

本篇為開源大數據領域的解讀。

近幾年,數據技術快速發展,技術棧逐漸成熟,從新一代數據源體系到數據處理體系,再到數據分析、AI 算法體系,數據技術逐步相互融合、相互支持形成有機整體。OLAP、數據湖、數據集成、DataOps、MLOps 等領域變得更加火熱。未來,大數據技術會沿著異構計算、批流融合、云化、兼容AI、內存計算等方向持續更迭。

新一代數據棧將逐步替代國內單一“數據中臺”

2021 年,美國硅谷最火爆的詞匯就是現代數據棧(Modern Data Stack,簡稱 MDS),它們是以云原生、開源為背景的一系列全新數據技術引擎。相對于傳統的閉源、私有化的數據技術來講,現代數據棧憑借其開放性及公有云的 SaaS 服務快速得到了大量企業用戶的認可。

現代數據棧分為若干層次,每個層次相互支持,相互協助,形成一個有機的整體。企業使用的時候,很容易就能利用 SaaS 模式將其整合到一起解決企業數據問題。而開源模式,又給 MDS 生態加入了新的活力,快速發展社區的同時讓上下游快速出現新的合作。

201500fa-aaa4-11ed-bfe3-dac502259ad0.png

近幾年,國內出現了大量的開源數據技術。2022 年,這些技術形成了具有上下游的有機集合體,從新一代數據源體系到數據處理體系,再到數據分析、AI 算法體系,逐步相互融合、相互支持形成有機整體。可以看到,國內新一代的數據棧在支持云原生技術基礎上,還支持私有云/公有云部署,用新一代的計算引擎、算法、調度、同步機制來支持新一代的數據基礎建設。

202c2000-aaa4-11ed-bfe3-dac502259ad0.png

這些新一代技術棧的流行和商業工具生態的整合,將逐步替代國內單一“數據中臺”服務四五個領域的局面。這變得跟美國類似——若干家各自領域的專業企業相互集成,最終給用戶提供高效且靈活的專業解決方案。

同時,我也高興看到,這些開源現代數據棧中很多的商業公司,正在美國、歐洲快速建立社區、SaaS 和相關的商業服務,也有一些公司已經和全球的開源現代技術棧公司進行競爭。整體上,來自國內的新一代的開源現代數據棧(Open-source MDS)現在剛剛興起。我相信,國內具有大量優秀的開發者、豐富的場景和大量的數據基礎,一定會有若干家卓越的開源商業公司出現,最終在全球開源現代數據棧中有一席之地!

20407dc0-aaa4-11ed-bfe3-dac502259ad0.png

郭煒

Apache 基金會成員,Apache 孵化器導師,ClickHouse 華人社區創始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 導師。郭煒先生畢業于北京大學,曾任易觀 CTO,聯想研究院大數據總監,萬達電商數據部總經理,先后在中金、IBM、Teradata 任大數據方重要職位,對大數據前沿研究做出卓越貢獻。同時郭先生參與多個技術社區工作,Presto、 Alluxio、Hbase 等,是國內開源社區領軍人物。

數據湖與 LakeHouse 依然炙手可熱

2022 年,數據湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內的一些基礎軟件公司也開始在數據湖開源領域積極布局,代表有網易數帆開源的湖倉管理系統 Arctic,阿里云開源的流式數倉 Flink Tablestore;另一方面,一些傳統架構的開源數倉軟件,以及閉源的數據分析引擎,也開始積極擁抱開放的數據湖格式,標志性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數倉可以查詢 Iceberg 數據。

在眾多開源項目與頭部企業的帶動下,行業和市場相比去年對 LakeHouse 的價值認知有了長足進步。

目前,用戶切入 LakeHouse 主要有兩點:一是數據湖上云,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導致用戶在把圍繞 Hadoop 構建的數倉體系遷往云端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,并且提供了 ACID、模式演進等高階特性,為用戶提供了更好的上云方案;二是數據處理的流批一體,新型數據湖格式的快照機制對流更加友好,可以將數據湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現實時數倉和離線數倉在湖倉上的統一。

但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處于期望膨脹期的臨界點,距離主流市場采納還需要 2-5 年的時間。得益于數據湖天然的體量和成本優勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業的數字化轉型帶來極具意義的變革。

20501d70-aaa4-11ed-bfe3-dac502259ad0.png

馬進

網易數帆大數據實時計算技術專家、湖倉一體項目負責人,負責網易集團分布式數據庫、數據傳輸平臺、實時計算平臺、實時數據湖等項目,長期從事中間件、大數據基礎設施方面的研究和實踐,目前帶領團隊聚焦于流批一體、湖倉一體的平臺方案和技術演進,及流式湖倉服務 Arctic 項目開源。

數據技術快速更迭, DataOps 應運而生

今年的大數據發展如火如荼,OLAP、數據湖、數據集成、DataOps、MLOps 等領域非?;馃幔髽I數字化、數智化發展十分蓬勃,開源原生公司發展迅速,數據湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導的 Delta Lake 都已經有商業化公司的助力。數據領域的估值愈發突起,比如 DBT Labs 估值已經達到 40 多億美金,Airbyte 估值已經 15 億美金。國內以天謀科技、思斐、SelectDB、白鯨開源為代表的大數據開源原生公司開始展露頭角。

數據技術正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術多達幾十種,在此的背景下,DataOps 應運而生。DataOps 圍繞云原生、敏捷智能化、多云能力等方向重構現代數據技術棧,涵蓋了現代數據處理的整個生命周期,包括數據采集、數據加工(ELT/ETL)、數據集成、數據安全、數據治理等多個方面,利用 DataOps 可以高效打造現代數據智能高速公路。

根據 Gartner 的總結,我們來看一下 DataOps 在數據運營體系關鍵要素中的作用:

(1)流程控制:在 DataOps 中,自動化測試和統計流程控制在數據管道的每一步運行,過濾和消除數據錯誤,這些數據錯誤會破壞分析,并產生大量計劃外工作影響生產效率。

(2)變更管理:DataOps 關注的是跟蹤、更新、同步、集成和維護驅動數據分析管道的代碼、文件和功能組件。

(3)并行開發:DataOps 組織并劃分數據開發各個階段,以便團隊成員可以高效地協同工作,而不會發生資源沖突。

(4)虛擬化技術環境:DataOps 會虛擬化技術環境,以便將開發與生產隔離。虛擬化可以讓業務創新更輕松地通過開發流程,并快速流向生產環境。當需要時,數據分析師可以快速啟動一個開發環境,其中包括所需的工具、安全訪問、數據、代碼。

(5)復用:DataOps 支持復用模型,標準化被廣泛使用的功能和分析組件,并簡化虛擬環境之間的遷移。

(6)響應能力和靈活性:DataOps 設計數據分析管道以適應不同的運行時情況。這種靈活性使分析能夠更好地響應組織的需求和不斷變化的優先級。

(7)快速變化:DataOps 將構建技術環境,以實現盡可能短的開發周期時間,同時滿足數據使用者的要求。DataOps 的設計理念就是基于變革,DataOps 體系結構將動態數據處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事后的更改。

(8)團隊協同:DataOps 協調任務、角色和工作流,以打破不同數據團隊和業務團隊之間的障礙,以便更好地協同工作。

可以說,DataOps 是快速實踐數字化轉型的理論指導,貫穿于現代數據技術棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。

2063ec38-aaa4-11ed-bfe3-dac502259ad0.png

代立冬

白鯨開源聯合創始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導師,ApacheCon Asia 大數據論壇主席。

更多內容請查看《2022 中國開源開發者報告》

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3393

    瀏覽量

    42624
  • 內存計算
    +關注

    關注

    1

    文章

    15

    瀏覽量

    12188
  • 大數據
    +關注

    關注

    64

    文章

    8904

    瀏覽量

    137625
  • 云原生
    +關注

    關注

    0

    文章

    251

    瀏覽量

    7964

原文標題:前沿開源技術領域解讀——開源大數據

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    介紹幾大引人注目的開源大數據工具

    大數據技術領域正被越來越多的公司關注,而開源一直是大數據技術的靈魂。隨著一些細分領域
    的頭像 發表于 01-29 08:46 ?8937次閱讀
    介紹幾大引人注目的<b class='flag-5'>開源</b><b class='flag-5'>大數據</b>工具

    常用大數據處理技術歸類

    性能方面更加出色。想要學習大數據,建議從應用切入、以點帶面,先從一個實際的應用領域需求,搞定一個一個技術點,有一定功底之后,再舉一反三橫向擴展,這樣學習效果就會好很多。
    發表于 02-28 17:02

    大數據運用的技術

    處理、集群、實時性計算等,匯集了當前IT領域熱門流行的IT技術。想要學好大數據需掌握以下技術:1. Java編程技術Java編程
    發表于 04-08 16:50

    阿里巴巴高級技術專家章劍鋒:大數據發展的 8 個要點

    8、開源閉源并駕齊驅11 月 28-30 日,Apache Flink 及大數據領域年度盛會 Flink ForwardAsia 2019 將在北京國家會議中心舉辦,更多大數據
    發表于 10-14 10:56

    螞蟻集團基礎設施委員會主席何征宇:開源是核心技術戰略

    ,另一方面也開源了SOFAStack,其中,MOSN為雙十一提供了Mesh化解決方案。在安全容器技術領域,Kata Containers是Open Infra頂級項目,于2022年拿到SuperUser
    發表于 08-17 11:37

    征集令 | 首屆開放原子全球開源大賽等你來戰!

    基于開源技術和智慧交通領域相融合的創新解決方案,不斷融合大數據、邊緣計算、物聯網等技術能力,以全棧開源
    發表于 12-08 11:38

    中國開源未來發展峰會“問道 AI 分論壇”即將開幕!

    過去幾個月,AI 幾乎已經成為全民熱議的話題。各式開源大模型、訓練框架層出不窮;AI 技術也加速應用在各個領域和行業,例如服務運營優化、解決供應鏈問題等等;數據庫、云計算、大前端等多類
    發表于 05-09 09:49

    大數據開源技術大變遷

    在這個基礎上,我們看到很多開源云計算、大數據技術框架得到了飛速發展,其中更有一些已經成文業內事實上的標準。這些開源框架的出現大幅度降低了云計算和大數
    發表于 10-10 17:02 ?0次下載

    深度解讀大數據的應用現狀和開源未來

    本文對當前最前沿開源大數據基準測試集進行全面總結,闡述其歷史、現狀并展望下一步研究方向。
    的頭像 發表于 12-21 15:57 ?4674次閱讀

    解讀ArduBee開源技術背后的創新

    這兩年,隨著開源技術在國內的普及,越來越多用戶開始接觸到開源產品。技術的精進,使產品也發生了翻天覆地的變化。一些產品正在顛覆你的想象,比如ArduBee: ArduBee是什么?是一款
    的頭像 發表于 04-12 16:41 ?1223次閱讀
    <b class='flag-5'>解讀</b>ArduBee<b class='flag-5'>開源</b><b class='flag-5'>技術</b>背后的創新

    《2022開源大數據熱力報告》重磅發布

    開放原子開源基金會副秘書長劉京娟對報告進行了深度解讀 。報告基于公開數據研究最活躍的102個開源大數據項目,探尋出
    的頭像 發表于 11-06 22:15 ?829次閱讀

    開源“摩爾定律”即將打破《2022開源大數據熱力報告》云棲大會上發布

    京娟女士對報告進行了深度解讀。報告基于公開數據研究最活躍的102個開源大數據項目,探尋出開源大數據
    的頭像 發表于 11-09 15:07 ?672次閱讀

    前沿開源技術領域解讀——開源大前端

    WebGPU 是由 W3C GPU for the Web 社區組所發布的規范,目標是允許網頁代碼以高性能且安全可靠的方式訪問 GPU 功能。WebGPU 是一套為瀏覽器設計的次時代圖形 API 標準,為了彌合各個平臺圖形 API 的差異性
    的頭像 發表于 02-13 10:45 ?1072次閱讀

    誠邀報名|黃向東邀您共話開源工業物聯網大數據

    提供了堅實的技術基礎。 在推進 新型工業化建 設的征程 中, 應對各種復 雜的 工業場 景,亟 需在 底層操作系統、物聯 網數據采集、數據管 理以及數據分 析應用等 全生命周期取得 軟
    的頭像 發表于 12-05 19:35 ?568次閱讀
    誠邀報名|黃向東邀您共話<b class='flag-5'>開源</b>工業物聯網<b class='flag-5'>大數據</b>

    誠邀報名|黃向東邀您共話開源工業物聯網大數據

    堅實的技術基礎。在推進新型工業化建設的征程中,應對各種復雜的工業場景,亟需在底層操作系統、物聯網數據采集、數據管理以及數據分析應用等全生命周期取得軟件
    的頭像 發表于 12-20 16:54 ?391次閱讀
    誠邀報名|黃向東邀您共話<b class='flag-5'>開源</b>工業物聯網<b class='flag-5'>大數據</b>
    主站蜘蛛池模板: 亚欧乱亚欧乱色视频| 中国少妇内射XXXHD免费| 草699一码二码三码四码| 日韩av无码在线直播| 国产成人无码精品久久久免费69 | 70岁妇女牲交色牲片| 人人爽久久久噜噜噜丁香AV| 国产成人免费片在线视频观看| 亚洲欧美中文在线一区| 男男肉肉互插腐文| 国产精品www视频免费看| 在线观看视频中文字幕| 日韩一区二区天海翼| 久久99热在线观看7| JK白丝校花爽到娇喘视频| 午夜毛片在线观看| 棉袜足j吐奶视频| 国产精品久久久久久久久久影院| 在线高清电影理论片4399| 色狼亚洲色图| 酒色.com| 国产三级精品三级男人的天堂| 最近中文字幕在线中文高清版 | 97干97吻| 亚洲福利网站| 欧美性xxx极品| 九九久久久2| 帝王受PLAY龙椅高肉NP| 在线播放日韩欧美亚洲日本| 色婷婷粉嫩AV精品综合在线| 老人洗澡自拍xxx互摸| 国产乱辈通伦影片在线播放亚洲| 91精选国产| 亚洲视频精选| 婷婷精品国产亚洲AV在线观看 | 白丝美女被狂躁免费漫画| 亚洲欧美一区二区三区久久 | 一个人免费视频在线观看高清频道| 青青热久精品国产亚洲AV无码| 精品亚洲永久免费精品| 国产精品大陆在线视频|