色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據湖真的能取代數據倉庫嗎?【SNP SAP數據轉型 】

SNP中國 ? 來源:SNP中國 ? 作者:SNP中國 ? 2023-07-03 15:48 ? 次閱讀

數據湖和數據倉庫的存在并不沖突,也并不是取代的關系,而是相互的融合關系。

數據湖是近兩年中比較新的技術在大數據領域中,對于一個真正的數據湖應該是什么樣子,現在對數據湖認知還是處在探索的階段,像現在代表的開源產品iceberg、hudi、Delta Lake。

那對于數據湖應該是什么樣子,先來看數據湖的作者AWS來說明數據湖是什么東西,比如下圖:

wKgZomSifUeACvh7AADb-blUOi4238.jpg

圖片來源:談數據-探秘AWS數據湖

不懂數據的人也許會覺得數據湖很厲害,而懂數據的人也許會覺得僅是一堆數據倉庫技術的堆砌包裝而已,你看上面那張框架圖,哪個專業詞匯數據人士會不懂?憑什么數據湖被炒作成了一個新概念?

而對于數據湖的定義則是:

數據湖是一個集中式存儲庫,允許您以任意規模存儲所有結構化和非結構化數據。您可以按原樣存儲數據(無需先對數據進行結構化處理),并運行不同類型的分析 – 從控制面板和可視化到大數據處理、實時分析和機器學習,以指導做出更好的決策。

那么數據湖和我們早先的數據倉庫究竟有什么樣的區別呢:

數據倉庫是一個優化的數據庫,用于分析來自事務系統和業務線應用程序的關系數據。事先定義數據結構和 Schema 以優化快速 SQL 查詢,其中結果通常用于操作報告和分析。數據經過了清理、豐富和轉換,因此可以充當用戶可信任的“單一信息源”。

數據湖有所不同,因為它存儲來自業務線應用程序的關系數據,以及來自移動應用程序、IoT 設備和社交媒體的非關系數據。捕獲數據時,未定義數據結構或 Schema。這意味著您可以存儲所有數據,而不需要精心設計也無需知道將來您可能需要哪些問題的答案。您可以對數據使用不同類型的分析(如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習)來獲得見解。

wKgaomSifUiAOQh_AADN-mbIIbo634.jpg

從介紹來看好像數據倉庫和數據湖的最主要的區別就是對結構化的數據和非結構化數據的存儲,但是真的僅僅是這樣嗎?

事實上,這種比較有較大邏輯漏洞:即是從結果出發來看差異,然后又用這個差異來說明區別,顛倒了因果。比如AWS的數據湖能夠處理非結構化數據,而數據倉庫無法處理非結構化數據,就認為這是數據湖與數據倉庫的本質區別之一。

下面的文章中將來探索數據湖和數據倉庫究竟有什么樣的區別,學習一個新的事物要一步步的發現這個事物的本質是什么。

wKgaomSj2F6ADwVzAAHa-EwlwXA619.png

數據倉庫和數據湖的處理流程可以用下圖來示意,其中用紅圈標出了5個對標的流程節點。

wKgaomSifUmAfc37AACxOXOKjcs002.jpg

從圖中可以看出來數據湖并不比數據倉庫在處理流程上多出了什么內容,更多的在于結構性的變化,下面就從數據存儲、模型設計、加工工具、開發人員和消費人員五個方面來進行比較。

數據存儲

數據倉庫采集、處理過程中存儲下來的數據一般是以結構化的形式存在的,即使原始數據是非結構化的,但這些非結構化數據也只是在源頭暫存一下,它通過結構化數據的形式進入數據倉庫,成了數據倉庫的基本存儲格式,這個跟數據倉庫的模型(維度或關系建模)都是建立在關系型數據基礎上的特點有關。

事實上,是傳統的數據建模負擔讓數據倉庫只處理結構化數據,其實誰都沒規定過數據倉庫只處理和存儲結構化數據。

數據湖包羅萬象,輕裝上陣,結構化與非結構化數據都成為了數據湖本身的一部分,這體現了數據湖中“湖”這個概念。因為沒有數據倉庫建模的限制,當然什么東西都可以往里面扔,但這為其變成數據沼澤埋下了伏筆。

模型設計

數據倉庫中所有的Schema(比如表結構)都是預先設計并生成好的,數據倉庫建設最重要的工作就是建模,其通過封裝好的、穩定的模型對外提供有限的、標準化的數據服務,模型能否設計的高內聚、松耦合成了評估數據倉庫好壞的一個標準,就好比數據中臺非常強調數據服務的復用性一樣。

你會發現,數據倉庫很像數據領域的計劃經濟,所有的產品(模型)都是預先生成好的,模型可以變更,但相當緩慢。

數據湖的模型不是預先生成的,而是隨著每個應用的需要即時設計生成的,其更像是市場經濟的產物,犧牲了復用性卻帶來了靈活性,這也是為什么數據湖的應用更多強調探索分析的原因。

加工工具

數據倉庫的采集、處理工具一般是比較封閉的,很多采取代碼的方式暴力實現,大多只向集中的專業開發人員開放,主要的目的是實現數據的統一采集和建模,它不為消費者(應用方)服務,也沒這個必要。

數據湖的采集和處理工具是完全開放的,因為第(2)點提到過:數據湖的模型是由應用即席設計生成的,意味著應用必須具備針對數據湖數據的直接ETL能力和加工能力才能完成定制化模型的建設,否則就沒有落地的可能,更無靈活性可言。

工具能否開放、體驗是否足夠好是數據湖能夠成功的一個前提,顯然傳統數據倉庫的一些采集和開發工具是不行的,它們往往不可能向普通大眾開放。

開發人員

數據倉庫集中開發人員處理數據涵蓋了數據采集、存儲、加工等各個階段,其不僅要管理數據流,也要打造工具流。

由于數據流最終要為應用服務,因此其特別關注數據模型的質量,而工具流只要具備基本的功能、滿足性能要求就可以了,反正是數據倉庫團隊人員自己用,導致的后果是害苦了運營人員。

數據湖完全不一樣,集中開發人員在數據流階段只負責把原始數據扔到數據湖,更多的精力花在對工具流的改造上,因為這些工具是直接面向最終使用者的,假如不好用,數據湖就不能用了。

應用人員

數據倉庫對于應用人員暴露的所有東西就是建好的數據模型,應用方的所有角色只能在數據倉庫限定好的數據模型范圍內倒騰,這在一定程度上限制了應用方的創新能力。比如原始數據有個字段很有價值,但數據倉庫集中開發人員卻把它過濾了。

這種問題在數據倉庫中很常見,很多取數人員只會取寬表,對于源端數據完全不清楚,所謂成也數據倉庫,敗也數據倉庫。

數據湖的應用方則可以利用數據湖提供的工具流接觸到最生鮮的原始數據,涵蓋了從數據采集、抽取、存儲、加工的各個階段,其可以基于對業務的理解,壓榨出原始數據的最大價值。

可以看到,數據倉庫和數據湖,代表著兩種數據處理模式和服務模式,是數據技術領域的一次輪回。

早在ORACLE的DBLINK時代,我們就有了第一代的數據湖,因為那個時候ORACLE一統天下,ORALCE的DBLINK讓直接探索原始數據有了可能。

隨著數據量的增長和數據類型的不斷豐富,我們不得不搞出一種新的“數據庫”來集成各種數據。

但那個時候搞出的為什么是數據倉庫而不是數據湖呢?

主要還是應用驅動力的問題。

因為那個時候大家關注的是報表,而報表最核心的要求就是準確性和一致性,標準化、規范化的維度和關系建模正好適應了這一點,集中化的數據倉庫支撐模式就是一種變相的計劃經濟。

隨著大數據時代到來和數字化的發展,很多企業發現,原始數據的非結構化比例越來越高,前端應用響應的要求越來越高,海量數據挖掘的要求越來越對,報表取數已經滿足不了數據驅動業務的要求了。

wKgZomSifUqAe3fzAAU2Bj8UX0w931.jpg

一方面企業需要深挖各種數據,從展示數據為主(報表)逐步向挖掘數據(探索預測)轉變,另一方面企業也需要從按部就班的支撐模式向快速靈活的方向轉變,要求數據倉庫能夠開放更多的靈活性給應用方,這個時候數據倉庫就有點撐不住了。

數據湖就是在這種背景下誕生的。

其實早在數據湖出來之前,很多企業就在做類似數據湖的工作了,但是只不過大家更多的集中在數據倉庫結構化的數據處理中,對于非結構化的數據日志等更多的則是將其存儲起來,對于需要的時候再通過應用程序進行處理獲取到自己想要的結果,只不過是沒有系統化的處理而已。

ETL之所以不開放,主要是驅動力不夠,其實我們沒有那么多類型的數據要定制化抽取。

很多企業不搞可視化開發平臺也是容易理解的,報表就能活得很好,干嘛業務人員要自己開發和挖掘。現在數據湖叫的歡的,大多是互聯網公司,比如亞馬遜,這是很正常的。

而最近比較新的概念湖倉一體,阿里提出的概念,下面這張圖來看一下

wKgZomSifUuAQn_6AAB89u2t8wA124.jpg

何謂湖倉一體?

湖倉一體是一種新的數據管理模式,將數據倉庫和數據湖兩者之間的差異進行融合,并將數據倉庫構建在數據湖上,從而有效簡化了企業數據的基礎架構,提升數據存儲彈性和質量的同時還能降低成本,減小數據冗余。

湖和倉的數據/元數據無縫打通,互相補充,數據倉庫的模型反哺到數據湖(成為原始數據一部分),湖的結構化應用知識沉淀到數據倉庫。

湖倉一體架構主要的一點是實現“湖里”和“倉里”的數據能夠無縫打通,對數據倉庫的彈性和數據湖的靈活性進行有效集成,在該架構中,主要將數據湖作為中央存儲庫,將機器學習、數據倉庫、日志分析、大數據等技術進行整合,形成一套數據服務環,更好地分析、整合數據,讓數據倉庫和數據湖中的數據可以自由流動,用戶可以更便捷地調取其中的數據,讓數據“入湖”、“出湖”更為便捷。

湖倉一體化,是將數據倉庫和數據湖的價值進行疊加,克服數據重力,讓數據在服務之間流動起來,減少重復建設,讓湖中的數據可以”流到“數據倉中,并能直接進行數據調用;而數據倉中的數據也可以保存于數據湖中,供未來數據挖掘使用。借助湖倉一體化,可快速處理數倉內的熱數據與數據湖中的歷史數據,并生成豐富的數據集,但無需在執行中做任何數據移動操作。

那數據湖究竟應該是什么樣子,需要在接下來的發展中獲取到答案,但是以目前來看,典型的組織都需要數據倉庫和數據湖,因為它們可滿足不同的需求和使用訴求。所以數據湖和數據倉庫的存在并不沖突,也并不是取代的關系,而是相互的融合關系。


如何將ERP數據集成到數據倉庫、數據湖?

現在大家了解了數據湖與數據倉庫的區別,以及湖倉一體新的數據管理模式。那么如何將ERP系統數據實時并大批量地導出至數據湖、數據倉庫進行商業分析?SNP Glue軟件應運而生,它旨在通過實施先進的SAP數據集成,將客戶的數據平臺提升到一個新的水平。

Glue允許您將SAP數據如ERP(ECC 、S4/HANA)、BW、CRM/SCM、客戶ABAP應用程序、HANA數據等引入數據倉庫,幫助您實現實時復制提取SAP數據并放入您所期待的目標環境,無論是數據庫、數據湖、BI數據分析工具、或云解決方案。支持用例,將數據流實時傳輸到數據湖中以提供數據產品或支持基于事件的客戶應用程序。SNP Glue避免了供應商鎖定的風險。通過SAP、Google、Amazon、Microsoft、Snowflake和Cloudera認證

如想查看Glue如何將數據集成到數據平臺的Demo演示可以聯系SNP公司

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SAP
    SAP
    +關注

    關注

    1

    文章

    385

    瀏覽量

    21703
  • 數據管理
    +關注

    關注

    1

    文章

    300

    瀏覽量

    19646
  • 數據倉庫
    +關注

    關注

    0

    文章

    61

    瀏覽量

    10464
收藏 人收藏

    評論

    相關推薦

    戴爾數據倉助力企業數字化轉型

    在數字化轉型的浪潮下,企業正面臨著前所未有的數據挑戰。從傳統的結構化數據到如今的非結構化數據、半結構化數據,每一種類型都對企業的存儲和分析能
    的頭像 發表于 12-20 09:31 ?160次閱讀

    內部創新驅動:SNP啟動AI人工智能和云創新實驗室

    SNPSAP系統中數字化轉型、自動化數據遷移和數據管理軟件的知名提供商,該公司推出了一個人工智能和云創新實驗室。未來,來自不同學科和
    的頭像 發表于 11-18 09:15 ?178次閱讀

    強強聯合,生態合力 SNP TDO軟件成功入駐SAP應用商店

    近日SNP TDO(Test Data Organizer)軟件成功上架SAP應用商店(SAP Store), 全面為SAP用戶企業提供高效刷新及
    的頭像 發表于 10-21 09:21 ?239次閱讀

    SNP Meta研究:SAP S/4HANA遷移的深度分析與洞察

    SNPSAP 系統中數字化轉型、自動化數據遷移和數據管理軟件的知名提供商,在其新的 SAP
    的頭像 發表于 10-21 09:16 ?228次閱讀

    SNP在迪拜設立新辦事處:專注中東市場的SAP轉型支持

    新辦事處將使SNP能夠更好地服務于海灣合作委員會(GCC)市場,該市場被認為對轉型計劃具有重要的戰略意義。該辦事處與微軟、甲骨文和SAP等行業巨頭毗鄰,將容納一支專注于加強客戶關系和拓展中東地區
    的頭像 發表于 10-21 09:09 ?293次閱讀

    解鎖SAP數據的潛力:SNP Glue與SAP Datasphere的協同作用

    ,實現與基于云的數據倉庫數據的無縫連接。通過近乎實時的數據傳輸和增強的數據共享能力,企業可以更有效地管理內外部
    的頭像 發表于 09-11 17:23 ?396次閱讀
    解鎖<b class='flag-5'>SAP</b><b class='flag-5'>數據</b>的潛力:<b class='flag-5'>SNP</b> Glue與<b class='flag-5'>SAP</b> Datasphere的協同作用

    SNP亮相 2024 SAP高科技行業峰會:科技新引擎 智領新增長

    8月15日, 以“科技新引擎 智領新增長”為主題的2024思愛普中國峰會行業論壇——SAP高科技行業峰會在上海成功舉辦 。 SNP中國受邀參與本次峰會,并發表主題演講《云時代企業ERP升級創新實踐
    的頭像 發表于 08-26 10:12 ?408次閱讀
    <b class='flag-5'>SNP</b>亮相 2024 <b class='flag-5'>SAP</b>高科技行業峰會:科技新引擎 智領新增長

    SNP亮相2024 SAP裝備制造化工零售建筑與地產行業峰會

    成都,7月12日——由SAP在成都舉辦的 “SAP 裝備制造/化工/零售/建筑與地產行業峰會”盛大召開,SNP應邀參與本次峰會,并在乘云轉型分論壇發表演講《云時代企業ERP升級創新實踐
    的頭像 發表于 07-29 16:11 ?593次閱讀
    <b class='flag-5'>SNP</b>亮相2024 <b class='flag-5'>SAP</b>裝備制造化工零售建筑與地產行業峰會

    數據倉庫數據庫的主要區別

    數據倉庫數據庫是兩個在信息技術領域中常見的概念,它們在數據管理和分析方面發揮著重要作用。盡管它們在某些方面有相似之處,但它們在設計、目的和功能上存在顯著差異。本文將介紹數據倉庫
    的頭像 發表于 07-05 14:57 ?564次閱讀

    工業數據中臺的功能和應用場景

    。 實時數據流處理和批量數據處理。 2.數據存儲與管理: 提供分布式存儲解決方案,如Hadoop、HBase等。 數據
    的頭像 發表于 07-04 16:18 ?437次閱讀

    什么是數據數據數據倉庫有什么區別?

    從本質上說,數據就是一個信息資源庫。人們常常將數據數據倉庫混為一談,但兩者在架構和滿足的業務需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發表于 05-20 12:38 ?659次閱讀
    什么是<b class='flag-5'>數據</b><b class='flag-5'>湖</b>?<b class='flag-5'>數據</b><b class='flag-5'>湖</b>和<b class='flag-5'>數據倉庫</b>有什么區別?

    數據中臺、數據倉庫數據治理與主數據的定位與差異

    在數字化時代,大數據已經成為企業運營和決策的重要資產。為了更好地管理和利用這些數據數據中臺、數據倉庫數據治理和主
    的頭像 發表于 05-08 10:40 ?466次閱讀

    企業如何使用SNP Glue將SAP與Snowflake集成?

    客戶非常感興趣的數據目標之一是Snowflake。Snowflake是一個基于云的數據倉庫平臺,旨在處理和分析大量數據。它是一種軟件即服務(SaaS)解決方案,允許組織使用云基礎設施存儲、管理和分析
    的頭像 發表于 04-17 11:34 ?333次閱讀

    SNP Glue 數據集成整合創新SAP數據,釋放數據價值#SAP

    SAP數據集成
    snpgroup
    發布于 :2024年01月29日 23:43:31

    SNP干貨分享:SAP數據脫敏的具體實施步驟

    為什么談SAP數據脫敏? SAP進入中國市場超過30年,作為一個典型的德國思維的產品,我們很難找到另一個市值這么大的軟件,在過去的幾十年中,一直活的這么滋潤,沒有太多的挑戰,而且軟件本身的變化肉眼
    的頭像 發表于 01-29 23:41 ?514次閱讀
    <b class='flag-5'>SNP</b>干貨分享:<b class='flag-5'>SAP</b><b class='flag-5'>數據</b>脫敏的具體實施步驟
    主站蜘蛛池模板: 中文字幕蜜臀AV熟女人妻| 三级网站视频在线观看| 草莓视频在线播放视频| 亚洲视频免费| 色99蜜臀AV无码| 美国色吧影院| 国产一区精选播放022| yellow视频免费观看| 在线观看视频亚洲| 亚洲精品国产SUV| 涩涩涩涩爱网站| 欧美肥婆性生活| 伦理电影2499伦理片| 精品久久免费视频| 国产区在线不卡视频观看| 吃奶啃奶玩乳漫画| AV天堂AV亚洲啪啪久久无码| 在线观看国产日韩| 亚洲欧美综合中文| 羞羞影院午夜男女爽爽免费| 色狼亚洲色图| 欧美一夜爽爽爽爽爽爽| 秘密影院久久综合亚洲综合| 久久99国产精品自在自在| 国内精品久久| 国产精品伊人| 国产精品久久vr专区| 国产成人刺激视频在线观看| 暗卫受被肉到失禁各种PLAY| 97午夜伦伦电影理论片| 综合久久伊人| 有人在线观看的视频吗免费| 亚洲男人片片在线观看| 亚洲成年人影院| 亚洲AV无码国产精品色在线看| 三级黄色在线| 色播成人影院| 日韩精品无码免费专区| 日本免费一区二区三区最新vr | 欧美一第一页草草影院| 男女作爱在线播放免费网页版观看 |