色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于HBase的工業大數據存儲實戰

格創東智 ? 2018-12-27 22:17 ? 次閱讀


本文作者:格創東智大數據工程師王子超(轉載請注明作者及來源)




隨著工業4.0時代的到來,工業互聯網和企業的智能化、信息化都將不斷推進,傳統的工業實時數據庫和關系數據庫已經難以完全勝任工業大數據的存儲,HBase為代表的NoSQL數據庫正在蓬勃發展,其完全分布式特征、高性能、多副本和靈活的動態擴展等特點,使得HBase在工業大數據的存儲上擁有強大的優勢,打破了流程工業生產中的"數據壁壘"效應的瓶頸,可以促進工業生產水平和生產管理水平的提高。本期格物匯,就來給大家介紹HBase數據庫及格創東智相關實戰案例。


了解HBase

HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。HBASE的目標是存儲并處理大型的數據,更具體來說是僅需使用普通的硬件配置,就能夠處理由成千上萬的行和列所組成的大型數據。

HBASE是GoogleBigtable的開源實現,但是也有很多不同之處。比如:Google Bigtable使用GFS作為其文件存儲系統,HBASE利用HadoopHDFS作為其文件存儲系統;Google運行MAPREDUCE來處理Bigtable中的海量數據,HBASE同樣利用Hadoop MapReduce來處理HBASE中的海量數據;Google Bigtable利用Chubby作為協同服務,HBASE利用Zookeeper作為協同服務。

與傳統數據庫的相比,HBASE具備多重優勢

1)線性擴展,隨著數據量增多可以通過節點擴展進行支撐;

2)數據存儲在hdfs上,備份機制健全;

3)通過zookeeper協調查找數據,訪問速度快。

HBase實戰案例

為了更好的介紹 HBase 在人工智能場景下的使用,下面我們以某半導體顯示企業為案例,給大家分析格創東智大數據團隊如何利用 HBase 設計出一個快速查找面板特征的系統。


目前,該公司的業務場景里面有很多面板相關的特征數據,每張面板數據大概 3.2k。這些面板數據又被分成很多組,每個面板特征屬于某個組。組和面板的數據分布如下:

——43%左右的組含有1張面板數據;

——47%左右的組含有 2 ~9張面板數據;

——其余的組面板數范圍為 10 ~ 10000張。


現在的業務需求主要有以下兩類:

——根據組的 id 查找該組下面的所有面板數據;

——根據組 id +面板id 查找某個面板的具體數據。

原有方案:MySQL+OSS

之前業務數據量比較小的情況使用的存儲主要為 MySQL 以及 OSS(對象存儲)。相關表主要有面板組表group和面板表face。表的格式如下:


group表:

group_idsize
12


glass表:

glass_idgroup_idfeature
"TB7B3695BA05"1"CASBA"


其中 feature(特征)大小為3.2k,是二進制數據 base64 后存入的,這個就是真實的面板特征數據。現在面板組 id 和面板id 對應關系存儲在MySQL 中,對應上面的 group 表;面板 id 和面板相關的特征數據存儲在 OSS 里面,對應上面的 face 表。

因為每個面板組包含的玻璃特征數相差很大(1 ~ 10000),所以基于上面的表設計,我們需要將面板組以及每張面板特征id存儲在每一行,那么屬于同一個面板組的數據在MySQL 里面上實際上存儲了很多行。比如某個組id對應的特征數為10000,那么需要在MySQL 里面存儲 10000 行。

我們如果需要根據面板組 id 查找該組下面的所有面板,那么需要從 MySQL 中讀取很多行的數據,從中獲取到組和面板對應的關系,然后到 OSS 里面根據面板id獲取所有相關的特征數據。


這樣的查詢導致鏈路非常長。從上面的設計可看出,如果查詢的組包含的面板張數比較多的情況下,那么我們需要從 MySQL 里面掃描很多行,然后再從 OSS 里面拿到這些特征數據,整個查詢時間在10秒左右,遠遠不能滿足現有業務快速發展的需求。


HBase解決方案:

MySQL + OSS的設計方案有兩個問題:第一,原本屬于同一條數據的內容由于數據本身大小的原因無法存儲到一行里面,導致后續查下需要訪問兩個存儲系統;第二,由于MySQL不支持動態列的特性,所以屬于同一個面板組的數據被拆成多行存儲。


針對這兩個問題,格創東智的大數據團隊進行了分析,認為這是HBase 的典型場景,原因如下:

——HBase 擁有動態列的特性,支持萬億行,百萬列;

——HBase 支持多版本,所有的修改都會記錄在 HBase 中;

——HBase 2.0 引入了MOB(Medium-Sized Object)特性,支持小文件存儲。


HBase 的 MOB 特性針對文件大小在 1k~10MB 范圍的,比如圖片,短視頻,文檔等,具有低延遲,讀寫強一致,檢索能力強,水平易擴展等關鍵能力。


格創東智的大數據團隊使用這三個功能重新設計上面 MySQL + OSS 方案。結合應用場景的兩大查詢需求,將面板組 id 作為 HBase 的 Rowkey,在創建表的時候打開 MOB 功能,如下:

create'glass',{NAME=>'c',IS_MOB=>true,MOB_THRESHOLD=>2048}

上面我們創建了名為 glass 的表,IS_MOB屬性說明列簇 c 將啟用 MOB 特性,MOB_THRESHOLD是 MOB 文件大小的閾值,單位是字節,這里的設置說明文件大于 2k 的列都當做小文件存儲。大家可能注意到上面原始方案中采用了 OSS 對象存儲,那我們為什么不直接使用 OSS 存儲面板特征數據呢,如果有這個疑問,可以看看下面表的性能測試:


對比屬性對象存儲云 HBase
建模能力KVKV、表格、稀疏表、SQL、
全文索引、時空、時序、圖查詢
查詢能力前綴查找前綴查找、過濾器、索引
性能優,特別對小對象有更低的延遲;在復雜
查詢場景下,比對象存儲有10倍以上的性能提升
成本按流量,請求次數計費,托管式,在高并發,高吞吐場景有更低的成本
適合訪問頻率低的場景
擴展性
適用對象范圍通用<10MB


StringCF_DEFAULT="c";根據上面的對比,使用 HBase MOB特性來存儲小于10MB的對象相比直接使用對象存儲有一些優勢。
我們現在來看看具體的表設計,使用面板id作為列名。我們只使用了HBase 的一張表就替換了之前方面的三張表!雖然我們啟用了 MOB,但是具體插入的方法和正常使用一樣,代碼片段如下:

Putput=newPut(groupId.getBytes());
put.addColumn(
CF_DEFAULT.getBytes(),glassId1.getBytes(),feature1.getBytes());
put.addColumn(
CF_DEFAULT.getBytes(),glassId2.getBytes(),feature2.getBytes());
……
put.addColumn(
CF_DEFAULT.getBytes(),glassIdn.getBytes(),featuren.getBytes());
table.put(put);

用戶如果需要根據面板組id獲取所有面板數據,可以使用下面方法:

Getget=newGet(groupId.getBytes());
Resultre=table.
get(get);

這樣我們可以拿到某個組id對應的所有面板數據。如果需要根據組id+面板id查找某個面板的具體數據,看可以使用下面方法:

Getget=newGet(groupId.getBytes());
get.addColumn(CF_DEFAULT.getBytes(),glassId1.getBytes())
Resultre=table.
get(get);

經過上面的改造,在2臺 HBaseWorker 節點內存為32GB,核數為8,每個節點掛載四塊大小為 250GB 的 SSD 磁盤,并寫入100W 行,每行有1W列,讀取一行的時間在100ms-500毫秒左右。在每行有1000個face的情況下,讀取一行的時間基本在20-50毫秒左右,相比之前的10秒提升200~500倍。

從下面這張對比表,我們可以清楚的看到HBase方案的巨大優勢。

對比屬性對象存儲MySQL+對象存儲HBase MOB
讀寫強一致YNY
查詢能力
查詢響應時間
運維成本
水平擴展YYY


現在,我們已經將面板特征數據存儲在Cloudera HBase 之中,這個只是數據應用的第一步,如何將隱藏在這些數據背后的價值發揮出來?這就得借助于數據分析,在這個場景就需要采用機器學習的方法進行操作。我們可以借助大數據分析工具Spark 對存儲于 HBase 之中的數據進行分析,而且 Spark 本身支持機器學習的。最后,用戶就可以通過訪問 HBase 里面已經挖掘好的特征數據進行其他的應用了。



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能制造
    +關注

    關注

    48

    文章

    5611

    瀏覽量

    76462
  • 工業互聯網
    +關注

    關注

    28

    文章

    4328

    瀏覽量

    94215
  • Hbase
    +關注

    關注

    0

    文章

    27

    瀏覽量

    11193
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    7867
收藏 人收藏

    評論

    相關推薦

    緩存對大數據處理的影響分析

    緩存對大數據處理的影響顯著且重要,主要體現在以下幾個方面: 一、提高數據訪問速度 在大數據環境中,數據存儲通常采用分布式
    的頭像 發表于 12-18 09:45 ?225次閱讀

    西北工業大學OpenHarmony技術俱樂部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術指導委員會與西北工業大學共同舉辦的“西北工業大學OpenHarmony技術俱樂部成立大會”在
    的頭像 發表于 11-19 18:04 ?380次閱讀
    西北<b class='flag-5'>工業大</b>學OpenHarmony技術俱樂部正式揭牌成立

    raid 在大數據分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數據分析中的應用主要體現在提高存儲系統的性能、可靠性和容量上。以下是RAID在大數據分析中
    的頭像 發表于 11-12 09:44 ?287次閱讀

    智慧城市與大數據的關系

    的建設需要對海量的數據資源進行收集、整合、存儲與分析。大數據技術的應用,如智能感知、分布式存儲等,使得這些數據能夠被高效地處理和利用。 決策
    的頭像 發表于 10-24 15:27 ?825次閱讀

    云計算在大數據分析中的應用

    云計算在大數據分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數據分析中應用的介紹: 一、存儲和處理海量
    的頭像 發表于 10-24 09:18 ?572次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理超大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。Hadoop廣泛應用于各種場景,包括數據
    的頭像 發表于 10-08 15:12 ?182次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    工業數據中臺的功能和應用場景

    工業數據中臺是一個集數據采集、存儲、處理、分析和應用于一體的綜合性平臺,其主要功能和應用場景如下: 功能 1.數據采集與接入: 支持多種
    的頭像 發表于 07-04 16:18 ?437次閱讀

    大數據采集系統分為幾類

    大數據采集系統是大數據生態系統中的重要組成部分,它負責從各種數據源收集、整合和存儲數據。根據不同的數據
    的頭像 發表于 07-01 15:44 ?1671次閱讀

    工業大數據云平臺在設備預測性維護中的作用

    ,只有保證設備的安全穩定運行才能保障生產的持續,質量的可靠,提升企業產品競爭力。 因此,企業就需要加強對設備狀況的及時把握,并一定程度上實現工業設備預測性維護。為此,數之能提供的工業大數據云平臺可以全面接入
    的頭像 發表于 06-28 15:31 ?277次閱讀

    HBase集群數據在線遷移方案探索

    一、背景 訂單本地化系統目前一個月的訂單的讀寫已經切至jimkv存儲,對應的HBase集群已下線。但存儲全量數據HBase集群仍在使用,計
    的頭像 發表于 06-12 11:54 ?1206次閱讀
    <b class='flag-5'>HBase</b>集群<b class='flag-5'>數據</b>在線遷移方案探索

    工業大模型的五個基本問題

    工業業大模型是大模型為賦能工業應用所產生的產業新形態,是制造業數字化轉型3.0的重要載體,是一個新質體。
    發表于 04-23 16:04 ?763次閱讀
    <b class='flag-5'>工業大</b>模型的五個基本問題

    工業大數據發展面臨的問題

    工業大數據作為工業與數字經濟之間的橋梁紐帶,對加快工業數字化轉型、推進數實融合,支撐新型工業化建設意義重大。
    的頭像 發表于 04-16 11:52 ?590次閱讀

    大數據時代的存儲革命:理解分布式存儲系統

    在如今的大數據時代,全球數據量正在以指數型增長。據國際數據公司(IDC)預測,到2025年,全球數據量將增至175 ZB。這種海量的數據
    的頭像 發表于 03-07 15:40 ?461次閱讀

    分布式存儲與計算:大數據時代的解決方案

    分布式存儲和計算技術應運而生,并迅速成為處理大數據的首選方案。本文將深入探討分布式存儲和計算的概念、優勢及其在各個領域的應用情況。 1.分布式存儲和計算的概念與優勢 分布式
    的頭像 發表于 03-07 14:42 ?842次閱讀

    大數據技術是干嘛的 大數據核心技術有哪些

    大數據技術是指用來處理和存儲海量、多類型、高速的數據的一系列技術和工具。現如今,大數據已經滲透到各個行業和領域,對企業決策和業務發展起到了重要作用。本文將詳細介紹
    的頭像 發表于 01-31 11:07 ?3763次閱讀
    主站蜘蛛池模板: 亚洲精品无码午夜福利在线观看 | AV久久久囯产果冻传媒 | 精品国产精品人妻久久无码五月天 | 超碰免费视频caoporn | 在教室伦流澡到高潮H免费视频 | 91精品国产高清久久久久久 | 国产成人高清在线观看播放 | 亚洲精品色情婷婷在线播放 | 国产成人无码精品久久久影院 | 摸董事长的裤裆恋老小说 | 日韩精品真人荷官无码 | 99视频导航 | 色哦色哦哦色天天综合 | 日日a.v拍夜夜添久久免费 | 国产精品色午夜视频免费看 | 久久精品亚洲牛牛影视 | 青草国产超碰人人添人人碱 | 日本伦理电影聚 | 欧美丰满少妇久久无码精品 | 亚洲欧美无码2017在线 | 黄色三级在线 | 国产成人精品在视频 | 久久精品视频在线看99 | 久久99热狠狠色一区二区 | 51精品国产AV无码久久久 | 色视频色露露永久免费观看 | 国产精品久久久久久搜索 | 成人亚洲视频 | 免费精品国产人妻国语麻豆 | 蜜桃视频无码区在线观看 | 成片免费观看视频大全 | 国产成久久免费精品AV片天堂 | 扒开胸罩揉她的乳尖视频 | 成人在线精品视频 | 迈开腿让我看下你的小草莓声音 | 夜夜国产亚洲视频香蕉 | 被窝国产理论一二三影院 | 无人区在线日本高清免费 | 人淫阁| 97国产成人精品视频 | 善良的小峓子2在钱免费中文字 |