色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

eBay利用Hadoop建立了一個大規模的集群系統—Athena

倩倩 ? 來源:IT168 ? 2020-03-20 11:03 ? 次閱讀

在eBay上存儲著上億種商品信息,而且每天有數百萬種的新商品增加,因此需要用云系統來存儲和處理PB級別的數據,而Hadoop則是個很好的選擇。

Hadoop是建立在商業硬件上的容錯、可擴展、分布式的云計算框架,eBay利用Hadoop建立了一個大規模的集群系統—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:

1)Hadoop核心層,包括Hadoop運行時環境、一些通用設施和HDFS,其中文件系統為讀寫大塊數據而做了一些優化,如將塊的大小由128MB改為256MB。

2)MapReduce層,為開發和執行任務提供API和控件。

3)數據獲取層,現在數據獲取層的主要框架是HBase、Pig和Hive:

·HBase是根據Google BigTable開發的按列存儲的多維空間數據庫,通過維護數據的劃分和范圍提供有序的數據,其數據儲存在HDFS上。

·Pig(Latin)是提供加載、篩選、轉換、提取、聚集、連接、分組等操作的面向過程的語言,開發者使用Pig建立數據管道和數據工廠。

·Hive是用于建立數據倉庫的使用SQL語法的聲明性語言。對于開發者、產品經理和分析師來說,SQL接口使得Hive成為很好的選擇。

4)工具和加載庫層,UC4是eBay從多個數據源自動加載數據的企業級調度程序。加載庫有:統計庫(R)、機器學習庫(Mahout)、數學相關庫(Hama)和eBay自己開發的用于解析網絡日志的庫(Mobius)。

5)監視和警告層,Ganglia是分布式集群的監視系統,Nagios則用來警告一些關鍵事件如服務器不可達、硬盤已滿等。

eBay的企業服務器運行著64位的RedHat Linux

·NameNode負責管理HDFS的主服務器;

·JobTracker負責任務的協調;

·HBaseMaster負責存儲HBase存儲的根信息,并且方便與數據塊或存取區域進行協調;

·ZooKeeper是保證HBase一致性的分布式鎖協調器。

用于存儲和計算的節點是1U大小的運行Cent OS的機器,每臺機器擁有2個四核處理器和2TB大小的存儲空間,每38~42個節點單元為一個rack,這組建成了高密度網格。有關網絡方面,頂層rack交換機到節點的帶寬為1Gbps,rack交換機到核心交換機的帶寬為40Gpbs。

這個集群是eBay內多個團隊共同使用的,包括產品和一次性任務。這里使用Hadoop公平調度器(Fair Scheduler)來管理分配、定義團隊的任務池、分配權限、限制每個用戶和組的并行任務、設置優先權期限和延遲調度。

▲數據流

數據流的具體處理過程如上圖所示,系統每天需要處理8TB至10TB的新數據,而Hadoop主要用于:

·基于機器學習的排序,使用Hadoop計算需要考慮多個因素(如價格、列表格式、賣家記錄、相關性)的排序函數,并需要添加新因素來驗證假設的擴展功能,以增強eBay物品搜索的相關性。

·對物品描述數據的挖掘,在完全無人監管的方式下使用數據挖掘和機器學習技術將物品描述清單轉化為與物品相關的鍵/值對,以擴大分類的覆蓋范圍。

·eBay的研究人員在系統構建和使用過程中遇到的挑戰及一些初步計劃有以下幾個方面:

·可擴展性,當前主系統的NameNode擁有擴展的功能,隨著集群的文件系統不斷增長,需要存儲大量的元數據,所以內存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內存量,可能的解決方案是使用等級結構的命名空間劃分,或者使用HBase和ZooKeeper聯合對元數據進行管理。

·有效性,NameNode的有效性對產品的工作負載很重要,開源社區提出了一些備用選擇,如使用檢查點和備份節點、從Secondary NameNode中轉移到Avatar節點、日志元數據復制技術等。eBay研究人員根據這些方法建立了自己的產品集群。

·數據挖掘,在存儲非結構化數據的系統上建立支持數據管理、數據挖掘和模式管理的系統。新的計劃提議將Hive的元數據和Owl添加到新系統中,并稱為Howl。eBay研究人員努力將這個系統聯系到分析平臺上去,這樣用戶可以很容易地在不同的數據系統中挖掘數據。

·數據移動,eBay研究人員考慮發布數據轉移工具,這個工具可以支持在不同的子系統如數據倉庫和HDFS之間進行數據的復制。

·策略,通過配額實現較好的歸檔、備份等策略(Hadoop現有版本的配額需要改進)。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。

·標準,eBay研究人員開發健壯的工具來為數據來源、消耗情況、預算情況、使用情況等進行度量。

同時eBay正在改變收集、轉換、使用數據的方式,以提供更好的商業智能服務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7128

    瀏覽量

    89361
  • 機器學習
    +關注

    關注

    66

    文章

    8437

    瀏覽量

    132892
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    15998
收藏 人收藏

    評論

    相關推薦

    Hadoop 生態系統在大數據處理中的應用與實踐

    基礎。它將大文件分割成多個數據塊,存儲在不同節點上,實現高容錯性和高擴展性。NameNode 負責管理文件系統命名空間和元數據,DataNode 負責實際數據存儲。上傳文件時,HDFS 自動將文件切塊并分配到不同 DataNode,確保數據可靠性。 MapReduce 是分布式計算模型,用于
    的頭像 發表于 01-21 17:48 ?64次閱讀

    使用EMBark進行大規模推薦系統訓練Embedding加速

    推薦系統是互聯網行業的核心系統,如何高效訓練推薦系統是各公司關注的核心問題。目前,推薦系統基本上都是基于深度學習的大規模 ID 類模型,模型
    的頭像 發表于 10-31 14:46 ?239次閱讀
    使用EMBark進行<b class='flag-5'>大規模</b>推薦<b class='flag-5'>系統</b>訓練Embedding加速

    FPGA仿真黑科技\"EasyGo Vs Addon \",助力大規模電力電子系統仿真

    ,可以搭建多電機系統、電力電子系統等包含開關器件的系統模型。依托強大的FPGA資源,最大可仿真240關鍵元件的電力電子系統,使得更
    發表于 10-23 18:18

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    背景 Hadoop由Apache基金會所開發的分布式系統基礎架構,它允許用戶在不需要深入了解分布式底層細節的情況下,開發分布式程序。Hadoo
    的頭像 發表于 10-08 15:12 ?179次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b>大數據應用構建-提升數據價值<b class='flag-5'>利用</b>效能

    中國移動智算中心(哈爾濱)成為最大單集群智算中心

    9月6日最新資訊,中國移動智算中心(哈爾濱)正式宣告投入運營,這里程碑事件不僅標志著中國移動在智能計算領域的又重大突破,更確立了其在全球運營商中擁有最大規模
    的頭像 發表于 09-06 15:33 ?911次閱讀

    中國電信上海、北京兩萬卡集群已經投產

    中國電信在智算領域的發展迎來重要里程碑。近日,中國電信宣布,其上海、北京兩萬卡智算集群已正式投產運行,標志著中國電信在構建大規模智算能力方面取得了顯著進展。
    的頭像 發表于 08-09 17:47 ?793次閱讀

    燧原科技與清程極智攜手共創AI未來:共筑超大規模智算集群新篇章

    協議,雙方將攜手步入全新的合作階段,共同探索并開發面向超萬億參數大模型和超大規模集群的高性能系統軟件方案,標志著雙方在推動AI技術邊界、加速產業智能化進程上邁出了堅實的步。
    的頭像 發表于 07-05 14:50 ?844次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的無監督圖像識別類腦計算系統

    存為128GB DDR3。 5.ARM:ARM A9處理器主頻為667MHz,2核心,內存為1GB DDR3。 6.FPGA集群系統:FPGA集群包含8Xilinx ZYNQ 70
    發表于 06-25 18:35

    高性能計算集群的能耗優化

    高性能計算(HighPerformanceComputing,HPC)是指利用大規模并行計算機集群來解決復雜的科學和工程問題的技術。高性能計算集群的應用領域非常廣泛,包括天氣預報、生物
    的頭像 發表于 05-25 08:27 ?483次閱讀
    高性能計算<b class='flag-5'>集群</b>的能耗優化

    北京:規劃建設支撐萬億級參數大模型訓練需求的超大規模智算集群

    ”局面,集中建設批智算單一大集群,到2025年,本市智算供給規模達到45EFLOPS,2025-2027年根據人工智能大模型發展需要和國家相關部署進步優化算力布局
    的頭像 發表于 04-29 08:26 ?344次閱讀
    北京:規劃建設支撐萬億級參數大模型訓練需求的超<b class='flag-5'>大規模</b>智算<b class='flag-5'>集群</b>

    專用集成電路都是大規模的嗎為什么呢

    的集成度和性能優勢。然而,并非所有專用集成電路都是大規模的,因為集成度的大小取決于設計和制造的要求。 在探討專用集成電路是否大規模之前,我們首先需要了解什么是大規模集成電路(Very Large Scale Integratio
    的頭像 發表于 04-21 09:15 ?564次閱讀

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    ,在大模型實踐和理論研究的過程中,歷時8月完成 《大規模語言模型:從理論到實踐》 書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,并解決相關技術問題。 本書經上市,
    發表于 03-11 15:16

    中國電信規劃在上海建設首個國產超大規模算力液冷集群

    中國電信規劃建設首個國產超大規模算力液冷集群 人工智能技術的快速發展催生了巨大的算力需求;中國電信規劃在上海規劃建設可支持萬億參數大模型訓練的智算集群中心。其中會搭載液冷技術,單池新建國產算力達10000卡,也是首個支持單池萬卡
    的頭像 發表于 02-22 18:48 ?1353次閱讀

    Hadoop是什么?其核心由兩大部分組成,分別是什么?

    Hadoop開源的分布式計算框架,它可以處理大規模數據集并能夠在通常由計算機集群或者計算機網絡上的數千臺計算機上并行運行。
    的頭像 發表于 02-05 10:52 ?1948次閱讀

    大規模儲能-堿性水系鈉離子電池開發

    當前,對大規模儲能的需求不斷增長,推動了具有安全性、環保性和低成本的電池系統的開發。
    的頭像 發表于 01-24 09:29 ?1334次閱讀
    <b class='flag-5'>大規模</b>儲能-堿性水系鈉離子電池開發
    主站蜘蛛池模板: 午夜向日葵视频在线观看| qvod在线观看| 黄色网址在线播放| 一本道mw高清码二区三区| 久久中文字幕无线观看| 91精品国产免费入口| 日本特黄网站| 红番阁免费观看| 99RE8国产这里只有精品| 日本最新在线不卡免费视频| 国产精品悠悠久久人妻精品| 婬香婬色天天视频| 人C交ZZZ0OOZZZ000| 國產麻豆AVMDXMDX| avav去吧| 亚洲精品视频久久| 欧美兽交YOYO| 国产做国产爱免费视频| BLACKED太粗太长| 亚洲色欲国产AV精品综合| 欧美亚洲精品一区二三区8V| 国产日韩亚洲专区无码| aaa级黄影片| 亚洲日韩中文字幕日本有码| 欧美亚洲精品午夜福利AV| 红杏俱乐部| 高清无码中文字幕影片| 中文乱码35页在线观看| 无码人妻精品一区二区蜜桃色欲| 美女扒开尿口直播| 国产亚洲精品久久久久久一区二区| 97人人添人人澡人人澡人人澡| 亚洲AV无码乱码A片无码蜜桃| 免费国产成人手机在线观看| 国产亚洲欧美ai在线看片| ava云直播| 中文字幕久精品视频在线观看| 午夜福利网国产A| 全免费a级毛片免费看| 久久黄色录像| 国产亚洲精品久久久久久入口|