在eBay上存儲著上億種商品的信息,而且每天有數百萬種的新商品增加,因此需要用云系統來存儲和處理PB級別的數據,而Hadoop則是個很好的選擇。
Hadoop是建立在商業硬件上的容錯、可擴展、分布式的云計算框架,eBay利用Hadoop建立了一個大規模的集群系統—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:
1)Hadoop核心層,包括Hadoop運行時環境、一些通用設施和HDFS,其中文件系統為讀寫大塊數據而做了一些優化,如將塊的大小由128MB改為256MB。
2)MapReduce層,為開發和執行任務提供API和控件。
3)數據獲取層,現在數據獲取層的主要框架是HBase、Pig和Hive:
·HBase是根據Google BigTable開發的按列存儲的多維空間數據庫,通過維護數據的劃分和范圍提供有序的數據,其數據儲存在HDFS上。
·Pig(Latin)是提供加載、篩選、轉換、提取、聚集、連接、分組等操作的面向過程的語言,開發者使用Pig建立數據管道和數據工廠。
·Hive是用于建立數據倉庫的使用SQL語法的聲明性語言。對于開發者、產品經理和分析師來說,SQL接口使得Hive成為很好的選擇。
4)工具和加載庫層,UC4是eBay從多個數據源自動加載數據的企業級調度程序。加載庫有:統計庫(R)、機器學習庫(Mahout)、數學相關庫(Hama)和eBay自己開發的用于解析網絡日志的庫(Mobius)。
5)監視和警告層,Ganglia是分布式集群的監視系統,Nagios則用來警告一些關鍵事件如服務器不可達、硬盤已滿等。
eBay的企業服務器運行著64位的RedHat Linux:
·NameNode負責管理HDFS的主服務器;
·JobTracker負責任務的協調;
·HBaseMaster負責存儲HBase存儲的根信息,并且方便與數據塊或存取區域進行協調;
·ZooKeeper是保證HBase一致性的分布式鎖協調器。
用于存儲和計算的節點是1U大小的運行Cent OS的機器,每臺機器擁有2個四核處理器和2TB大小的存儲空間,每38~42個節點單元為一個rack,這組建成了高密度網格。有關網絡方面,頂層rack交換機到節點的帶寬為1Gbps,rack交換機到核心交換機的帶寬為40Gpbs。
這個集群是eBay內多個團隊共同使用的,包括產品和一次性任務。這里使用Hadoop公平調度器(Fair Scheduler)來管理分配、定義團隊的任務池、分配權限、限制每個用戶和組的并行任務、設置優先權期限和延遲調度。
▲數據流
數據流的具體處理過程如上圖所示,系統每天需要處理8TB至10TB的新數據,而Hadoop主要用于:
·基于機器學習的排序,使用Hadoop計算需要考慮多個因素(如價格、列表格式、賣家記錄、相關性)的排序函數,并需要添加新因素來驗證假設的擴展功能,以增強eBay物品搜索的相關性。
·對物品描述數據的挖掘,在完全無人監管的方式下使用數據挖掘和機器學習技術將物品描述清單轉化為與物品相關的鍵/值對,以擴大分類的覆蓋范圍。
·eBay的研究人員在系統構建和使用過程中遇到的挑戰及一些初步計劃有以下幾個方面:
·可擴展性,當前主系統的NameNode擁有擴展的功能,隨著集群的文件系統不斷增長,需要存儲大量的元數據,所以內存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內存量,可能的解決方案是使用等級結構的命名空間劃分,或者使用HBase和ZooKeeper聯合對元數據進行管理。
·有效性,NameNode的有效性對產品的工作負載很重要,開源社區提出了一些備用選擇,如使用檢查點和備份節點、從Secondary NameNode中轉移到Avatar節點、日志元數據復制技術等。eBay研究人員根據這些方法建立了自己的產品集群。
·數據挖掘,在存儲非結構化數據的系統上建立支持數據管理、數據挖掘和模式管理的系統。新的計劃提議將Hive的元數據和Owl添加到新系統中,并稱為Howl。eBay研究人員努力將這個系統聯系到分析平臺上去,這樣用戶可以很容易地在不同的數據系統中挖掘數據。
·數據移動,eBay研究人員考慮發布數據轉移工具,這個工具可以支持在不同的子系統如數據倉庫和HDFS之間進行數據的復制。
·策略,通過配額實現較好的歸檔、備份等策略(Hadoop現有版本的配額需要改進)。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。
·標準,eBay研究人員開發健壯的工具來為數據來源、消耗情況、預算情況、使用情況等進行度量。
同時eBay正在改變收集、轉換、使用數據的方式,以提供更好的商業智能服務。
-
數據
+關注
關注
8文章
7128瀏覽量
89361 -
機器學習
+關注
關注
66文章
8437瀏覽量
132892 -
Hadoop
+關注
關注
1文章
90瀏覽量
15998
發布評論請先 登錄
相關推薦
評論