詳解MapReduce的模式、算法和用例 - 全文

前言

? ? ? ?本文總結(jié)了幾種網(wǎng)上或者論文中常見的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術的不同之處。所有描述性的文字和代碼都使用了標準hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。詳細分析如下所示。

基本MapReduce模式

計數(shù)與求和

問題陳述：有許多文檔，每個文檔都有一些字段組成。需要計算出每個字段在所有文檔中的出現(xiàn)次數(shù)或者這些字段的其他什么統(tǒng)計值。例如，給定一個log文件，其中的每條記錄都包含一個響應時間，需要計算出平均響應時間。

解決方案：

讓我們先從簡單的例子入手。在下面的代碼片段里，Mapper每遇到指定詞就把頻次記1，Reducer一個個遍歷這些詞的集合然后把他們的頻次加和。

? 詳解MapReduce的模式、算法和用例

這種方法的缺點顯而易見，Mapper提交了太多無意義的計數(shù)。它完全可以通過先對每個文檔中的詞進行計數(shù)從而減少傳遞給Reducer的數(shù)據(jù)量：

? 詳解MapReduce的模式、算法和用例

如果要累計計數(shù)的的不只是單個文檔中的內(nèi)容，還包括了一個Mapper節(jié)點處理的所有文檔，那就要用到Combiner了：

? 詳解MapReduce的模式、算法和用例

應用：

Log 分析，數(shù)據(jù)查詢

整理歸類

問題陳述：

有一系列條目，每個條目都有幾個屬性，要把具有同一屬性值的條目都保存在一個文件里，或者把條目按照屬性值分組。最典型的應用是倒排索引。

解決方案：

解決方案很簡單。在 Mapper 中以每個條目的所需屬性值作為 key，其本身作為值傳遞給 Reducer。 Reducer 取得按照屬性值分組的條目，然后可以處理或者保存。如果是在構建倒排索引，那么每個條目相當于一個詞而屬性值就是詞所在的文檔ID。

應用：

倒排索引， ETL

過濾（文本查找），解析和校驗

問題陳述：

假設有很多條記錄，需要從其中找出滿足某個條件的所有記錄，或者將每條記錄傳換成另外一種形式（轉(zhuǎn)換操作相對于各條記錄獨立，即對一條記錄的操作與其他記錄無關）。像文本解析、特定值抽取、格式轉(zhuǎn)換等都屬于后一種用例。

解決方案：

非常簡單，在Mapper 里逐條進行操作，輸出需要的值或轉(zhuǎn)換后的形式。

應用：

日志分析，數(shù)據(jù)查詢，ETL，數(shù)據(jù)校驗

分布式任務執(zhí)行

問題陳述：

大型計算可以分解為多個部分分別進行然后合并各個計算的結(jié)果以獲得最終結(jié)果。

解決方案：將數(shù)據(jù)切分成多份作為每個 Mapper 的輸入，每個Mapper處理一份數(shù)據(jù)，執(zhí)行同樣的運算，產(chǎn)生結(jié)果，Reducer把多個Mapper的結(jié)果組合成一個。

案例研究：數(shù)字通信系統(tǒng)模擬

像 WiMAX 這樣的數(shù)字通信模擬軟件通過系統(tǒng)模型來傳輸大量的隨機數(shù)據(jù)，然后計算傳輸中的錯誤幾率。每個 Mapper 處理樣本 1/N 的數(shù)據(jù)，計算出這部分數(shù)據(jù)的錯誤率，然后在 Reducer 里計算平均錯誤率。

應用：

工程模擬，數(shù)字分析，性能測試

排序

問題陳述：

有許多條記錄，需要按照某種規(guī)則將所有記錄排序或是按照順序來處理記錄。

解決方案：簡單排序很好辦 – Mappers 將待排序的屬性值為鍵，整條記錄為值輸出。不過實際應用中的排序要更加巧妙一點，這就是它之所以被稱為MapReduce 核心的原因（“核心”是說排序？因為證明Hadoop計算能力的實驗是大數(shù)據(jù)排序？還是說Hadoop的處理過程中對key排序的環(huán)節(jié)？）。在實踐中，常用組合鍵來實現(xiàn)二次排序和分組。

MapReduce 最初只能夠?qū)︽I排序，但是也有技術利用可以利用Hadoop 的特性來實現(xiàn)按值排序。想了解的話可以看這篇博客。

按照BigTable的概念，使用 MapReduce來對最初數(shù)據(jù)而非中間數(shù)據(jù)排序，也即保持數(shù)據(jù)的有序狀態(tài)更有好處，必須注意這一點。換句話說，在數(shù)據(jù)插入時排序一次要比在每次查詢數(shù)數(shù)據(jù)的時候排序更高效。

應用：

ETL，數(shù)據(jù)分析
#e#

非基本 MapReduce 模式

迭代消息傳遞（圖處理）

問題陳述：

假設一個實體網(wǎng)絡，實體之間存在著關系。需要按照與它比鄰的其他實體的屬性計算出一個狀態(tài)。這個狀態(tài)可以表現(xiàn)為它和其它節(jié)點之間的距離，存在特定屬性的鄰接點的跡象，鄰域密度特征等等。

解決方案：

網(wǎng)絡存儲為系列節(jié)點的結(jié)合，每個節(jié)點包含有其所有鄰接點ID的列表。按照這個概念，MapReduce 迭代進行，每次迭代中每個節(jié)點都發(fā)消息給它的鄰接點。鄰接點根據(jù)接收到的信息更新自己的狀態(tài)。當滿足了某些條件的時候迭代停止，如達到了最大迭代次數(shù)（網(wǎng)絡半徑）或兩次連續(xù)的迭代幾乎沒有狀態(tài)改變。從技術上來看，Mapper 以每個鄰接點的ID為鍵發(fā)出信息，所有的信息都會按照接受節(jié)點分組，reducer 就能夠重算各節(jié)點的狀態(tài)然后更新那些狀態(tài)改變了的節(jié)點。下面展示了這個算法：

class Mapper

method Map（id n， object N）

Emit（id n， object N）

for all id m in N.OutgoingRelations do

Emit（id m， message getMessage（N））

class Reducer

method Reduce（id m，［s1， s2，。..］）

M = null

messages = ［］

for all s in ［s1， s2，。..］ do

if IsObject（s） then

M = s

else // s is a message

messages.add（s）

M.State = calculateState（messages）

Emit（id m， item M）

一個節(jié)點的狀態(tài)可以迅速的沿著網(wǎng)絡傳全網(wǎng)，那些被感染了的節(jié)點又去感染它們的鄰居，整個過程就像下面的圖示一樣：

案例研究：沿分類樹的有效性傳遞

問題陳述：

這個問題來自于真實的電子商務應用。將各種貨物分類，這些類別可以組成一個樹形結(jié)構，比較大的分類（像男人、女人、兒童）可以再分出小分類（像男褲或女裝），直到不能再分為止（像男式藍色牛仔褲）。這些不能再分的基層類別可以是有效（這個類別包含有貨品）或者已無效的（沒有屬于這個分類的貨品）。如果一個分類至少含有一個有效的子分類那么認為這個分類也是有效的。我們需要在已知一些基層分類有效的情況下找出分類樹上所有有效的分類。

解決方案：

這個問題可以用上一節(jié)提到的框架來解決。我們咋下面定義了名為 getMessage和 calculateState 的方法：

class N

State in {True = 2， False = 1， null = 0}，

initialized 1 or 2 for end-of-line categories， 0 otherwise

method getMessage（object N）

return N.State

method calculateState（state s， data ［d1， d2，。..］）

return max（［d1， d2，。..］）

案例研究：廣度優(yōu)先搜索

問題陳述：需要計算出一個圖結(jié)構中某一個節(jié)點到其它所有節(jié)點的距離。

解決方案： Source源節(jié)點給所有鄰接點發(fā)出值為0的信號，鄰接點把收到的信號再轉(zhuǎn)發(fā)給自己的鄰接點，每轉(zhuǎn)發(fā)一次就對信號值加1：

class N

State is distance，

initialized 0 for source node， INFINITY for all other nodes

method getMessage（N）

return N.State + 1

method calculateState（state s， data ［d1， d2，。..］）

min（［d1， d2，。..］）

案例研究：網(wǎng)頁排名和 Mapper 端數(shù)據(jù)聚合

這個算法由Google提出，使用權威的PageRank算法，通過連接到一個網(wǎng)頁的其他網(wǎng)頁來計算網(wǎng)頁的相關性。真實算法是相當復雜的，但是核心思想是權重可以傳播，也即通過一個節(jié)點的各聯(lián)接節(jié)點的權重的均值來計算節(jié)點自身的權重。

class N

State is PageRank

method getMessage（object N）

return N.State / N.OutgoingRelations.size（）

method calculateState（state s， data ［d1， d2，。..］）

return （ sum（［d1， d2，。..］））

要指出的是上面用一個數(shù)值來作為評分實際上是一種簡化，在實際情況下，我們需要在Mapper端來進行聚合計算得出這個值。下面的代碼片段展示了這個改變后的邏輯（針對于 PageRank 算法）：

class Mapper

method Initialize

H = new AssociativeArray

method Map（id n， object N）

p = N.PageRank / N.OutgoingRelations.size（）

Emit（id n， object N）

for all id m in N.OutgoingRelations do

H{m} = H{m} + p

method Close

for all id n in H do

Emit（id n， value H{n}）

class Reducer

method Reduce（id m，［s1， s2，。..］）

M = null

p = 0

for all s in ［s1， s2，。..］ do

if IsObject（s） then

M = s

else

p = p + s

M.PageRank = p

Emit（id m， item M）

應用：

圖分析，網(wǎng)頁索引
#e#

值去重（對唯一項計數(shù)）

問題陳述：記錄包含值域F和值域 G，要分別統(tǒng)計相同G值的記錄中不同的F值的數(shù)目（相當于按照 G分組）。

這個問題可以推而廣之應用于分面搜索（某些電子商務網(wǎng)站稱之為Narrow Search）

Record 1： F=1， G={a， b}

Record 2： F=2， G={a， d， e}

Record 3： F=1， G={b}

Record 4： F=3， G={a， b}

Result：

a -》 3 // F=1， F=2， F=3

b -》 2 // F=1， F=3

d -》 1 // F=2

e -》 1 // F=2

解決方案 I：

第一種方法是分兩個階段來解決這個問題。第一階段在Mapper中使用F和G組成一個復合值對，然后在Reducer中輸出每個值對，目的是為了保證F值的唯一性。在第二階段，再將值對按照G值來分組計算每組中的條目數(shù)。

第一階段：

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］］）

for all category g in ［g1， g2，。..］

Emit（record ［g， f］， count 1）

class Reducer

method Reduce（record ［g， f］， counts ［n1， n2，。..］）

Emit（record ［g， f］， null ）

第二階段：

class Mapper

method Map（record ［f， g］， null）

Emit（value g， count 1）

class Reducer

method Reduce（value g， counts ［n1， n2，。..］）

Emit（value g， sum（［n1， n2，。..］））

解決方案 II：

第二種方法只需要一次MapReduce 即可實現(xiàn)，但擴展性不強。算法很簡單-Mapper 輸出值和分類，在Reducer里為每個值對應的分類去重然后給每個所屬的分類計數(shù)加1，最后再在Reducer結(jié)束后將所有計數(shù)加和。這種方法適用于只有有限個分類，而且擁有相同F(xiàn)值的記錄不是很多的情況。例如網(wǎng)絡日志處理和用戶分類，用戶的總數(shù)很多，但是每個用戶的事件是有限的，以此分類得到的類別也是有限的。值得一提的是在這種模式下可以在數(shù)據(jù)傳輸?shù)絉educer之前使用Combiner來去除分類的重復值。

class Mapper

method Map（null， record ［value f， categories ［g1， g2，。..］）

for all category g in ［g1， g2，。..］

Emit（value f， category g）

class Reducer

method Initialize

H = new AssociativeArray ： category -》 count

method Reduce（value f， categories ［g1， g2，。..］）

［g1‘， g2’，。.］ = ExcludeDuplicates（［g1， g2，。.］）

for all category g in ［g1‘， g2’，。..］

H{g} = H{g} + 1

method Close

for all category g in H do

Emit（category g， count H{g}）

應用：

日志分析，用戶計數(shù)

互相關

問題陳述：有多個各由若干項構成的組，計算項兩兩共同出現(xiàn)于一個組中的次數(shù)。假如項數(shù)是N，那么應該計算N*N。

這種情況常見于文本分析（條目是單詞而元組是句子），市場分析（購買了此物的客戶還可能購買什么）。如果N*N小到可以容納于一臺機器的內(nèi)存，實現(xiàn)起來就比較簡單了。

配對法

第一種方法是在Mapper中給所有條目配對，然后在Reducer中將同一條目對的計數(shù)加和。但這種做法也有缺點：

· 使用 combiners 帶來的的好處有限，因為很可能所有項對都是唯一的

· 不能有效利用內(nèi)存

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

for all item j in ［i1， i2，。..］

Emit（pair ［i j］， count 1）

class Reducer

method Reduce（pair ［i j］， counts ［c1， c2，。..］）

s = sum（［c1， c2，。..］）

Emit（pair［i j］， count s）

Stripes Approach（條方法？不知道這個名字怎么理解）

第二種方法是將數(shù)據(jù)按照pair中的第一項來分組，并維護一個關聯(lián)數(shù)組，數(shù)組中存儲的是所有關聯(lián)項的計數(shù)。The second approach is to group data by the first item in pair and maintain an associative array （“stripe”） where counters for all adjacent items are accumulated. Reducer receives all stripes for leading item i， merges them， and emits the same result as in the Pairs approach.

· 中間結(jié)果的鍵數(shù)量相對較少，因此減少了排序消耗。

· 可以有效利用 combiners。

· 可在內(nèi)存中執(zhí)行，不過如果沒有正確執(zhí)行的話也會帶來問題。

· 實現(xiàn)起來比較復雜。

· 一般來說， “stripes” 比 “pairs” 更快

class Mapper

method Map（null， items ［i1， i2，。..］）

for all item i in ［i1， i2，。..］

H = new AssociativeArray ： item -》 counter

for all item j in ［i1， i2，。..］

H{j} = H{j} + 1

Emit（item i， stripe H）

class Reducer

method Reduce（item i， stripes ［H1， H2，。..］）

H = new AssociativeArray ： item -》 counter

H = merge-sum（［H1， H2，。..］）

for all item j in H.keys（）

Emit（pair ［i j］， H{j}）

應用：

文本分析，市場分析

References：

1. Lin J. Dyer C. Hirst G. Data Intensive Processing MapReduce

用MapReduce 表達關系模式

在這部分我們會討論一下怎么使用MapReduce來進行主要的關系操作。

篩選（Selection）

class Mapper

method Map（rowkey key， tuple t）

if t satisfies the predicate

Emit（tuple t， null）

投影（Projection）

投影只比篩選稍微復雜一點，在這種情況下我們可以用Reducer來消除可能的重復值

class Mapper

method Map（rowkey key， tuple t）

tuple g = project（t） // extract required fields to tuple g

Emit（tuple g， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of nulls

Emit（tuple t， null）

合并（Union）

兩個數(shù)據(jù)集中的所有記錄都送入Mapper，在Reducer里消重。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， null）

class Reducer

method Reduce（tuple t， array n） // n is an array of one or two nulls

Emit（tuple t， null）

交集（Intersection）

將兩個數(shù)據(jù)集中需要做交叉的記錄輸入Mapper，Reducer 輸出出現(xiàn)了兩次的記錄。因為每條記錄都有一個主鍵，在每個數(shù)據(jù)集中只會出現(xiàn)一次，所以這樣做是可行的。

差異（Difference）

假設有兩個數(shù)據(jù)集R和S，我們要找出R與S的差異。Mapper將所有的元組做上標記，表明他們來自于R還是S，Reducer只輸出那些存在于R中而不在S中的記錄。

class Mapper

method Map（rowkey key， tuple t）

Emit（tuple t， string t.SetName） // t.SetName is either ‘R’ or ‘S’

class Reducer

method Reduce（tuple t， array n） // array n can be ［‘R’］，［‘S’］，［‘R’ ‘S’］， or ［‘S’， ‘R’］

if n.size（） = 1 and n［1］ = ‘R’

Emit（tuple t， null）

分組聚合（GroupBy and Aggregation）

分組聚合可以在如下的一個MapReduce中完成。Mapper抽取數(shù)據(jù)并將之分組聚合，Reducer 中對收到的數(shù)據(jù)再次聚合。典型的聚合應用比如求和與最值可以以流的方式進行計算，因而不需要同時保有所有的值。但是另外一些情景就必須要兩階段MapReduce，前面提到過的惟一值模式就是一個這種類型的例子。

連接（Joining）

MapperReduce框架可以很好地處理連接，不過在面對不同的數(shù)據(jù)量和處理效率要求的時候還是有一些技巧。在這部分我們會介紹一些基本方法，在后面的參考文檔中還列出了一些關于這方面的專題文章。

分配后連接（Reduce端連接，排序-合并連接）

這個算法按照鍵K來連接數(shù)據(jù)集R和L。Mapper 遍歷R和L中的所有元組，以K為鍵輸出每一個標記了來自于R還是L的元組，Reducer把同一個K的數(shù)據(jù)分裝入兩個容器（R和L），然后嵌套循環(huán)遍歷兩個容器中的數(shù)據(jù)以得到交集，最后輸出的每一條結(jié)果都包含了R中的數(shù)據(jù)、L中的數(shù)據(jù)和K。這種方法有以下缺點：

· Mapper要輸出所有的數(shù)據(jù)，即使一些key只會在一個集合中出現(xiàn)。

· Reducer 要在內(nèi)存中保有一個key的所有數(shù)據(jù)，如果數(shù)據(jù)量打過了內(nèi)存，那么就要緩存到硬盤上，這就增加了硬盤IO的消耗。

盡管如此，再分配連接方式仍然是最通用的方法，特別是其他優(yōu)化技術都不適用的時候。

class Mapper

method Map（null， tuple ［join_key k， value v1， value v2，。..］）

Emit（join_key k， tagged_tuple ［set_name tag， values ［v1， v2，。..］］）

class Reducer

method Reduce（join_key k， tagged_tuples ［t1， t2，。..］）

H = new AssociativeArray ： set_name -》 values

for all tagged_tuple t in ［t1， t2，。..］ // separate values into 2 arrays

H{t.tag}.add（t.values）

for all values r in H{‘R’} // produce a cross-join of the two arrays

for all values l in H{‘L’}

Emit（null，［k r l］）

復制鏈接Replicated Join （Mapper端連接， Hash 連接）

在實際應用中，將一個小數(shù)據(jù)集和一個大數(shù)據(jù)集連接是很常見的（如用戶與日志記錄）。假定要連接兩個集合R和L，其中R相對較小，這樣，可以把R分發(fā)給所有的Mapper，每個Mapper都可以載入它并以連接鍵來索引其中的數(shù)據(jù)，最常用和有效的索引技術就是哈希表。之后，Mapper遍歷L，并將其與存儲在哈希表中的R中的相應記錄連接，。這種方法非常高效，因為不需要對L中的數(shù)據(jù)排序，也不需要通過網(wǎng)絡傳送L中的數(shù)據(jù)，但是R必須足夠小到能夠分發(fā)給所有的Mapper。

class Mapper

method Initialize

H = new AssociativeArray ： join_key -》 tuple from R

R = loadR（）

for all ［ join_key k， tuple ［r1， r2，。..］］ in R

H{k} = H{k}.append（［r1， r2，。..］）

method Map（join_key k， tuple l）

for all tuple r in H{k}

Emit（null， tuple ［k r l］）

閱讀全文

上一頁 1 2 3全文

MapReduce框架(1000) MapReduce框架(1000)

MapReduce實例開發(fā)指南

MapReduce實例——wordcount（單詞統(tǒng)計）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實戰(zhàn)之MapReduce運算優(yōu)化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運行模式

第二章關于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

MapReduce是由Google公司發(fā)明，近些年新興的分布式計算模型。作為Google公司的核心技術，MapReduce在處理T級別以上巨量數(shù)據(jù)的業(yè)務上有著明顯的優(yōu)勢。本文從分布式計算的歷史背景

2010-09-18 08:31:59

模式識別算法的資料

從現(xiàn)在開始，給一些模式識別算法的資料給大家！后面會給一些其它算法設計給大家！如果大家在學習中、研發(fā)中有什么問題，可以找http://item.taobao.com/item.htm?spm

2013-07-15 22:31:52

算法篇（PID詳解)

2020-05-19 10:30:59

詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理

??各位同學你們好呀，上期我們講了中性點鉗位型的三電平逆變器原理，相信大家都有印象了。那么這一期我們要詳解三電平傳統(tǒng)SVPWM調(diào)制算法原理。通過學習后，希望能給初學者提供捷徑明白算法原理，將來做仿真

2021-08-27 07:25:20

詳解快速傅里葉變換FFT算法

本帖最后由 richthoffen 于 2019-7-19 16:41 編輯詳解快速傅里葉變換FFT算法

2019-07-18 08:07:33

詳解快速傅里葉變換FFT算法

2020-03-28 11:48:16

詳解快速傅里葉變換FFT算法

2020-05-25 09:31:30

詳解快速傅里葉變換FFT算法

2021-03-05 11:07:32

C語言經(jīng)典算法100例

2013-11-01 13:51:29

C語言經(jīng)典算法100例分享

C語言經(jīng)典算法，要的拿去！ C語言經(jīng)典算法100例.pdf

2018-07-19 01:47:51

HFSS 仿真算法及其應用場景詳解：有限元算法、積分方程算法、PO算法

明了各種算法應用的場景，很多時候碰到的工程問題既包括復雜結(jié)構物理也包括超大尺寸物理，如新能源汽車上的天線布局問題，對仿真而言，最好的精度是用全波算法求解，最快的速度是采用近似算求解，針對該

2019-09-20 17:15:45

MaxCompute MapReduce

摘要：大數(shù)據(jù)計算服務(MaxCompute)的功能詳解和使用心得點此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

OpenHarmony——內(nèi)核對象隊列之算法詳解（下）

OpenHarmony——內(nèi)核對象隊列之算法詳解（下）前言OpenAtom OpenHarmony（以下簡稱“OpenHarmony”） LiteOS-M 內(nèi)核是面向 IoT 領域構建的輕量級物聯(lián)網(wǎng)

2022-08-09 16:16:20

SM1算法的EBC、CBC、OFB模式是分別是什么意思？

2021-10-22 09:24:13

SVPWM的原理推導和控制算法詳解

SVPWM的原理推導和控制算法詳解，不錯的資料，值得一看

2016-01-28 15:09:44

VHDL語言100例詳解

本帖最后由 eehome 于 2013-1-5 09:51 編輯 VHDL語言100例詳解

2012-08-20 20:45:49

VHDL語言100例詳解.pdf 僅供學習

本帖最后由田家二好于 2015-3-20 11:52 編輯 VHDL語言100例詳解.pdf僅供學習

2015-03-17 21:54:30

VHDL語言100例詳解.pdf 僅供學習

2015-03-20 11:52:07

Verilog HDL語言100例詳解

Verilog HDL語言100例詳解希望對大家有所幫助

2016-09-01 15:58:09

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

stm32F1的GPIO詳解

嵌入式工程師成長之路（一）stm32F1GPIO詳解想要學習嵌入式知識，可以從單片機入手，下面以stm32f103zet6以及51單片機為例，講解單片機最基本部分IO口第一部分：stm32STM32

2022-01-20 06:48:54

從MapReduce的執(zhí)行來看如何優(yōu)化MaxCompute（原ODPS） SQL

任務的拖累。,v>,v>能產(chǎn)生reduce數(shù)據(jù)分布不均勻的操作，最長出現(xiàn)的有兩分類：join 這里推薦本書《[url=]mapreduce設計模式[/url]》，其中的連接模式篇章把各種

2018-01-31 15:42:58

從零開始學習hadoop？hadoop快速入門

介紹及hdfs、mapreduce體系結(jié)構6. Hadoop獨立模式安裝和測試7. Hadoop的集群結(jié)構8. Hadoop偽分布的詳細安裝步驟9. 通過命令行和瀏覽器觀察Hadoop10.

2018-03-13 15:21:18

以小車控制為例做PID算法詳解

控制系統(tǒng)是閉環(huán)，才能滿足整個系統(tǒng)的穩(wěn)定要求，必竟速度是系統(tǒng)參數(shù)之一，這是其三. 小車調(diào)速肯定不是線性的，外界因素那么多，沒人能證明是線性的。如果是線性的，直接用P就可以了。比如在PWM=60%時，速度

2019-05-30 09:06:06

值得一看的MapReduce編程實例

MapReduce編程實例

2019-03-05 16:55:22

偏微分方程式數(shù)值解之計算機Fortran算法詳解附圖（續(xù)ii）

偏微分方程式數(shù)值解之計算機Fortran算法詳解附圖（續(xù)ii）內(nèi)容與附圖頁碼一致，續(xù)如下： ******************************粵港澳大灣區(qū)2020-08-29

2020-08-29 21:14:26

偏微分方程式數(shù)值解之計算機Fortran算法詳解附圖（續(xù)i）

偏微分方程式數(shù)值解之計算機Fortran算法詳解附圖（續(xù)i）內(nèi)容與附圖頁碼一致，續(xù)如下：*********************** 粵港澳大灣區(qū) 2020-8-29

2020-08-29 20:44:14

好友推薦算法的實現(xiàn)

MapReduce實例——好友推薦

2019-10-11 08:31:19

嵌入式AES算法CBC模式

2012-08-18 07:28:13

板球系統(tǒng)的算法用什么？

經(jīng)典控制類題目板球系統(tǒng)用什么算法比較好？PID還是模糊算法

2017-08-04 10:25:40

每日推薦 | 鴻蒙IPC開發(fā)板免費試用，OpenHarmony內(nèi)核對象隊列算法詳解

貼評論區(qū)進行申請就能獲得試用機會，大家沖鴨~3、OpenHarmony：內(nèi)核對象隊列之算法詳解（上）推薦理由：本文希望通過分享 OpenHarmony 的 LiteOS-M 內(nèi)核對象隊列的算法詳解，讓

2022-08-10 10:26:29

請問UML用例圖的創(chuàng)建方法是什么？

UML用例圖的創(chuàng)建方法及其用例的描述

2020-11-06 07:10:08

請問如何實現(xiàn)協(xié)同過濾算法？

協(xié)同過濾算法的原理及實現(xiàn)基于物品的協(xié)同過濾算法詳解協(xié)同過濾算法的原理及實現(xiàn)

2020-11-05 06:51:34

遺傳算法的模式理論

導遺傳算法的基本理論，是J.H.Holland教授創(chuàng)立的模式理論。該理論揭示了遺傳算法的基本機理。 3.1 基本概念 3.1.1 問題的引出 &nb

2008-12-20 02:39:39

基于最大模式的關聯(lián)規(guī)則挖掘算法研究

提出了一種基于最大模式的關聯(lián)規(guī)則挖掘算法，探討了它的實現(xiàn)步驟，最后通過實例說明它是數(shù)據(jù)挖掘中一種有效的關聯(lián)規(guī)則挖掘算法。

2009-09-16 10:44:31

入侵檢測系統(tǒng)中模式匹配算法的研究

入侵檢測是網(wǎng)絡安全的最后一道防線，模式匹配算法是基于特征匹配的入侵檢測系統(tǒng)中的核心算法，模式匹配的效率決定這類入侵檢測系統(tǒng)的性能。本文對入侵檢測系統(tǒng)中的模式

2009-09-18 10:47:48

模式匹配算法的深入研究

模式匹配算法的深入研究:模式匹配算法的應用較為廣泛, KMP算法是一種性能較高的算法,所以對KMP算法的深入研究能夠使模式匹配問題得到較大的改善. 在匹配的過程中,從模式匹配算

2009-10-25 12:21:25

模板方法模式在回溯算法中的應用

描述了模板方法模式及回溯算法的模板方法模式的Java 語言實現(xiàn)，該實現(xiàn)使得回溯算法的實現(xiàn)達到了可擴展性、靈活性和可插入性三個目標，提高了算法的可維護性和可復用性。

2010-01-15 16:48:10

模板方法模式在回溯算法中的應用

2010-01-15 16:51:52

多模式匹配算法的性能分析

多模式匹配算法效率直接影響入侵檢測系統(tǒng)的性能和效率。在分析研究經(jīng)典的AC算法、WM算法和ExB算法的基礎上,通過上機實驗測試這些算法的模式匹配時間,為改進多模式匹配算法提

2010-12-31 17:20:04

詳解九章算法作者:楊輝

1261年,中國宋朝的楊輝著《詳解九章算法》楊輝，中國南宋時期杰出的數(shù)學家和數(shù)學教育家。在13世紀中葉活動于蘇杭一帶，其著作

2007-11-07 13:35:52

17014

路由算法詳解

路由算法詳解引言如果您已經(jīng)閱讀過博聞網(wǎng)中的路由器工作原理一文，您會了解到路由器的作用是管理網(wǎng)絡流量和找到發(fā)送分組數(shù)據(jù)包的最佳路由。但是您是否想過

2009-08-03 09:00:20

6462

路由算法詳解

路由算法詳解1. 引言 2. 路由器基礎知識 3. LS算法 4. 示例：Dijkstra算法 5. DV算法 6. 分級路由

2009-08-06 09:36:09

5286

遞歸算法的設計模式與調(diào)試

文中提出一種通用遞歸算法的設計模式,并結(jié)合實例說明該模式的應用方法和有效性,為研究遞歸算法提供了有效的解決方案,可推廣性強。同時給出了遞歸程序在調(diào)試過程中的一些方法和

2011-11-03 15:04:48

BM模式匹配算法的研究和改進

模式匹配算法在數(shù)字通信、入侵檢測等多種領域都有著廣泛的應用，BM算法以其高效的匹配過程成為模式匹配算法中應用最為廣泛的算法之一。盡管如此，BM算法的效率還是可以再提高的

2012-10-17 11:23:56

SVPWM的原理及法則推導和控制算法詳解

2016-04-13 15:42:35

SVPWM的原理及法則推導和控制算法詳解

空間矢量控制原理及法則推導和控制算法詳解

2016-05-09 10:59:26

PID算法詳解

2016-12-17 20:48:18

基于MapReduce和矩陣的頻繁項集挖掘算法

基于MapReduce和矩陣的頻繁項集挖掘算法_周國軍

2017-01-07 18:39:17

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學森

2017-03-19 11:41:51

Mapreduce下改進Skyline的高效算法_劉建邦

Mapreduce下改進Skyline的高效算法_劉建邦

2017-03-19 18:58:18

基于Bagging決策樹優(yōu)化算法

針對經(jīng)典C4.5決策樹算法存在過度擬合和伸縮性差的問題，提出了一種基于Bagging的決策樹改進算法，并基于MapReduce模型對改進算法進行了并行化。首先，基于Bagging技術對C4.5算法

2017-11-21 11:57:08

面向并行迭代的MapReduce模型

機器學習領域內(nèi)的多數(shù)模型均需要通過迭代計算以求解其最優(yōu)參數(shù)，而MapReduce模型在迭代計算中的缺陷不足導致其在迭代計算中無法得到廣泛應用。為解決上述矛盾，基于MapReduce模型提出并實現(xiàn)

2017-11-23 15:04:35

基于差分隱私的軌跡模式挖掘算法

針對現(xiàn)有基于差分隱私的頻繁軌跡模式挖掘算法全局敏感度過高、挖掘結(jié)果可用性較低的問題，提出一種基于前綴序列格和軌跡截斷的差分隱私下頻繁軌跡模式挖掘算法LTPM。該算法首先利用自適應的方法獲得最優(yōu)截斷

2017-11-25 11:38:37

基于Spark的ItemBased推薦算法性能優(yōu)化

MapReduce計算場景下，復雜的大數(shù)據(jù)挖掘類算法通常需要多個MapReduce作業(yè)協(xié)作完成，但多個作業(yè)之間嚴重的冗余磁盤讀寫及重復的資源申請操作，使得算法的性能嚴重降低。為提高ItemBased

2017-11-30 11:42:02

基于MapReduce的新會話識別方法

會話識別結(jié)果的準確率，在分析會話識別算法研究現(xiàn)狀的基礎上，提出一種基于網(wǎng)絡拓撲結(jié)構和動態(tài)閡值相結(jié)合的新會話識別方法并討論其優(yōu)勢所在，接著用MapReduce模型實現(xiàn)新方法的分布式處理，最后通過對比實驗分析驗證MapReduce模型實現(xiàn)新算法的高效性和高精確度

2017-12-04 15:13:23

一種高效的基于MapReduce分布式蜂群模式挖掘算法

針對時空軌跡大數(shù)據(jù)的蜂群模式挖掘需求，提出了一種高效的基于MapReduce的分布式蜂群模式挖掘算法。首先，提出了基于最大移動目標集的對象集閉合蜂群模式概念，并利用最小時間支集優(yōu)化了串行挖掘算法

2017-12-05 19:09:46

[目標檢測]Faster RCNN算法詳解

%；復雜網(wǎng)絡達到5fps，準確率78.8%。作者在github上給出了基于matlab和python的源碼。對Region CNN算法不了解的同學，請先參看前兩篇文章：《RCNN算法詳解

2017-12-06 02:30:04

557

基于MapReduce數(shù)據(jù)流相似性搜索并行算法

成多個子矩陣，采取并行迭代計算每條反對角線上子矩陣的方法，基于MapReduce編程模型，實現(xiàn)高效并行計算時間序列動態(tài)彎曲距離，通過改進剪裁冗余計算方法，設計實現(xiàn)一種數(shù)據(jù)流多模式相似性搜索并行算法。中國雪深長時間序列數(shù)據(jù)集的實驗結(jié)果表明，當每條時間序列的長度達

2017-12-07 11:06:47

一種基于MapReduce的圖結(jié)構聚類算法

為O（tril5）（m為圖中邊的條數(shù)），因此很難處理大規(guī)模的圖數(shù)據(jù)。為了解決SCAN算法的可擴展性問題，提出了一種新穎的基于MapReduce的海量圖結(jié)構聚類算法MRSCAN。具體地，提出了一種計算核心節(jié)點，以及兩種合并聚類的MapReduce算法。最后，在多個真實的大規(guī)模圖數(shù)

2017-12-19 11:05:34

基于MapReduce的Coteries軌跡模式挖掘及個性化旅游路線推薦

Coterie是一種異步的組模式，要求在不等時間間隔約束下找出具有相似軌跡行為的組模式，而傳統(tǒng)的軌跡組模式挖掘算法往往處理具有固定時間間隔采樣約束的GPS數(shù)據(jù)。因此無法直接用于Coterie模式挖掘

2017-12-19 15:14:10

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點，給出了迭代式MapReduce框架實現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運用在迭代

2017-12-20 16:39:37

基于MapReduce的SVM態(tài)勢評估算法

支持向量機（SVM）可以解決傳統(tǒng)態(tài)勢評估算法無法兼顧的維數(shù)災難過學習及非線性等難題，卻無法應對大規(guī)模樣本的問題。為了有效應對態(tài)勢評估中的大數(shù)據(jù)處理挑戰(zhàn)，提出了一種基于MapReduce的SVM

2017-12-26 17:52:11

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導致模型精度和復雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

基于MapReduce計算框架的并行同態(tài)加密方案

根據(jù)云計算分布式的特點，并結(jié)合同態(tài)加密和Hadoop環(huán)境下MapReduce并行框架，提出了一種基于MapReduce計算框架的并行同態(tài)加密方案。實現(xiàn)了具體的并行同態(tài)加密算法，并對該方案的安全性

2017-12-27 15:52:29

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有

2018-01-02 10:39:34

24973

mapreduce編程實例

Mapreduce是一個計算框架，既然是做計算的框架，那么表現(xiàn)形式就是有個輸入（input），mapreduce操作這個輸入（input），通過本身定義好的計算模型，得到一個輸出（output），這個輸出就是我們所需要的結(jié)果。mapreduce編程實例如下所述

2018-01-02 10:54:27

10988

mapreduce的應用開發(fā)步驟

MapReduce極大地方便了編程人員在不會分布式并行編程的情況下，將自己的程序運行在分布式系統(tǒng)上。當前的軟件實現(xiàn)是指定一個Map（映射）函數(shù)，用來把一組鍵值對映射成一組新的鍵值對，指定并發(fā)

2018-01-02 14:14:59

4663

mapreduce工作原理圖文詳解_Map、Reduce任務中Shuffle和排序

本文主要分析以下兩點內(nèi)容：1.MapReduce作業(yè)運行流程原理2.Map、Reduce任務中Shuffle和排序的過程。分析如下文

2018-01-02 14:39:09

7954

mapreduce二次排序_ mapreduce二次排序原理

在mapreduce操作時，shuffle階段會多次根據(jù)key值排序。但是在shuffle分組后，相同key值的values序列的順序是不確定的（如下圖）。如果想要此時value值也是排序好的，這種

2018-01-02 15:16:14

6066

基于異常檢測模型的MapReduce性能優(yōu)化

針對落伍者的選擇問題，提出利用故障診斷領域內(nèi)通常使用的異常檢測模型來選擇落伍者的方法。首先，利用異常檢測算法來發(fā)現(xiàn)集群中的慢節(jié)點；然后改進MapReduce任務分配算法和推測執(zhí)行算法，不再給慢節(jié)點

2018-01-03 14:14:55

一種面向模式圖變化的增量圖模式匹配算法

在大數(shù)據(jù)時代，數(shù)據(jù)圖的規(guī)模急劇增長，增量圖模式匹配算法能夠在數(shù)據(jù)圖或模式圖發(fā)生變化時避免重新在整個數(shù)據(jù)圖上進行匹配、減少響應時間，因此成為了研究的熱點．針對實際應用中數(shù)據(jù)圖不變而模式圖發(fā)生變化的情況

2018-01-21 10:06:39

MapReduce的數(shù)據(jù)放置策略

MapReduce是一種適用于大規(guī)模數(shù)據(jù)密集型應用的有效編程模型，具有編程簡單、易于擴展、容錯性好等特點，已在并行和分布式計算領域得到了廣泛且成功的應用．由于MapReduce將計算擴展到大規(guī)模

2018-01-26 11:15:09

MapReduce連接查詢的IO代價研究

優(yōu)化，有著學術意義和應用價值．MapReduce連接查詢算法的性能主要取決于I/O代價（包括本地和網(wǎng)絡I/O），而I/O代價與數(shù)據(jù)集以及連接運算的特征參數(shù)相關，通過對二元連接的I/O代價評估可以優(yōu)化多元連接執(zhí)行計劃．基于此，首先提出了二元連接查詢的I/O代價模型

2018-01-31 16:29:05

蟻群算法即相關代碼實現(xiàn)詳解—matlab之智能算法

本微博主要闡述了蟻群算法即相關代碼實現(xiàn)詳解。蟻群算法是近年來剛剛誕生的隨機優(yōu)化方法，它是一種源于大自然的新的仿生類算法.由意大利學者Dorigo最早提出，螞蟻算法主要是通過螞蟻群體之間的信息傳遞而達到尋優(yōu)的目的。

2018-02-02 11:03:53

10662

Apriori算法詳解

本文主要是對Apriori算法的詳解，包括了Apriori算法詳細介紹概括和步驟和Apriori算法偽代碼和例子。Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候選集生成和情節(jié)

2018-02-02 16:35:10

20726

一種基于MapReduce模型的并行化k-medoids聚類算法

本文針對k-medoids算法具有初始點選取復雜、聚類迭代時間久、中心點選取消耗資源過多等缺點，使用Hadoop平臺下的MapReduce編程框架對算法進行初始點的點密度計算選取并行化、非中心點分配并行化和中心點更新并行化等方面的改進。

2018-05-18 09:06:39

4850

如何使用MapReduce進行大數(shù)據(jù)的主動學習

針對傳統(tǒng)的主動學習算法只能處理中小型數(shù)據(jù)集的問題，提出一種基于MapReduce的大數(shù)據(jù)主動學習算法。首先，在有類別標簽的初始訓練集上，用極限學習機（ ELM）算法訓練一個分類器，并將其輸出用軟最大化函數(shù)變換為一個后驗概率分布。

2018-12-12 15:51:33

云計算的編程模式

大大提升。MapReduce是當前云計算主流并行編程模式之一。MapReduce模式將任務自動分成多個子任務，通過Map和Reduce兩步實現(xiàn)任務在大規(guī)模計算節(jié)點中的高度與分配。

2019-01-02 16:39:53

3858

目標檢測：Faster RCNN算法詳解

為59.9%；復雜網(wǎng)絡達到5fps，準確率78.8%。作者在github上給出了基于matlab和python的源碼。對Region CNN算法不了解的同學，請先參看這兩篇文章：《RCNN算法詳解

2021-01-13 16:25:31

4314

基于MapReduce/Spark的大規(guī)模壓縮模糊K-近鄰算法

分別基于Mapreduce和 Spark的2種大規(guī)模壓縮模糊K-近鄰算法。在樣例選擇閾值設置方面，引人動態(tài)機制，使得所選樣例更具代表性。在具有7個數(shù)據(jù)節(jié)點的大數(shù)據(jù)平臺上進行實驗，結(jié)果表明，與 CFKNN算法相比，所提2種算法具有更高的分類精度和加速比。2個平臺相

2021-03-17 10:16:17