如果您熟悉盒須圖,那么您也知道這是一個非常好的圖表來檢查數據的分布并突出顯示異常值。但有時僅僅顯示異常值是不夠的,我們可能也想篩選掉異常值,因為這些異常值可能是由于數據問題或某些我們不希望在分析中包含的特定情況所引起的。那我們該如何在 Tableau 中根據盒須圖的邏輯篩選出異常值?
如果您不確定盒須圖的樣子,下圖是一個簡單的示意圖。
圖表中的每個圓圈代表 Sample Superstore Sales Excel 文件中美國各個州的總利潤。盒子展示了各個州利潤的中位數以及上四分位數(百分位 75)和下四分位數(百分位 25)之間的范圍。另外兩條須分別代表仍在 1.5 IQR 范圍內的最低和最高線。IQR 是四分位數的范圍 - 上四分位數和下四分位數之間的差值。也就是說,每條須都顯示了該范圍之間的數據點。
因此,如果我們想要篩除或突出異常值,我們需要計算 IQR 和所有在 IQR+/- 1.5 倍之內的數據。那么我們該怎么做?
第 1 步計算百分位 25 和百分位 75
首先,我們要計算百分位 25(Q1)和百分位 75(Q3)之間的所有數據。也就是盒子內的所有數據。為此,我們將使用度量(利潤)的百分位數創建計算字段,并使用布爾運算讓該范圍之間的所有數據點返回 TRUE 值。
在 P25 和 P75 之間:
RANK_PERCENTILE(SUM([Profit]))<=0.75 and?
RANK_PERCENTILE(SUM([Profit]))>=0.25
此計算將讓 Q1 和 Q3 之間的所有數據點返回 True 值。在我們的示例中,我們必須確保計算按州進行。因此我們可以將它放置在顏色架上來確保計算是按照我們希望的方式進行的。
第 2 步計算盒子的限制 – 下限與上限
我們已經在步驟 1 中突出顯示了 Q1 和 Q3 之間的所有數據點。現在我們需要計算 Q1 的下限和 Q3 的上限,這樣我們就可以計算出 IQR,這就是百分位 25 和百分 75 之間的差值。通常我們可以使用 LOD 來計算這些數字,但是由于我們不能在 LOD 中使用表計算,所以我們需要尋找另一個解決方案。為此,我們將在 WINDOW_MAX 中使用 IF 語句,而我們只能獲得百分位 25 和百分位 75 之間的數據最大值 – 也就是上限。
Q1 和 Q3 之間的最大值
WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)
我們將用同樣的方法來計算最小值以獲得 Q1 和 Q3 之間的下限。
Q1 和 Q3 之間的最小值
WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)
就像我們在步驟 1 中進行計算一樣,在我們的例子中,我們必須確保兩個計算都是按州進行。我們還可以將兩個計算放到到詳細信息中,并將它們添加為參考線,以檢查數字是否正確,如下圖所示。
這看起來非常像步驟 1 之后的圖像,但是如果您仔細看圖,您可以發現使用剛剛建立的計算所制作的兩條參考線,與上下限相互重合了。這表明我們離成功越來越近了!
第 3 步計算 IQR
我們之前也提到過 IQR 是 Q3 和 Q1 之間的差值,也是百分位 25 和百分位 75 之間的數據上下限之間的差值。換句話說,也就是我們在步驟 2 中所構建的兩個計算之間的差異。可能是這篇文章中最簡單的一步:
IQR:
[Max between Q1 and Q3] – [Min between Q1 and Q3]
第 4 步計算上下須
第 3 步很簡單,而第 4 步也不困難。在上文中,我們已將須擴大到了 IQR 1.5 倍以內的數據。因此,我們只需要使用步驟 2 中構建的 Q1 和 Q3 之間的數據上下限以及步驟 3 中計算的 IQR 來計算上下須之間的數據范圍,如下所示:
下須:
[Min between Q1 and Q3] – (1.5 * [IQR])
上須:
[Max between Q1 and Q3] + (1.5 * [IQR])
請小心并特別注意差值。對于較低的須而言,我們必須減去 1.5 倍的 IQR,并為上須增加 1.5 倍的 IQR。與上文一樣,在我們的例子中,我們必須確保使用州來進行此計算。
第 5 步標記異常值
我們離成功很近了。現在我們有了來識別異常值的所有值。基本上來說,異常值將是低于我們下須極限或高于我們上須極限的所有數據點。我們可以用與步驟 1 非常相似的方式來創建一個計算,讓這些異常值返回 TRUE 值。
異常值:
SUM([Profit]) < [Lower Whisker Limit] OR SUM([Profit])? > [Upper Whisker Limit]
同樣的,請確保使用州(如果您按我們的例子)或代表您標記(圓圈)的維度進行計算。我們可以將這最后的計算放到顏色架中來突出顯示異常值。
讓異常值變大或變小。
甚至用改變形狀的方式來突出異常值。
第 6 步篩除異常值
按照這篇文章的主要目的,我們現在可以做的是篩除異常值。但請記住,盒子和須將會使用新的數據重新計算。例如,如果現在我們將子類別添加到行,我們將獲得這樣的視圖,使用顏色突出顯示異常值,證如我們在步驟 5 中提到的那樣。
但是我不想將我的異常值放在顏色中,我希望刪除盒子和須線,并將異常值計算放到篩選器中,并排除 TRUE 值。然后我可能會添加一個參考線來顯示按子類別劃分的每個州的平均利潤,但不考慮每個子類別的異常值。
完成了!現在我們可以在沒有異常值的情況下查看并分析數據,我們也可以看到每個州的利潤現在已經比以前更好地分布在子類別中。
-
數據分析
+關注
關注
2文章
1460瀏覽量
34112
原文標題:教你 6 步篩除異常值,快來 Pick 盒須圖!
文章出處:【微信號:TableauChina,微信公眾號:Tableau社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論