色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在Tableau中盒須圖幫你6步篩除異常值

Tableau社區 ? 來源:未知 ? 作者:工程師曾玲 ? 2018-10-02 11:29 ? 次閱讀

如果您熟悉盒須圖,那么您也知道這是一個非常好的圖表來檢查數據的分布并突出顯示異常值。但有時僅僅顯示異常值是不夠的,我們可能也想篩選掉異常值,因為這些異常值可能是由于數據問題或某些我們不希望在分析中包含的特定情況所引起的。那我們該如何在 Tableau 中根據盒須圖的邏輯篩選出異常值?

如果您不確定盒須圖的樣子,下圖是一個簡單的示意圖。

圖表中的每個圓圈代表 Sample Superstore Sales Excel 文件中美國各個州的總利潤。盒子展示了各個州利潤的中位數以及上四分位數(百分位 75)和下四分位數(百分位 25)之間的范圍。另外兩條須分別代表仍在 1.5 IQR 范圍內的最低和最高線。IQR 是四分位數的范圍 - 上四分位數和下四分位數之間的差值。也就是說,每條須都顯示了該范圍之間的數據點。

因此,如果我們想要篩除或突出異常值,我們需要計算 IQR 和所有在 IQR+/- 1.5 倍之內的數據。那么我們該怎么做?

第 1 步計算百分位 25 和百分位 75

首先,我們要計算百分位 25(Q1)和百分位 75(Q3)之間的所有數據。也就是盒子內的所有數據。為此,我們將使用度量(利潤)的百分位數創建計算字段,并使用布爾運算讓該范圍之間的所有數據點返回 TRUE 值。

在 P25 和 P75 之間:

RANK_PERCENTILE(SUM([Profit]))<=0.75 and?

RANK_PERCENTILE(SUM([Profit]))>=0.25

此計算將讓 Q1 和 Q3 之間的所有數據點返回 True 值。在我們的示例中,我們必須確保計算按州進行。因此我們可以將它放置在顏色架上來確保計算是按照我們希望的方式進行的。

第 2 步計算盒子的限制 – 下限與上限

我們已經在步驟 1 中突出顯示了 Q1 和 Q3 之間的所有數據點。現在我們需要計算 Q1 的下限和 Q3 的上限,這樣我們就可以計算出 IQR,這就是百分位 25 和百分 75 之間的差值。通常我們可以使用 LOD 來計算這些數字,但是由于我們不能在 LOD 中使用表計算,所以我們需要尋找另一個解決方案。為此,我們將在 WINDOW_MAX 中使用 IF 語句,而我們只能獲得百分位 25 和百分位 75 之間的數據最大值 – 也就是上限。

Q1 和 Q3 之間的最大值

WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

我們將用同樣的方法來計算最小值以獲得 Q1 和 Q3 之間的下限。

Q1 和 Q3 之間的最小值

WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

就像我們在步驟 1 中進行計算一樣,在我們的例子中,我們必須確保兩個計算都是按州進行。我們還可以將兩個計算放到到詳細信息中,并將它們添加為參考線,以檢查數字是否正確,如下圖所示。

這看起來非常像步驟 1 之后的圖像,但是如果您仔細看圖,您可以發現使用剛剛建立的計算所制作的兩條參考線,與上下限相互重合了。這表明我們離成功越來越近了!

第 3 步計算 IQR

我們之前也提到過 IQR 是 Q3 和 Q1 之間的差值,也是百分位 25 和百分位 75 之間的數據上下限之間的差值。換句話說,也就是我們在步驟 2 中所構建的兩個計算之間的差異。可能是這篇文章中最簡單的一步:

IQR:

[Max between Q1 and Q3] – [Min between Q1 and Q3]

第 4 步計算上下須

第 3 步很簡單,而第 4 步也不困難。在上文中,我們已將須擴大到了 IQR 1.5 倍以內的數據。因此,我們只需要使用步驟 2 中構建的 Q1 和 Q3 之間的數據上下限以及步驟 3 中計算的 IQR 來計算上下須之間的數據范圍,如下所示:

下須:

[Min between Q1 and Q3] – (1.5 * [IQR])

上須:

[Max between Q1 and Q3] + (1.5 * [IQR])

請小心并特別注意差值。對于較低的須而言,我們必須減去 1.5 倍的 IQR,并為上須增加 1.5 倍的 IQR。與上文一樣,在我們的例子中,我們必須確保使用州來進行此計算。

第 5 步標記異常值

我們離成功很近了。現在我們有了來識別異常值的所有值。基本上來說,異常值將是低于我們下須極限或高于我們上須極限的所有數據點。我們可以用與步驟 1 非常相似的方式來創建一個計算,讓這些異常值返回 TRUE 值。

異常值:

SUM([Profit]) < [Lower Whisker Limit] OR SUM([Profit])? > [Upper Whisker Limit]

同樣的,請確保使用州(如果您按我們的例子)或代表您標記(圓圈)的維度進行計算。我們可以將這最后的計算放到顏色架中來突出顯示異常值。

讓異常值變大或變小。

甚至用改變形狀的方式來突出異常值。

第 6 步篩除異常值

按照這篇文章的主要目的,我們現在可以做的是篩除異常值。但請記住,盒子和須將會使用新的數據重新計算。例如,如果現在我們將子類別添加到行,我們將獲得這樣的視圖,使用顏色突出顯示異常值,證如我們在步驟 5 中提到的那樣。

但是我不想將我的異常值放在顏色中,我希望刪除盒子和須線,并將異常值計算放到篩選器中,并排除 TRUE 值。然后我可能會添加一個參考線來顯示按子類別劃分的每個州的平均利潤,但不考慮每個子類別的異常值。

完成了!現在我們可以在沒有異常值的情況下查看并分析數據,我們也可以看到每個州的利潤現在已經比以前更好地分布在子類別中。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據分析
    +關注

    關注

    2

    文章

    1460

    瀏覽量

    34112

原文標題:教你 6 步篩除異常值,快來 Pick 盒須圖!

文章出處:【微信號:TableauChina,微信公眾號:Tableau社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用AD7656過程采樣值每間隔一段時間會有異常值出現是什么原因?

    使用AD7656過程中發現采樣值每間隔一段時間(10分鐘不等)會有異常值出現(0x4000或0xBFFF),不知什么原因。求分析。
    發表于 12-21 06:20

    Stm32H7 spi會帶來更大的adc噪聲,導致小信號異常值的原因?

    [Stm32H7]spi會帶來更大的adc噪聲,導致小信號異常值
    發表于 03-25 06:10

    異常值概述及檢驗處理

    異常值的處理
    發表于 04-26 13:13

    基于Python在數據流查找異常值的方法

    在上一篇文章,我解釋了流算法的概念,并給出了許多如何應用流算法的示例。 其中之一是不保存數據流元素的情況下計算數據流的滾動平均值。 現在,我想擴展這個示例,并在異常值檢測的背景下向您展示另一種流算法的用例。
    的頭像 發表于 05-03 18:17 ?3105次閱讀
    基于Python在數據流<b class='flag-5'>中</b>查找<b class='flag-5'>異常值</b>的方法

    Tableau與Einstein Analytics 合作推動數據分析

    Tableau CRM,并繼續 Salesforce CRM 工作流中提供極致的分析和 AI 體驗。 Tableau 可提供強大的數據探索和可視化分析能力,支持客戶隨時隨地從任何數據
    的頭像 發表于 10-21 16:35 ?2607次閱讀
    <b class='flag-5'>Tableau</b>與Einstein Analytics 合作推動數據分析

    11月6Tableau 儀表盤設計簡化與技巧分析

    道路上和日常工作受到啟發,少走彎路,深刻了解 Tableau 的有效使用方法和巨大價值。 Tableau 儀表盤設計簡化與技巧分析 日期:11 月 6 日 時間:10:00- 11:
    的頭像 發表于 11-02 11:15 ?3132次閱讀

    Tableau 2020.4亮點功能集錦

    集錦 ●?使用瀏覽器Tableau Prep Builder同一個基于 Web 的集成平臺上準備所有數據; ●?借助多項增強功能將您的地理空間分析提升
    的頭像 發表于 12-24 17:46 ?2933次閱讀

    如何借助瀏覽器Tableau Prep Builder準備數據

    ? 隨著 Tableau 2020.4 的發布,我們自助數據準備方面取得了令人興奮的進步。現在,您可以瀏覽器創建新的 Tableau
    的頭像 發表于 12-24 18:01 ?2652次閱讀

    Tableau Catalog能更快地找到正確的表和數據庫

    Tableau 2019.3 發布以來,數據發現和信任一直是 Tableau Catalog (Tableau Data Management 的組件)的核心原則。每一個版本
    的頭像 發表于 06-13 14:43 ?1655次閱讀

    基于異常檢測的模型表現對比

    但這種分類方式常因為上下文定義邊界模糊,導致集體異常值和上下文異常值的定義邊界也模糊。上下文異常值的上下文不同文獻通常非常不同。
    的頭像 發表于 10-18 16:47 ?1890次閱讀

    使用MATLAB進行異常檢測(下)

    使用 MATLAB 進行異常檢測(上),我們探討了什么是異常值,簡單的一維數據異常檢測問題,針對高維數據的有監督
    的頭像 發表于 11-24 10:46 ?2265次閱讀

    基于神經網絡的異常值檢測庫介紹

    學習節點的嵌入 (見圖 1)。大多數 GNN 都持有同源性假設,即相連的節點是相似的;因此,聚合鄰居的信息將有助于學習信息量更大的中心節點表示。中心節點表示可用于節點分類、鏈接預測和異常值檢測 (OD) 等下游任務。
    的頭像 發表于 12-08 10:34 ?2188次閱讀

    數據清洗、缺失值填充和異常值處理

    綜上所述,數據清洗、缺失值填充和異常值處理對數據分析非常重要,并且 MATLAB 提供了許多工具來實現這些步驟。可以根據具體情況選擇合適的函數和方法來處理數據。
    的頭像 發表于 06-21 15:30 ?3142次閱讀

    eda機器學習的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程不可或缺的一部分。 1. 數據清洗 數據清洗 是機器學習的首要任務之一。EDA可以幫助識別缺失值、
    的頭像 發表于 11-13 10:42 ?372次閱讀

    think-cell——Tableau數據

    當數據驅動元素的源數據 Tableau 可用時,您可以直接從那里創建圖表和表格。當 Tableau 的數據發生更改時,您只需單擊一下即
    的頭像 發表于 01-03 11:47 ?149次閱讀
    think-cell——<b class='flag-5'>Tableau</b>數據
    主站蜘蛛池模板: 国产精品自产拍在线观看中文 | 亚洲无AV在线中文字幕 | 富婆找黑人老外泻火在线播放 | 脱jk裙的美女露小内内无遮挡 | 男人J桶女人P视频无遮挡网站 | 少妇的肉体AA片免费 | 国产精品免费一区二区三区四区 | 日本午夜精品久久久无码 | 欧美日韩午夜群交多人轮换 | 好大快用力深一点h视频 | 精品久久电影网 | 樱桃视频高清免费观看在线播放 | 久久国产精品免费网站 | 强奷乱码欧妇女中文字幕熟女 | 嗯啊…跟校草在教室里做h 嗯 用力啊 嗯 c我 啊哈老师 | 又黄又猛又爽大片免费 | 漂亮的保姆3集电影免费观看中文 | 久久久精品国产免费A片胖妇女 | 伊人影院香蕉久在线26 | 久久黄色免费网站 | JIZJIZJIZ 日本老师水多 | 国产成人aaa在线视频免费观看 | 娇喘嗯嗯 轻点啊视频福利 娇喘高潮教室h | 裸妇厨房风流在线观看 | 久久6699精品国产人妻 | 久久视频在线视频观看天天看视频 | 亚洲高清视频在线观看 | 午夜DY888国产精品影院 | 久热在线这里只有精品7 | 扒开双腿疯进出爽爽爽动态图 | 国产精品久久自在自2021 | 久久视频精品38线视频在线观看 | 亚洲不卡一卡2卡三卡4卡5卡 | 成片免费观看视频在线网 | 亚洲午夜久久久精品电影院 | 亚洲 欧美 日韩 精品 自拍 | 国内精品久久久久久久试看 | 亚洲日韩KKK444KKK聚色 | 亚欧免费观看在线观看更新 | 亚洲国产在线精品国自产拍五月 | caoporen超碰在线视频 |