亚洲伦理在线观看,四虎最新紧急更新地址,伊人婷婷在线

一種簡單的方法，可通過Python實(shí)現(xiàn)在數(shù)據(jù)流中查找異常值

在上一篇文章中，我解釋了流算法的概念，并給出了許多如何應(yīng)用流算法的示例。其中之一是在不保存數(shù)據(jù)流元素的情況下計算數(shù)據(jù)流的滾動平均值。現(xiàn)在，我想擴(kuò)展這個示例，并在異常值檢測的背景下向您展示另一種流算法的用例。

當(dāng)我們監(jiān)視機(jī)器的功耗以檢測任何異常行為時，可能會出現(xiàn)類似的問題。如果我們發(fā)現(xiàn)異常值有所增加（異常觀察），則可能表明這臺機(jī)器的默認(rèn)值，可能值得檢查。

定義和示例

離群值可以通過多種方式定義。在本文中，我們將使用以下定義：

如果數(shù)字?jǐn)?shù)據(jù)流中的元素與到目前為止所見元素的平均值不在3個標(biāo)準(zhǔn)偏差之內(nèi)，則該元素被視為離群值。

這需要一個小例子。假設(shè)我們按順序獲得數(shù)據(jù)3、2、4、3、5、3、2、10、2、3、1。讓我們進(jìn)一步假設(shè)，我們從零的均值和方差（以及因此的標(biāo)準(zhǔn)差）開始，即，如果不等于零，則始終將第一個元素視為離群值。

因此，將3視為離群值，因為3> 0 3 * 0。現(xiàn)在，我們根據(jù)到目前為止看到的元素（僅是數(shù)字3）更新均值和方差。因此，新均值是3，方差是0。

然后我們看到2。我們有2> 3 3 * 0，所以2也被認(rèn)為是離群值。這是有道理的，因為到目前為止我們只看到了3，所以其他任何數(shù)字都不適合該模式。平均值更新為（3 2）/2=2.5，方差更新為（（3-2.5）2（2-2.5）2）/2=0.25，這意味著標(biāo)準(zhǔn)偏差為0.5。

現(xiàn)在我們看到4。由于2.5–3 *0.5≤4≤2.53 * 0.5，因此該數(shù)字不是異常值（即正常值）。平均值更新為（3 2 4）/ 3 = 3，方差更新為（（3–3）2（2–3）2（4–3）2）/ 3 = 2/3，因此標(biāo)準(zhǔn)偏差為約0.81。

以下數(shù)字3、5、3、2被認(rèn)為是正常的。憑直覺，我們將下面的數(shù)字10視為離群值。讓我們看看該算法的作用。此時的平均值約為3.1，標(biāo)準(zhǔn)偏差約為1。由于10> 3.1 3 * 1，因此我們希望將10視為離群值。

如果繼續(xù)最后三個元素，您將看到它們都是正常的。

問題：要計算平均值和標(biāo)準(zhǔn)偏差，我們必須記住到目前為止看到的所有元素。如果我們有一個每天輸出成千上萬個元素的系統(tǒng)，那么這不是一個選擇。

救援的流式算法

解決此問題的一種方法是使用流算法，該算法在從數(shù)據(jù)流中每個被掃描元素之后更新其內(nèi)部狀態(tài)。內(nèi)部狀態(tài)由到目前為止在任何點(diǎn)看到的所有元素的均值和方差組成，從看到任何元素之前的均值和方差為零開始。確切地說，在看到數(shù)據(jù)流的第n個元素之后，令m?為平均值，v?為方差，并附加定義m?=v?= 0。

計算均值

在我有關(guān)流算法的文章中，我們看到了如何僅使用舊的均值，正在掃描的最新元素以及到目前為止看到的元素數(shù)量來更新均值。這意味著我們只需要隨時使用這種方法存儲兩個數(shù)字，而不是像幼稚的方法那樣存儲n。讓我再次顯示它，將數(shù)據(jù)流的第i個傳入元素表示為a?：