在某些分布假設(shè)下,某些機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為最佳工作。因此,了解我們正在使用哪個(gè)發(fā)行版可以幫助我們確定最適合使用哪些模型。
介紹
擁有良好的統(tǒng)計(jì)背景可能對(duì)數(shù)據(jù)科學(xué)家的日常生活大有裨益。每次我們開(kāi)始探索新的數(shù)據(jù)集時(shí),我們首先需要進(jìn)行探索性數(shù)據(jù)分析(EDA),以了解某些功能的主要特征是什么。如果我們能夠了解數(shù)據(jù)分布中是否存在任何模式,則可以量身定制最適合我們的案例研究的機(jī)器學(xué)習(xí)模型。這樣,我們將能夠在更短的時(shí)間內(nèi)獲得更好的結(jié)果(減少優(yōu)化步驟)。實(shí)際上,某些機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為在某些分布假設(shè)下效果最佳。因此,了解我們正在使用哪些發(fā)行版可以幫助我們確定最適合使用哪些模型。
同類(lèi)型的數(shù)據(jù)
我們正在與一個(gè)數(shù)據(jù)集工作,每次,我們的數(shù)據(jù)代表一個(gè)樣本從人口。然后,使用此樣本,我們可以嘗試了解其主要模式,以便我們可以使用它對(duì)整個(gè)人口進(jìn)行預(yù)測(cè)(即使我們從未有機(jī)會(huì)檢查整個(gè)人口)。
假設(shè)我們要根據(jù)一組特定功能來(lái)預(yù)測(cè)房屋的價(jià)格。我們也許可以在線找到一個(gè)包含舊金山所有房?jī)r(jià)的數(shù)據(jù)集(我們的樣本),并且進(jìn)行一些統(tǒng)計(jì)分析之后,我們也許可以對(duì)美國(guó)任何其他城市的房?jī)r(jià)做出相當(dāng)準(zhǔn)確的預(yù)測(cè)(我們的人口)。
數(shù)據(jù)集由兩種主要類(lèi)型的數(shù)據(jù)組成:數(shù)字(例如整數(shù),浮點(diǎn)數(shù))和分類(lèi)(例如名稱(chēng),筆記本電腦品牌)。
數(shù)值數(shù)據(jù)還可以分為其他兩類(lèi):離散和繼續(xù)。離散數(shù)據(jù)只能采用某些值(例如學(xué)校中的學(xué)生人數(shù)),而連續(xù)數(shù)據(jù)可以采用任何實(shí)數(shù)或分?jǐn)?shù)值(例如身高和體重的概念)。
從離散隨機(jī)變量中,可以計(jì)算出概率質(zhì)量函數(shù),而從連續(xù)隨機(jī)變量中,可以得出概率密度函數(shù)。
概率質(zhì)量函數(shù)給出了一個(gè)變量可以等于某個(gè)值的概率,相反,概率密度函數(shù)的值本身并不是概率,因?yàn)樗鼈兪紫刃枰诮o定范圍內(nèi)進(jìn)行積分。
自然界中存在許多不同的概率分布(概率分布流程圖),在本文中,我將向您介紹數(shù)據(jù)科學(xué)中最常用的概率分布。
首先,讓我們導(dǎo)入所有必需的庫(kù):
伯努利分布
伯努利分布是最容易理解的分布之一,可用作導(dǎo)出更復(fù)雜分布的起點(diǎn)。
這種分布只有兩個(gè)可能的結(jié)果和一個(gè)試驗(yàn)。
一個(gè)簡(jiǎn)單的例子可以是拋擲偏斜/無(wú)偏硬幣。在此示例中,可以認(rèn)為結(jié)果可能是正面的概率等于p,而對(duì)于反面則是(1-p)(包含所有可能結(jié)果的互斥事件的概率總和為1)。
在下圖中,我提供了一個(gè)偏向硬幣情況下伯努利分布的例子。
均勻分布
均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結(jié)果的數(shù)量可能不受限制,并且所有事件的發(fā)生概率均相同。
例如,想象一下一個(gè)骰子的擲骰。在這種情況下,存在多個(gè)可能的事件,每個(gè)事件都有相同的發(fā)生概率。
二項(xiàng)分布
二項(xiàng)分布可以被認(rèn)為是遵循伯努利分布的事件結(jié)果的總和。因此,二項(xiàng)分布用于二元結(jié)果事件,成功和失敗的可能性在所有后續(xù)試驗(yàn)中均相同。此分布采用兩個(gè)參數(shù)作為輸入:事件發(fā)生的次數(shù)和分配給兩個(gè)類(lèi)別之一的概率。
一個(gè)實(shí)際的二項(xiàng)式分布的簡(jiǎn)單示例可以是重復(fù)一定次數(shù)的有偏/無(wú)偏硬幣的拋擲。
改變偏差量將改變分布的外觀(如下圖所示)。
二項(xiàng)分布的主要特征是:
- 給定多個(gè)試驗(yàn),每個(gè)試驗(yàn)彼此獨(dú)立(一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn))。
- 每個(gè)試驗(yàn)只能導(dǎo)致兩個(gè)可能的結(jié)果(例如,獲勝或失敗),其概率分別為p和(1- p)。
如果給出成功的概率(p)和試驗(yàn)次數(shù)(n),則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率(x)(下圖)。
正態(tài)(高斯)分布
正態(tài)分布是數(shù)據(jù)科學(xué)中最常用的分布之一。我們?nèi)粘I钪邪l(fā)生的許多常見(jiàn)現(xiàn)象都遵循正態(tài)分布,例如:經(jīng)濟(jì)中的收入分布,學(xué)生的平均報(bào)告,人口的平均身高等。此外,小的隨機(jī)變量的總和還導(dǎo)致:通常遵循正態(tài)分布(中心極限定理)。
“在概率論中,中心極限定理(CLT)確定,在某些情況下,當(dāng)添加獨(dú)立隨機(jī)變量時(shí),即使原始變量本身未呈正態(tài)分布,其適當(dāng)歸一化的和也趨于正態(tài)分布。”—維基百科
可以幫助我們識(shí)別正態(tài)分布的一些特征是:
- 曲線在中心對(duì)稱(chēng)。因此,均值,眾數(shù)和中位數(shù)都等于相同的值,從而使所有值圍繞均值對(duì)稱(chēng)分布。
- 分布曲線下的面積等于1(所有概率之和必須等于1)。
可以使用以下公式得出正態(tài)分布(下圖)。
使用正態(tài)分布時(shí),分布平均值和標(biāo)準(zhǔn)偏差起著非常重要的作用。如果我們知道它們的值,則只需檢查概率分布即可輕松找出預(yù)測(cè)精確值的概率(下圖)。實(shí)際上,由于分布特性,68%的數(shù)據(jù)位于平均值的一個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi),95%的數(shù)據(jù)位于平均值的兩個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi),99.7%的數(shù)據(jù)位于平均值的三個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)。
許多機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為遵循正態(tài)分布的最佳使用數(shù)據(jù)。一些例子是:
- 高斯樸素貝葉斯分類(lèi)器
- 線性判別分析
- 二次判別分析
- 基于最小二乘的回歸模型
此外,在某些情況下,還可以通過(guò)應(yīng)用對(duì)數(shù)和平方根之類(lèi)的轉(zhuǎn)換將非正常數(shù)據(jù)轉(zhuǎn)換為正常形式。
泊松分布
泊松分布通常用于查找事件可能發(fā)生或不知道事件通常發(fā)生的頻率。此外,泊松分布還可用于預(yù)測(cè)事件在給定時(shí)間段內(nèi)可能發(fā)生多少次。
例如,保險(xiǎn)公司經(jīng)常使用泊松分布來(lái)進(jìn)行風(fēng)險(xiǎn)分析(例如,在預(yù)定時(shí)間范圍內(nèi)預(yù)測(cè)車(chē)禍?zhǔn)鹿实臄?shù)量),以決定汽車(chē)保險(xiǎn)的價(jià)格。
當(dāng)使用Poisson Distributions時(shí),我們可以確信發(fā)生不同事件之間的平均時(shí)間,但是事件發(fā)生的確切時(shí)刻在時(shí)間上是隨機(jī)間隔的。
泊松分布可以使用以下公式建模(下圖),其中λ表示一個(gè)時(shí)期內(nèi)可能發(fā)生的預(yù)期事件數(shù)。
描述泊松過(guò)程的主要特征是:
- 事件彼此獨(dú)立(如果事件發(fā)生,則不會(huì)改變另一個(gè)事件發(fā)生的可能性)。
- 一個(gè)事件可以發(fā)生任何次數(shù)(在定義的時(shí)間段內(nèi))。
- 兩個(gè)事件不能同時(shí)發(fā)生。
- 事件發(fā)生之間的平均速率是恒定的。
在下圖中,顯示了改變周期(λ)中可能發(fā)生的事件的預(yù)期數(shù)目如何改變泊松分布。
指數(shù)分布
最后,指數(shù)分布用于對(duì)不同事件發(fā)生之間的時(shí)間進(jìn)行建模。
舉例來(lái)說(shuō),假設(shè)我們?cè)谝患也蛷d工作,并且希望預(yù)測(cè)到到不同顧客進(jìn)入餐廳之間的時(shí)間間隔。針對(duì)此類(lèi)問(wèn)題使用指數(shù)分布,可能是一個(gè)理想的起點(diǎn)。
指數(shù)分布的另一個(gè)常見(jiàn)應(yīng)用是生存分析(例如,設(shè)備/機(jī)器的預(yù)期壽命)。
指數(shù)分布由參數(shù)λ調(diào)節(jié)。λ值越大,指數(shù)曲線到十年的速度就越快(下圖)。
指數(shù)分布使用以下公式建模(下圖)。
如果你喜歡本文的話,歡迎點(diǎn)贊轉(zhuǎn)發(fā)!謝謝。
看完別走還有驚喜!
我精心整理了計(jì)算機(jī)/Python/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)相關(guān)的2TB視頻課與書(shū)籍,價(jià)值1W元。關(guān)注微信公眾號(hào)“計(jì)算機(jī)與AI”,點(diǎn)擊下方菜單即可獲取網(wǎng)盤(pán)鏈接。
?審核編輯:符乾江
-
數(shù)據(jù)挖掘
+關(guān)注
關(guān)注
1文章
406瀏覽量
24524 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8471瀏覽量
133695
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
VirtualLab Fusion中的可視化設(shè)置
七款經(jīng)久不衰的數(shù)據(jù)可視化工具!

“一鍵尋閥”拓?fù)?b class='flag-5'>數(shù)據(jù)可視化,管網(wǎng)分布監(jiān)控 #拓?fù)?#數(shù)據(jù)可視化 #管網(wǎng)分布
什么是大屏數(shù)據(jù)可視化?特點(diǎn)有哪些?
如何找到適合的大屏數(shù)據(jù)可視化系統(tǒng)
Minitab 數(shù)據(jù)可視化技巧
三維可視化運(yùn)用的主要技術(shù)
物聯(lián)網(wǎng)云平臺(tái)地圖數(shù)據(jù)可視化
大屏數(shù)據(jù)可視化 開(kāi)源

態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)有哪些
大屏數(shù)據(jù)可視化的作用和意義
三維可視化的優(yōu)勢(shì)有哪些?

評(píng)論