在某些分布假設下,某些機器學習模型被設計為最佳工作。因此,了解我們正在使用哪個發行版可以幫助我們確定最適合使用哪些模型。
介紹
擁有良好的統計背景可能對數據科學家的日常生活大有裨益。每次我們開始探索新的數據集時,我們首先需要進行探索性數據分析(EDA),以了解某些功能的主要特征是什么。如果我們能夠了解數據分布中是否存在任何模式,則可以量身定制最適合我們的案例研究的機器學習模型。這樣,我們將能夠在更短的時間內獲得更好的結果(減少優化步驟)。實際上,某些機器學習模型被設計為在某些分布假設下效果最佳。因此,了解我們正在使用哪些發行版可以幫助我們確定最適合使用哪些模型。
同類型的數據
我們正在與一個數據集工作,每次,我們的數據代表一個樣本從人口。然后,使用此樣本,我們可以嘗試了解其主要模式,以便我們可以使用它對整個人口進行預測(即使我們從未有機會檢查整個人口)。
假設我們要根據一組特定功能來預測房屋的價格。我們也許可以在線找到一個包含舊金山所有房價的數據集(我們的樣本),并且進行一些統計分析之后,我們也許可以對美國任何其他城市的房價做出相當準確的預測(我們的人口)。
數據集由兩種主要類型的數據組成:數字(例如整數,浮點數)和分類(例如名稱,筆記本電腦品牌)。
數值數據還可以分為其他兩類:離散和繼續。離散數據只能采用某些值(例如學校中的學生人數),而連續數據可以采用任何實數或分數值(例如身高和體重的概念)。
從離散隨機變量中,可以計算出概率質量函數,而從連續隨機變量中,可以得出概率密度函數。
概率質量函數給出了一個變量可以等于某個值的概率,相反,概率密度函數的值本身并不是概率,因為它們首先需要在給定范圍內進行積分。
自然界中存在許多不同的概率分布(概率分布流程圖),在本文中,我將向您介紹數據科學中最常用的概率分布。
首先,讓我們導入所有必需的庫:
伯努利分布
伯努利分布是最容易理解的分布之一,可用作導出更復雜分布的起點。
這種分布只有兩個可能的結果和一個試驗。
一個簡單的例子可以是拋擲偏斜/無偏硬幣。在此示例中,可以認為結果可能是正面的概率等于p,而對于反面則是(1-p)(包含所有可能結果的互斥事件的概率總和為1)。
在下圖中,我提供了一個偏向硬幣情況下伯努利分布的例子。
均勻分布
均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結果的數量可能不受限制,并且所有事件的發生概率均相同。
例如,想象一下一個骰子的擲骰。在這種情況下,存在多個可能的事件,每個事件都有相同的發生概率。
二項分布
二項分布可以被認為是遵循伯努利分布的事件結果的總和。因此,二項分布用于二元結果事件,成功和失敗的可能性在所有后續試驗中均相同。此分布采用兩個參數作為輸入:事件發生的次數和分配給兩個類別之一的概率。
一個實際的二項式分布的簡單示例可以是重復一定次數的有偏/無偏硬幣的拋擲。
改變偏差量將改變分布的外觀(如下圖所示)。
二項分布的主要特征是:
- 給定多個試驗,每個試驗彼此獨立(一項試驗的結果不會影響另一項試驗)。
- 每個試驗只能導致兩個可能的結果(例如,獲勝或失敗),其概率分別為p和(1- p)。
如果給出成功的概率(p)和試驗次數(n),則可以使用以下公式計算這n次試驗中的成功概率(x)(下圖)。
正態(高斯)分布
正態分布是數據科學中最常用的分布之一。我們日常生活中發生的許多常見現象都遵循正態分布,例如:經濟中的收入分布,學生的平均報告,人口的平均身高等。此外,小的隨機變量的總和還導致:通常遵循正態分布(中心極限定理)。
“在概率論中,中心極限定理(CLT)確定,在某些情況下,當添加獨立隨機變量時,即使原始變量本身未呈正態分布,其適當歸一化的和也趨于正態分布。”—維基百科
可以幫助我們識別正態分布的一些特征是:
- 曲線在中心對稱。因此,均值,眾數和中位數都等于相同的值,從而使所有值圍繞均值對稱分布。
- 分布曲線下的面積等于1(所有概率之和必須等于1)。
可以使用以下公式得出正態分布(下圖)。
使用正態分布時,分布平均值和標準偏差起著非常重要的作用。如果我們知道它們的值,則只需檢查概率分布即可輕松找出預測精確值的概率(下圖)。實際上,由于分布特性,68%的數據位于平均值的一個標準偏差范圍內,95%的數據位于平均值的兩個標準偏差范圍內,99.7%的數據位于平均值的三個標準偏差范圍內。
許多機器學習模型被設計為遵循正態分布的最佳使用數據。一些例子是:
- 高斯樸素貝葉斯分類器
- 線性判別分析
- 二次判別分析
- 基于最小二乘的回歸模型
此外,在某些情況下,還可以通過應用對數和平方根之類的轉換將非正常數據轉換為正常形式。
泊松分布
泊松分布通常用于查找事件可能發生或不知道事件通常發生的頻率。此外,泊松分布還可用于預測事件在給定時間段內可能發生多少次。
例如,保險公司經常使用泊松分布來進行風險分析(例如,在預定時間范圍內預測車禍事故的數量),以決定汽車保險的價格。
當使用Poisson Distributions時,我們可以確信發生不同事件之間的平均時間,但是事件發生的確切時刻在時間上是隨機間隔的。
泊松分布可以使用以下公式建模(下圖),其中λ表示一個時期內可能發生的預期事件數。
描述泊松過程的主要特征是:
- 事件彼此獨立(如果事件發生,則不會改變另一個事件發生的可能性)。
- 一個事件可以發生任何次數(在定義的時間段內)。
- 兩個事件不能同時發生。
- 事件發生之間的平均速率是恒定的。
在下圖中,顯示了改變周期(λ)中可能發生的事件的預期數目如何改變泊松分布。
指數分布
最后,指數分布用于對不同事件發生之間的時間進行建模。
舉例來說,假設我們在一家餐廳工作,并且希望預測到到不同顧客進入餐廳之間的時間間隔。針對此類問題使用指數分布,可能是一個理想的起點。
指數分布的另一個常見應用是生存分析(例如,設備/機器的預期壽命)。
指數分布由參數λ調節。λ值越大,指數曲線到十年的速度就越快(下圖)。
指數分布使用以下公式建模(下圖)。
如果你喜歡本文的話,歡迎點贊轉發!謝謝。
看完別走還有驚喜!
我精心整理了計算機/Python/機器學習/深度學習相關的2TB視頻課與書籍,價值1W元。關注微信公眾號“計算機與AI”,點擊下方菜單即可獲取網盤鏈接。
?審核編輯:符乾江
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24264 -
機器學習
+關注
關注
66文章
8425瀏覽量
132770
發布評論請先 登錄
相關推薦
評論