无人区在线观看免费完整版免费,一个人免费观看www高清,在线a久青草视频在线观看g

在某些分布假設(shè)下，某些機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為最佳工作。因此，了解我們正在使用哪個(gè)發(fā)行版可以幫助我們確定最適合使用哪些模型。

介紹

擁有良好的統(tǒng)計(jì)背景可能對(duì)數(shù)據(jù)科學(xué)家的日常生活大有裨益。每次我們開(kāi)始探索新的數(shù)據(jù)集時(shí)，我們首先需要進(jìn)行探索性數(shù)據(jù)分析（EDA），以了解某些功能的主要特征是什么。如果我們能夠了解數(shù)據(jù)分布中是否存在任何模式，則可以量身定制最適合我們的案例研究的機(jī)器學(xué)習(xí)模型。這樣，我們將能夠在更短的時(shí)間內(nèi)獲得更好的結(jié)果（減少優(yōu)化步驟）。實(shí)際上，某些機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為在某些分布假設(shè)下效果最佳。因此，了解我們正在使用哪些發(fā)行版可以幫助我們確定最適合使用哪些模型。

同類(lèi)型的數(shù)據(jù)

我們正在與一個(gè)數(shù)據(jù)集工作，每次，我們的數(shù)據(jù)代表一個(gè)樣本從人口。然后，使用此樣本，我們可以嘗試了解其主要模式，以便我們可以使用它對(duì)整個(gè)人口進(jìn)行預(yù)測(cè)（即使我們從未有機(jī)會(huì)檢查整個(gè)人口）。

假設(shè)我們要根據(jù)一組特定功能來(lái)預(yù)測(cè)房屋的價(jià)格。我們也許可以在線找到一個(gè)包含舊金山所有房?jī)r(jià)的數(shù)據(jù)集（我們的樣本），并且進(jìn)行一些統(tǒng)計(jì)分析之后，我們也許可以對(duì)美國(guó)任何其他城市的房?jī)r(jià)做出相當(dāng)準(zhǔn)確的預(yù)測(cè)（我們的人口）。

數(shù)據(jù)集由兩種主要類(lèi)型的數(shù)據(jù)組成：數(shù)字（例如整數(shù)，浮點(diǎn)數(shù)）和分類(lèi)（例如名稱(chēng)，筆記本電腦品牌）。

數(shù)值數(shù)據(jù)還可以分為其他兩類(lèi)：離散和繼續(xù)。離散數(shù)據(jù)只能采用某些值（例如學(xué)校中的學(xué)生人數(shù)），而連續(xù)數(shù)據(jù)可以采用任何實(shí)數(shù)或分?jǐn)?shù)值（例如身高和體重的概念）。

從離散隨機(jī)變量中，可以計(jì)算出概率質(zhì)量函數(shù)，而從連續(xù)隨機(jī)變量中，可以得出概率密度函數(shù)。

概率質(zhì)量函數(shù)給出了一個(gè)變量可以等于某個(gè)值的概率，相反，概率密度函數(shù)的值本身并不是概率，因?yàn)樗鼈兪紫刃枰诮o定范圍內(nèi)進(jìn)行積分。

自然界中存在許多不同的概率分布（概率分布流程圖），在本文中，我將向您介紹數(shù)據(jù)科學(xué)中最常用的概率分布。

首先，讓我們導(dǎo)入所有必需的庫(kù)：

伯努利分布

伯努利分布是最容易理解的分布之一，可用作導(dǎo)出更復(fù)雜分布的起點(diǎn)。

這種分布只有兩個(gè)可能的結(jié)果和一個(gè)試驗(yàn)。

一個(gè)簡(jiǎn)單的例子可以是拋擲偏斜/無(wú)偏硬幣。在此示例中，可以認(rèn)為結(jié)果可能是正面的概率等于p，而對(duì)于反面則是（1-p）（包含所有可能結(jié)果的互斥事件的概率總和為1）。

在下圖中，我提供了一個(gè)偏向硬幣情況下伯努利分布的例子。

均勻分布

均勻分布可以很容易地從伯努利分布中得出。在這種情況下，結(jié)果的數(shù)量可能不受限制，并且所有事件的發(fā)生概率均相同。

例如，想象一下一個(gè)骰子的擲骰。在這種情況下，存在多個(gè)可能的事件，每個(gè)事件都有相同的發(fā)生概率。

二項(xiàng)分布

二項(xiàng)分布可以被認(rèn)為是遵循伯努利分布的事件結(jié)果的總和。因此，二項(xiàng)分布用于二元結(jié)果事件，成功和失敗的可能性在所有后續(xù)試驗(yàn)中均相同。此分布采用兩個(gè)參數(shù)作為輸入：事件發(fā)生的次數(shù)和分配給兩個(gè)類(lèi)別之一的概率。

一個(gè)實(shí)際的二項(xiàng)式分布的簡(jiǎn)單示例可以是重復(fù)一定次數(shù)的有偏/無(wú)偏硬幣的拋擲。

改變偏差量將改變分布的外觀（如下圖所示）。

二項(xiàng)分布的主要特征是：

給定多個(gè)試驗(yàn)，每個(gè)試驗(yàn)彼此獨(dú)立（一項(xiàng)試驗(yàn)的結(jié)果不會(huì)影響另一項(xiàng)試驗(yàn)）。
每個(gè)試驗(yàn)只能導(dǎo)致兩個(gè)可能的結(jié)果（例如，獲勝或失敗），其概率分別為p和（1- p）。

如果給出成功的概率（p）和試驗(yàn)次數(shù)（n），則可以使用以下公式計(jì)算這n次試驗(yàn)中的成功概率（x）（下圖）。

正態(tài)（高斯）分布

正態(tài)分布是數(shù)據(jù)科學(xué)中最常用的分布之一。我們?nèi)粘Ｉ钪邪l(fā)生的許多常見(jiàn)現(xiàn)象都遵循正態(tài)分布，例如：經(jīng)濟(jì)中的收入分布，學(xué)生的平均報(bào)告，人口的平均身高等。此外，小的隨機(jī)變量的總和還導(dǎo)致：通常遵循正態(tài)分布（中心極限定理）。

“在概率論中，中心極限定理（CLT）確定，在某些情況下，當(dāng)添加獨(dú)立隨機(jī)變量時(shí)，即使原始變量本身未呈正態(tài)分布，其適當(dāng)歸一化的和也趨于正態(tài)分布。”
—維基百科

可以幫助我們識(shí)別正態(tài)分布的一些特征是：

曲線在中心對(duì)稱(chēng)。因此，均值，眾數(shù)和中位數(shù)都等于相同的值，從而使所有值圍繞均值對(duì)稱(chēng)分布。
分布曲線下的面積等于1（所有概率之和必須等于1）。

可以使用以下公式得出正態(tài)分布（下圖）。

使用正態(tài)分布時(shí)，分布平均值和標(biāo)準(zhǔn)偏差起著非常重要的作用。如果我們知道它們的值，則只需檢查概率分布即可輕松找出預(yù)測(cè)精確值的概率（下圖）。實(shí)際上，由于分布特性，68％的數(shù)據(jù)位于平均值的一個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)，95％的數(shù)據(jù)位于平均值的兩個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)，99.7％的數(shù)據(jù)位于平均值的三個(gè)標(biāo)準(zhǔn)偏差范圍內(nèi)。

許多機(jī)器學(xué)習(xí)模型被設(shè)計(jì)為遵循正態(tài)分布的最佳使用數(shù)據(jù)。一些例子是：

高斯樸素貝葉斯分類(lèi)器
線性判別分析
二次判別分析
基于最小二乘的回歸模型

此外，在某些情況下，還可以通過(guò)應(yīng)用對(duì)數(shù)和平方根之類(lèi)的轉(zhuǎn)換將非正常數(shù)據(jù)轉(zhuǎn)換為正常形式。

泊松分布

泊松分布通常用于查找事件可能發(fā)生或不知道事件通常發(fā)生的頻率。此外，泊松分布還可用于預(yù)測(cè)事件在給定時(shí)間段內(nèi)可能發(fā)生多少次。

例如，保險(xiǎn)公司經(jīng)常使用泊松分布來(lái)進(jìn)行風(fēng)險(xiǎn)分析（例如，在預(yù)定時(shí)間范圍內(nèi)預(yù)測(cè)車(chē)禍?zhǔn)鹿实臄?shù)量），以決定汽車(chē)保險(xiǎn)的價(jià)格。

當(dāng)使用Poisson Distributions時(shí)，我們可以確信發(fā)生不同事件之間的平均時(shí)間，但是事件發(fā)生的確切時(shí)刻在時(shí)間上是隨機(jī)間隔的。

泊松分布可以使用以下公式建模（下圖），其中λ表示一個(gè)時(shí)期內(nèi)可能發(fā)生的預(yù)期事件數(shù)。

描述泊松過(guò)程的主要特征是：

事件彼此獨(dú)立（如果事件發(fā)生，則不會(huì)改變另一個(gè)事件發(fā)生的可能性）。
一個(gè)事件可以發(fā)生任何次數(shù)（在定義的時(shí)間段內(nèi)）。
兩個(gè)事件不能同時(shí)發(fā)生。
事件發(fā)生之間的平均速率是恒定的。

在下圖中，顯示了改變周期（λ）中可能發(fā)生的事件的預(yù)期數(shù)目如何改變泊松分布。

指數(shù)分布

最后，指數(shù)分布用于對(duì)不同事件發(fā)生之間的時(shí)間進(jìn)行建模。

舉例來(lái)說(shuō)，假設(shè)我們?cè)谝患也蛷d工作，并且希望預(yù)測(cè)到到不同顧客進(jìn)入餐廳之間的時(shí)間間隔。針對(duì)此類(lèi)問(wèn)題使用指數(shù)分布，可能是一個(gè)理想的起點(diǎn)。

指數(shù)分布的另一個(gè)常見(jiàn)應(yīng)用是生存分析（例如，設(shè)備/機(jī)器的預(yù)期壽命）。

指數(shù)分布由參數(shù)λ調(diào)節(jié)。λ值越大，指數(shù)曲線到十年的速度就越快（下圖）。

指數(shù)分布使用以下公式建模（下圖）。

如果你喜歡本文的話，歡迎點(diǎn)贊轉(zhuǎn)發(fā)！謝謝。

看完別走還有驚喜！

我精心整理了計(jì)算機(jī)/Python/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)相關(guān)的2TB視頻課與書(shū)籍，價(jià)值1W元。關(guān)注微信公眾號(hào)“計(jì)算機(jī)與AI”，點(diǎn)擊下方菜單即可獲取網(wǎng)盤(pán)鏈接。

?審核編輯：符乾江

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

+關(guān)注

關(guān)注
1

文章
406

瀏覽量
24524
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8471

瀏覽量
133695

評(píng)論

相關(guān)推薦

VirtualLab Fusion中的可視化設(shè)置

摘要 VirtualLab Fusion中的全局選項(xiàng)對(duì)話框可以輕松定制軟件的外觀和感覺(jué)。還可以保存和加載全局選項(xiàng)文件，以便可以輕松地將偏好設(shè)置從一個(gè)設(shè)備轉(zhuǎn)移到另一個(gè)設(shè)備。本文檔說(shuō)明了與可視化和結(jié)果

發(fā)表于 02-25 08:51

七款經(jīng)久不衰的數(shù)據(jù)可視化工具！

量的激增，單純通過(guò)數(shù)字和文本來(lái)分析數(shù)據(jù)已不再高效。數(shù)據(jù)可視化則提供了一種直觀、互動(dòng)性強(qiáng)的方式，幫助人們通過(guò)視覺(jué)元素，如柱狀圖、折線圖、餅圖、熱力圖等圖表形式，理解復(fù)雜的

發(fā)表于 01-19 15:24

“一鍵尋閥”拓?fù)?b class='flag-5'>數(shù)據(jù)可視化，管網(wǎng)分布監(jiān)控 #拓?fù)?#數(shù)據(jù)可視化 #管網(wǎng)分布

數(shù)據(jù)可視化

阿梨是蘋(píng)果

發(fā)布于 :2024年12月31日 14:44:36

什么是大屏數(shù)據(jù)可視化？特點(diǎn)有哪些？

大屏數(shù)據(jù)可視化是指通過(guò)大屏幕展示大量數(shù)據(jù)和信息，以直觀、可視化的方式幫助用戶(hù)理解和分析數(shù)據(jù)。這種

發(fā)表于 12-16 16:59 ?473次閱讀

如何找到適合的大屏數(shù)據(jù)可視化系統(tǒng)

選擇合適的大屏數(shù)據(jù)可視化系統(tǒng)是企業(yè)或組織在數(shù)字化轉(zhuǎn)型過(guò)程中至關(guān)重要的一步。一個(gè)優(yōu)秀的大屏數(shù)據(jù)可視化

發(fā)表于 12-13 15:47 ?317次閱讀

Minitab 數(shù)據(jù)可視化技巧

在數(shù)據(jù)分析領(lǐng)域，數(shù)據(jù)可視化是一種將數(shù)據(jù)以圖形或圖像的形式展示出來(lái)的技術(shù)，它可以幫助我們更直觀地理解數(shù)據(jù)，發(fā)現(xiàn)

發(fā)表于 12-02 15:40 ?942次閱讀

三維可視化運(yùn)用的主要技術(shù)

三維可視化技術(shù)是一種強(qiáng)大的工具，可用于呈現(xiàn)復(fù)雜的數(shù)據(jù)和概念，使人們能夠更直觀地理解信息。在當(dāng)今數(shù)字化時(shí)代，三維可視化已經(jīng)成為許多領(lǐng)域中不可或缺的技術(shù)，包括工程、醫(yī)學(xué)、

發(fā)表于 07-19 13:56 ?473次閱讀

物聯(lián)網(wǎng)云平臺(tái)地圖數(shù)據(jù)可視化

可視化技術(shù)以其直觀、高效、易于理解的特點(diǎn)，成為了一個(gè)不可或缺的組成部分。物聯(lián)網(wǎng)云平臺(tái)地圖數(shù)據(jù)可視化功能，是指將物聯(lián)網(wǎng)設(shè)備采集的各類(lèi)數(shù)據(jù)，通

發(fā)表于 07-01 17:10 ?491次閱讀

大屏數(shù)據(jù)可視化 開(kāi)源

在當(dāng)今信息爆炸的時(shí)代，數(shù)據(jù)已經(jīng)成為各個(gè)行業(yè)決策制定和業(yè)務(wù)發(fā)展的關(guān)鍵。為了更直觀、準(zhǔn)確地理解和利用海量數(shù)據(jù)，大屏數(shù)據(jù)可視化 成為一種強(qiáng)大的工

發(fā)表于 06-27 16:06 ?568次閱讀

態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)有哪些

智慧華盛恒輝態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)是一種將數(shù)據(jù)以圖形、圖像、動(dòng)畫(huà)等視覺(jué)形式展現(xiàn)出來(lái)的技術(shù)，特別是在處理和分析態(tài)勢(shì)數(shù)據(jù)時(shí)，該技術(shù)能夠?qū)?fù)雜的數(shù)據(jù)轉(zhuǎn)

發(fā)表于 06-11 15:47 ?502次閱讀

大屏數(shù)據(jù)可視化的作用和意義

大屏數(shù)據(jù)可視化是指利用大屏幕設(shè)備展示數(shù)據(jù)信息，通過(guò)圖表、圖像、動(dòng)畫(huà)等視覺(jué)化手段將數(shù)據(jù)呈現(xiàn)出來(lái)，以便用戶(hù)能夠直觀、清晰

發(fā)表于 06-03 17:56 ?918次閱讀

三維可視化的優(yōu)勢(shì)有哪些？

觀的數(shù)據(jù)表達(dá)：三維可視化使數(shù)據(jù)以更接近真實(shí)世界的方式呈現(xiàn)，幫助人們更直觀地理解數(shù)據(jù)之間的關(guān)系、模式和趨勢(shì)。通過(guò)在三維空間中查看數(shù)據(jù)，人們可以

發(fā)表于 05-28 17:03 ?899次閱讀

大屏數(shù)據(jù)可視化是什么？運(yùn)用了什么技術(shù)

大屏數(shù)據(jù)可視化 是一種利用大屏幕設(shè)備展示數(shù)據(jù)可視化結(jié)果的技術(shù)，旨在以更生動(dòng)、直觀的方式呈現(xiàn)數(shù)據(jù)信息。這種

發(fā)表于 05-24 15:35 ?1051次閱讀

智慧城市-可視化，進(jìn)一步提高信息化建設(shè)水平

智能城市可視化是指整合各種城市信息資源，以地圖、虛擬現(xiàn)實(shí)等形式展示各種城市數(shù)據(jù)，更直觀地了解和管理城市的運(yùn)行和發(fā)展。智能城市可視化主要通過(guò)

發(fā)表于 05-22 16:49 ?581次閱讀

態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)有哪些

智慧華盛恒輝態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)是一種將復(fù)雜、動(dòng)態(tài)的態(tài)勢(shì)數(shù)據(jù)以直觀、易于理解的方式展現(xiàn)出來(lái)的技術(shù)手段。以下是幾種主要的態(tài)勢(shì)數(shù)據(jù)

發(fā)表于 04-22 15:17 ?547次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

可視化數(shù)據(jù)科學(xué)中的概率分布可幫你更好地理解各種分布

同類(lèi)型的數(shù)據(jù)

泊松分布

指數(shù)分布

如果你喜歡本文的話，歡迎點(diǎn)贊轉(zhuǎn)發(fā)！謝謝。

評(píng)論

VirtualLab Fusion中的可視化設(shè)置

七款經(jīng)久不衰的數(shù)據(jù)可視化工具！

“一鍵尋閥”拓?fù)?b class='flag-5'>數(shù)據(jù)可視化，管網(wǎng)分布監(jiān)控 #拓?fù)?#數(shù)據(jù)可視化 #管網(wǎng)分布

什么是大屏數(shù)據(jù)可視化？特點(diǎn)有哪些？

如何找到適合的大屏數(shù)據(jù)可視化系統(tǒng)

Minitab 數(shù)據(jù)可視化技巧

三維可視化運(yùn)用的主要技術(shù)

物聯(lián)網(wǎng)云平臺(tái)地圖數(shù)據(jù)可視化

大屏數(shù)據(jù)可視化開(kāi)源

態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)有哪些

大屏數(shù)據(jù)可視化的作用和意義

三維可視化的優(yōu)勢(shì)有哪些？

大屏數(shù)據(jù)可視化是什么？運(yùn)用了什么技術(shù)

智慧城市-可視化，進(jìn)一步提高信息化建設(shè)水平

態(tài)勢(shì)數(shù)據(jù)可視化技術(shù)有哪些

電子發(fā)燒友