色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

可視化數據科學中的概率分布可幫你更好地理解各種分布

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-14 23:07 ? 次閱讀

在某些分布假設下,某些機器學習模型被設計為最佳工作。因此,了解我們正在使用哪個發行版可以幫助我們確定最適合使用哪些模型。

介紹

擁有良好的統計背景可能對數據科學家的日常生活大有裨益。每次我們開始探索新的數據集時,我們首先需要進行探索性數據分析(EDA),以了解某些功能的主要特征是什么。如果我們能夠了解數據分布中是否存在任何模式,則可以量身定制最適合我們的案例研究的機器學習模型。這樣,我們將能夠在更短的時間內獲得更好的結果(減少優化步驟)。實際上,某些機器學習模型被設計為在某些分布假設下效果最佳。因此,了解我們正在使用哪些發行版可以幫助我們確定最適合使用哪些模型。

同類型的數據

我們正在與一個數據集工作,每次,我們的數據代表一個樣本人口。然后,使用此樣本,我們可以嘗試了解其主要模式,以便我們可以使用它對整個人口進行預測(即使我們從未有機會檢查整個人口)。

假設我們要根據一組特定功能來預測房屋的價格。我們也許可以在線找到一個包含舊金山所有房價的數據集(我們的樣本),并且進行一些統計分析之后,我們也許可以對美國任何其他城市的房價做出相當準確的預測(我們的人口)。

數據集由兩種主要類型的數據組成:數字(例如整數,浮點數)和分類(例如名稱,筆記本電腦品牌)。

數值數據還可以分為其他兩類:離散繼續。離散數據只能采用某些值(例如學校中的學生人數),而連續數據可以采用任何實數或分數值(例如身高和體重的概念)。

從離散隨機變量中,可以計算出概率質量函數,而從連續隨機變量中,可以得出概率密度函數

概率質量函數給出了一個變量可以等于某個值的概率,相反,概率密度函數的值本身并不是概率,因為它們首先需要在給定范圍內進行積分。

自然界中存在許多不同的概率分布(概率分布流程圖),在本文中,我將向您介紹數據科學中最常用的概率分布。

首先,讓我們導入所有必需的庫:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作導出更復雜分布的起點。

這種分布只有兩個可能的結果和一個試驗。

一個簡單的例子可以是拋擲偏斜/無偏硬幣。在此示例中,可以認為結果可能是正面的概率等于p,而對于反面則是(1-p)(包含所有可能結果的互斥事件的概率總和為1)。

在下圖中,我提供了一個偏向硬幣情況下伯努利分布的例子。

均勻分布

均勻分布可以很容易地從伯努利分布中得出。在這種情況下,結果的數量可能不受限制,并且所有事件的發生概率均相同。

例如,想象一下一個骰子的擲骰。在這種情況下,存在多個可能的事件,每個事件都有相同的發生概率。

二項分布

二項分布可以被認為是遵循伯努利分布的事件結果的總和。因此,二項分布用于二元結果事件,成功和失敗的可能性在所有后續試驗中均相同。此分布采用兩個參數作為輸入:事件發生的次數和分配給兩個類別之一的概率。

一個實際的二項式分布的簡單示例可以是重復一定次數的有偏/無偏硬幣的拋擲。

改變偏差量將改變分布的外觀(如下圖所示)。

二項分布的主要特征是:

  • 給定多個試驗,每個試驗彼此獨立(一項試驗的結果不會影響另一項試驗)。
  • 每個試驗只能導致兩個可能的結果(例如,獲勝或失敗),其概率分別為p(1- p)

如果給出成功的概率(p)和試驗次數(n),則可以使用以下公式計算這n次試驗中的成功概率(x)(下圖)。

正態(高斯)分布

正態分布是數據科學中最常用的分布之一。我們日常生活中發生的許多常見現象都遵循正態分布,例如:經濟中的收入分布,學生的平均報告,人口的平均身高等。此外,小的隨機變量的總和還導致:通常遵循正態分布(中心極限定理)。

“在概率論中,中心極限定理CLT)確定,在某些情況下,當添加獨立隨機變量時,即使原始變量本身未呈正態分布,其適當歸一化的和也趨于正態分布。”

—維基百科

可以幫助我們識別正態分布的一些特征是:

  • 曲線在中心對稱。因此,均值,眾數和中位數都等于相同的值,從而使所有值圍繞均值對稱分布。
  • 分布曲線下的面積等于1(所有概率之和必須等于1)。

可以使用以下公式得出正態分布(下圖)。

使用正態分布時,分布平均值和標準偏差起著非常重要的作用。如果我們知道它們的值,則只需檢查概率分布即可輕松找出預測精確值的概率(下圖)。實際上,由于分布特性,68%的數據位于平均值的一個標準偏差范圍內,95%的數據位于平均值的兩個標準偏差范圍內,99.7%的數據位于平均值的三個標準偏差范圍內。

許多機器學習模型被設計為遵循正態分布的最佳使用數據。一些例子是:

  • 高斯樸素貝葉斯分類器
  • 線性判別分析
  • 二次判別分析
  • 基于最小二乘的回歸模型

此外,在某些情況下,還可以通過應用對數和平方根之類的轉換將非正常數據轉換為正常形式。

泊松分布

泊松分布通常用于查找事件可能發生或不知道事件通常發生的頻率。此外,泊松分布還可用于預測事件在給定時間段內可能發生多少次。

例如,保險公司經常使用泊松分布來進行風險分析(例如,在預定時間范圍內預測車禍事故的數量),以決定汽車保險的價格。

當使用Poisson Distributions時,我們可以確信發生不同事件之間的平均時間,但是事件發生的確切時刻在時間上是隨機間隔的。

泊松分布可以使用以下公式建模(下圖),其中λ表示一個時期內可能發生的預期事件數。

描述泊松過程的主要特征是:

  1. 事件彼此獨立(如果事件發生,則不會改變另一個事件發生的可能性)。
  2. 一個事件可以發生任何次數(在定義的時間段內)。
  3. 兩個事件不能同時發生。
  4. 事件發生之間的平均速率是恒定的。

在下圖中,顯示了改變周期(λ)中可能發生的事件的預期數目如何改變泊松分布。

指數分布

最后,指數分布用于對不同事件發生之間的時間進行建模。

舉例來說,假設我們在一家餐廳工作,并且希望預測到到不同顧客進入餐廳之間的時間間隔。針對此類問題使用指數分布,可能是一個理想的起點。

指數分布的另一個常見應用是生存分析(例如,設備/機器的預期壽命)。

指數分布由參數λ調節。λ值越大,指數曲線到十年的速度就越快(下圖)。

指數分布使用以下公式建模(下圖)。

如果你喜歡本文的話,歡迎點贊轉發!謝謝。

看完別走還有驚喜!

我精心整理了計算機/Python/機器學習/深度學習相關的2TB視頻課與書籍,價值1W元。關注微信公眾號“計算機與AI”,點擊下方菜單即可獲取網盤鏈接。

?審核編輯:符乾江

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24264
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132770
收藏 人收藏

    評論

    相關推薦

    “一鍵尋閥”拓撲數據可視化,管網分布監控 #拓撲 #數據可視化 #管網分布

    數據可視化
    阿梨是蘋果
    發布于 :2024年12月31日 14:44:36

    什么是大屏數據可視化?特點有哪些?

    大屏數據可視化是指通過大屏幕展示大量數據和信息,以直觀、可視化的方式幫助用戶理解和分析數據。這種
    的頭像 發表于 12-16 16:59 ?218次閱讀

    如何找到適合的大屏數據可視化系統

    選擇合適的大屏數據可視化系統是企業或組織在數字轉型過程至關重要的一步。一個優秀的大屏數據可視化
    的頭像 發表于 12-13 15:47 ?137次閱讀

    Minitab 數據可視化技巧

    數據分析領域,數據可視化是一種將數據以圖形或圖像的形式展示出來的技術,它可以幫助我們更直觀地理解數據,發現
    的頭像 發表于 12-02 15:40 ?362次閱讀

    智慧園區數據可視化優勢體現在哪些地方

    、地圖、儀表盤等形式呈現數據,使復雜的數據變得直觀易懂,幫助用戶更快速、準確地理解數據。 2.實時監控與反饋:數據可視化工具可以實時監測園區
    的頭像 發表于 11-15 10:30 ?207次閱讀
    智慧園區<b class='flag-5'>數據</b><b class='flag-5'>可視化</b>優勢體現在哪些地方

    三維可視化運用的主要技術

    三維可視化技術是一種強大的工具,可用于呈現復雜的數據和概念,使人們能夠更直觀地理解信息。在當今數字化時代,三維可視化已經成為許多領域中不可或缺的技術,包括工程、醫學、
    的頭像 發表于 07-19 13:56 ?307次閱讀

    物聯網云平臺地圖數據可視化

    可視化技術以其直觀、高效、易于理解的特點,成為了一個不可或缺的組成部分。 物聯網云平臺地圖數據可視化功能,是指將物聯網設備采集的各類數據,通
    的頭像 發表于 07-01 17:10 ?375次閱讀

    大屏數據可視化 開源

    在當今信息爆炸的時代,數據已經成為各個行業決策制定和業務發展的關鍵。為了更直觀、準確地理解和利用海量數據, 大屏數據可視化 成為一種強大的工
    的頭像 發表于 06-27 16:06 ?428次閱讀
    大屏<b class='flag-5'>數據</b><b class='flag-5'>可視化</b> 開源

    態勢數據可視化技術有哪些

    智慧華盛恒輝態勢數據可視化技術是一種將數據以圖形、圖像、動畫等視覺形式展現出來的技術,特別是在處理和分析態勢數據時,該技術能夠將復雜的數據
    的頭像 發表于 06-11 15:47 ?388次閱讀

    大屏數據可視化的作用和意義

    大屏數據可視化是指利用大屏幕設備展示數據信息,通過圖表、圖像、動畫等視覺手段將數據呈現出來,以便用戶能夠直觀、清晰
    的頭像 發表于 06-03 17:56 ?696次閱讀

    三維可視化的優勢有哪些?

    觀的數據表達:三維可視化使數據以更接近真實世界的方式呈現,幫助人們更直觀地理解數據之間的關系、模式和趨勢。通過在三維空間中查看數據,人們可以
    的頭像 發表于 05-28 17:03 ?707次閱讀
    三維<b class='flag-5'>可視化</b>的優勢有哪些?

    大屏數據可視化是什么?運用了什么技術

    大屏數據可視化 是一種利用大屏幕設備展示數據可視化結果的技術,旨在以更生動、直觀的方式呈現數據信息。這種
    的頭像 發表于 05-24 15:35 ?883次閱讀

    智慧城市-可視化,進一步提高信息建設水平

    智能城市可視化是指整合各種城市信息資源,以地圖、虛擬現實等形式展示各種城市數據,更直觀地了解和管理城市的運行和發展。智能城市可視化主要通過
    的頭像 發表于 05-22 16:49 ?465次閱讀

    態勢數據可視化技術有哪些

    智慧華盛恒輝態勢數據可視化技術是一種將復雜、動態的態勢數據以直觀、易于理解的方式展現出來的技術手段。以下是幾種主要的態勢數據
    的頭像 發表于 04-22 15:17 ?420次閱讀

    態勢可視化系統軟件

    智慧華盛恒輝態勢可視化是一種對特定環境中一段時間內的持續動作和改變的目標實體的感知、認知和理解,并最終以直觀、靈活、逼真的方式展示總體狀態的技術。 智慧華盛恒輝可視化技術是戰場環境表達的最重要形式
    的頭像 發表于 04-22 14:48 ?337次閱讀
    主站蜘蛛池模板: 99视频精品全部免费免费观| 高中生被C到爽哭视频免费| 国产精品人妻无码久久久蜜桃 | 国精品产露脸偷拍视频| 又黄又猛又爽大片免费| 欧美成人3d动漫专区| 第一次处破女高清电影| 亚洲成AV人电影在线观看| 久久夜色撩人精品国产| free18sex性自拍裸舞| 无码天堂亚洲国产AV久久| 久久精品熟女亚洲AV国产| XXOO麻豆国产在线九九爱| 亚洲大片在线观看| 男生插女生下体| 国产睡熟迷奷系列网站| 99爱视频在线观看| 无码日韩人妻精品久久蜜桃入口 | 亚洲精品乱码久久久久久中文字幕 | 俄罗斯女肥臀大屁BBW| 亚洲午夜久久久精品影院| 欧美肥婆性生活| 韩国hd高清xxx| 99久久国产极品蜜臀AV酒店| 无限资源在线完整高清观看1| 久久偷拍人| 国产精品玖玖玖影院| 999人在线精品播放视频| 亚洲AV无码国产精品色在线看| 男污女XO猛烈的动态图| 黑人特黄AA完整性大片| 成人影院久久久久久影院| 在线观看免费av网站| 无码射肉在线播放视频| 欧洲兽交另类AVXXX| 久久免费看少妇高潮A片JA | 亚洲欧美日韩综合影院| 日韩av无码在线直播| 六级黄色片| 国内精品国内自产视频| 冈本视频黄页正版|