色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

理解這些數據類型有助于對數據集進行恰當的探索性數據分析

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-08 09:35 ? 次閱讀

編者按:數據類型是統計學的重要概念。機器學習和數據科學開發者Niklas Donges簡要介紹了不同的數據類型,理解這些數據類型有助于對數據集進行恰當的探索性數據分析(EDA)——機器學習項目最被低估的部分之一。

介紹

理解不同的數據類型,是探索性數據分析(Exploratory Data Analysis,EDA)所需的關鍵預備知識,同時也有助于你選擇正確的可視化方法。你可以將數據類型看成歸類不同類型變量的方式。我們將討論主要的變量類型,以及相應的示例。有時我們會稱其為測量尺度(measurement scale)。

類別數據

類別數據(categrorical data)表示特性,例如一個人的性別,所說的語言,等等。類別數據同樣可以使用數值(例如:1表示雌性,0表示雄性)。

名目數據

名目值(nominal value)指用于標記變量的定性離散單元。你可以直接把它們想象成“標簽”。注意名目數據是無序的。因此,如果你改變名目值的順序,其語義并不會改變。下面是一些名目特征的例子:

性別:雌性、雄性。

語言:英語、法語、德語、西班牙語。

上面的性別特征也被稱為“二分(dichotomous)”值,因為它只包含兩個類別。

次序數據

次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數據一樣。例如,教育背景可以用次序值來表示:

初中

高中

大學

研究生

注意,其實初中、高中之間的差別,和高中、大學之間的差別,是不一樣的。這是次序數據的主要限制,次序值之間的差別是未知的。因此,次序值通常用于衡量非數值特征,例如愉悅程度、客戶滿意度。

數值數據

離散數據

離散數據(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數據無法測量但可以計數。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數。

你可以通過以下兩個問題檢查你處理的是否是離散數據:你可以對其計數嗎?它可以被切分成越來越小的部分嗎?

相反,如果數據可以測量但無法計數,那就是連續數據。

連續數據

連續數據(continuous data)表示測量。例如身高。

連續數據可以分為等距數據(interval data)和等比數據(ratio data)。

等距值指間隔相等的有序單元,也就是說,等距變量包含有序數值,并且我們知道這些數值之間的間隔。例如,用等距數據表示溫度:

-10

-5

0

+5

+10

+15

等距值的問題在于,它們沒有“真正的零”。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計算比率。由于沒有“真正的零”,無法應用許多描述統計學或推論統計學的方法。

等比值具有等距值的所有特性,同時也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬于等比值。

數據類型為什么重要?

數據類型是一個非常重要的概念,因為統計學方法只能應用于特定的數據類型。你需要使用不同的方式分析連續數據和類別數據。因此,理解你處理的數據的類型,讓你能夠選擇正確的分析方法。

下面我們將重新查看上面提到的每種數據類型,了解它們可以應用什么樣的統計學方法。為了理解我們將討論的一些性質,你需要對描述性統計學有所了解。如果你對此不熟悉,可以先看下我寫的描述性統計學介紹。

統計學方法

名目數據

處理名目數據時,你通過下述方式收集信息:

頻數在一段時間內或整個數據集中出現的次數。

比例頻數除以所有事件的頻數之和,即可得到比例。

百分比我想這無需解釋了吧。

眾數出現次數最多,也就是頻數最高的數據。

可視化方法你可以使用餅圖或直方圖可視化名目數據。

左:餅圖;右:直方圖

次序數據

當你處理次序數據時,你可以使用以上用于名目數據的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數、比例、百分比、眾數概括次序數據,也可以使用餅圖、直方圖可視化次序數據。除此之外,你還可以使用:

百分位數計算由小到大排列的次序數據的累計百分位,某一百分位對應的數據值就稱為這一百分位的百分位數。百分位數可以用來描述數據的離散趨勢。

中位數即第50百分位數,它將數據分為相等的上下兩部分。中位數可以用來描述數據的中間趨勢。例如,如果我們用次序數據表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位數為大杯(也就是說,真正的中杯是大杯)。

四分位距第75百分位數與第25百分位數之差即為四分位距。四分位距可以簡要概述數據的離散趨勢。

連續數據

大多數統計學方法都可以用于連續數據。你可以使用百分位數、中位數、四分位距、均值、眾數、標準差、區間。

你可以使用矩形圖或箱形圖可視化連續數據。從矩形圖上可以看到分布的中間趨勢、離散程度、形態和峰態。注意,矩形圖不體現離散值,因此我們有時使用箱形圖。

左:箱形圖;右:矩形圖

總結

本文討論了統計學中常用的不同數據類型。你了解了離散數據和連續數據的區別,以及什么是名目數據、次序數據、等距數據、等比數據。此外,你現在知道了每種數據類型可以應用的統計學方法和可視化方法。如果你在給定數據集上進行探索性分析,你會發現這些非常有用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8460

    瀏覽量

    133395
  • 數據分析
    +關注

    關注

    2

    文章

    1463

    瀏覽量

    34328
  • 數據集
    +關注

    關注

    4

    文章

    1212

    瀏覽量

    24972

原文標題:統計學常用數據類型

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    什么是探索性測試ET

    探索性測試ET(exploratory)是和ST(script based test)相比較而言的.籠統地說,ST就是有確定的步驟和預期目標的測試.探索性測試可以說是一種測試思維。它沒有很多實際
    發表于 07-05 06:38

    數據探索數據預處理

    目錄1數據探索數據預處理21.1 賽題回顧21.2 數據探索性分析與異常值處理21.3 相關性
    發表于 07-12 08:37

    探索性數據分析(EDA)及其應用

    所謂探索性數據分析(EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行
    發表于 01-24 10:02 ?1538次閱讀
    <b class='flag-5'>探索性</b><b class='flag-5'>數據分析</b>(EDA)及其應用

    探索性數據分析系統對基因組醫學研究的幫助

    線路進行傳輸都變得困難。而通常情況下,這些數據必須能被快速存儲、分析、共享和歸檔,以適應基因研究的需要。于是他們不得不訴諸于磁盤驅動器及運輸公司,來轉移原始
    發表于 10-11 09:46 ?0次下載
    <b class='flag-5'>探索性</b>大<b class='flag-5'>數據分析</b>系統對基因組醫學研究的幫助

    介紹幾種用于機器學習探索性數據分析數據類型

    離散數據是指其取值是不連續的分離值,數據只能在一些特定點取值。這樣的數據不能定量測量但可以進行統計計量,并可將其蘊含的信息通過分類的方式進行
    的頭像 發表于 04-20 16:47 ?5020次閱讀

    如何看懂R中的探索性數據分析(附R代碼)

    本文將通過介紹一個代碼模板的四個基本步驟,來幫助您完成數據分析的初期探索。
    的頭像 發表于 11-25 10:52 ?3666次閱讀
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>數據分析</b>(附R代碼)

    C語言的數據儲存與數據類型類型轉換的詳細資料說明

    程序說到底就是對數據的處理,所以首先要弄清楚需要處理哪些數據,計算機如何存儲這些數據。C語言根據需要,抽象出了一些基本數據類型和衍生
    的頭像 發表于 02-24 15:39 ?4065次閱讀
    C語言的<b class='flag-5'>數據</b>儲存與<b class='flag-5'>數據類型</b>及<b class='flag-5'>類型</b>轉換的詳細資料說明

    細分模型探索性數據分析和預處理

    交流學習!文章較長,建議收藏~ 客戶細分模型是將整體會員劃分為不同的細分群體或類別,然后基于細分群體做管理、營銷和關懷??蛻艏毞帜P统S糜谡w會員的宏觀性分析以及探索性分析,通過細分建立初步認知,為下一步的
    的頭像 發表于 11-08 16:05 ?1692次閱讀
    細分模型<b class='flag-5'>探索性</b><b class='flag-5'>數據分析</b>和預處理

    Sweetviz讓你三行代碼實現探索性數據分析

    ,還能對每個欄目做眾數、最大值、最小值等橫向對比。 所有輸入的數值、文本信息都會被自動檢測,并進行數據分析、可視化和對比,最后自動幫你進行總結,是一個探索性數據分析的好幫手。 1.準備
    的頭像 發表于 10-17 10:59 ?511次閱讀
    Sweetviz讓你三行代碼實現<b class='flag-5'>探索性</b><b class='flag-5'>數據分析</b>

    Sweetviz: 讓你三行代碼實現探索性數據分析

    欄目做眾數、最大值、最小值等橫向對比。 所有輸入的數值、文本信息都會被自動檢測,并進行數據分析、可視化和對比,最后自動幫你進行總結,是一個探索性數據分析的好幫手。 1.準備 開始之前,
    的頭像 發表于 10-31 10:28 ?1009次閱讀
    Sweetviz: 讓你三行代碼實現<b class='flag-5'>探索性</b><b class='flag-5'>數據分析</b>

    plc數據類型怎么理解和應用

    PLC(可編程邏輯控制器)是一種工業自動化設備,用于控制機械和工業過程。在PLC編程中,數據類型是非常重要的概念,因為它決定了程序中數據的存儲和處理方式。正確理解和應用PLC數據類型
    的頭像 發表于 12-19 11:39 ?4770次閱讀

    為什么選擇eda進行數據分析

    數據科學領域,數據分析是一個復雜且多步驟的過程,它涉及到數據的收集、清洗、探索、建模和解釋。在這些步驟中,
    的頭像 發表于 11-13 10:41 ?365次閱讀

    如何進行有效的eda分析

    進行有效的EDA(Exploratory Data Analysis,探索性數據分析分析,是數據科學中的關鍵步驟,它能夠幫助
    的頭像 發表于 11-13 10:48 ?486次閱讀

    eda與傳統數據分析的區別

    EDA(Exploratory Data Analysis,探索性數據分析)與傳統數據分析之間存在顯著的差異。以下是兩者的主要區別: 一、分析目的和方法論 EDA 目的 :EDA的主要
    的頭像 發表于 11-13 10:52 ?504次閱讀

    eda分析中的數據清洗步驟

    數據分析的早期階段,探索性數據分析(EDA)是一種重要的方法,它幫助我們理解數據的特征和結構。然而,原始
    的頭像 發表于 11-13 11:00 ?446次閱讀
    主站蜘蛛池模板: 香蕉久久一区二区三区啪啪 | 免费人成在线观看视频不卡 | 免费久久狼人香蕉网 | 精品国产国产精2020久久日 | 乱色欧美激惰 | 国产精品人成在线播放新网站 | 国产网红主播精品福利大秀专区 | 色视频色露露永久免费观看 | 先锋影音av无码第1页 | 中文字幕午夜福利片 | 国产成人一区二区三中文 | 久久人妻少妇嫩草AV无码 | 美国特级成人毛片 | 欧洲美女高清一级毛片 | 国产精品久久久久久AV免费不卡 | 2018高清国产一区二区三区 | 国产亚洲999精品AA片在线爽 | 国产欧美日韩中文视频在线 | 啊片色播电影 | 欧美丰满熟妇无码XOXOXO | 色偷偷7777www| 有码 亚洲 制服 国产 在线 | 久久综合狠狠综合狠狠 | 看了n遍舍不得删的黄文 | 国产精品欧美久久久久天天影视 | 里番※琉璃全彩acg奈亚子 | 村妇偷人内射高潮迭起 | 亚洲不卡视频 | 久久久久久久久久毛片精品美女 | 色偷偷成人网免费视频男人的天堂 | 精品人妻一区二区三区视频53 | 青草久久精品亚洲综合专区 | nu77亚洲综合日韩精品 | 在线观看视频亚洲 | 国产亚洲一区二区三区啪 | 色欲AV精品一区二区入口 | 中文字幕专区高清在线观看 | 免费A级毛片无码无遮挡内射 | 性色少妇AV蜜臀人妻无码 | 护士日本ⅹxxx丰满hd | 在线免费公开视频 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品