編者按:中心極限定理是概率論中的一組重要定理,它的中心思想是無論是什么分布的數(shù)據(jù),當(dāng)我們從中抽取相互獨(dú)立的隨機(jī)樣本,且采集的樣本足夠多時(shí),樣本均值的分布將收斂于正態(tài)分布。為了幫助更多學(xué)生理解這個(gè)概念,今天,UW iSchool的教師Mike Freeman制作了一些直觀的可視化圖像,讓不少統(tǒng)計(jì)學(xué)教授大呼要把它們用在課堂上。
本文旨在盡可能直觀地解釋統(tǒng)計(jì)學(xué)基礎(chǔ)理論之一——中心極限定理的核心概念。通過下文中的一系列動(dòng)圖,讀者應(yīng)該能真正理解這個(gè)定理,并從中汲取應(yīng)用靈感,把它用于決策樹等其他項(xiàng)目。
需要注意的是,這里我們不會(huì)介紹具體推理過程,所以它不涉及定理解釋。
教科書上的中心極限定理
在看可視化前,我們先來回顧一下統(tǒng)計(jì)學(xué)課程對(duì)中心極限定理的描述。
來源:LthID
n>30一般為大樣本的分界線 來源:LthID
來源:LthID
一個(gè)簡單的例子
為了降低這個(gè)定理的理解門檻,首先我們來舉個(gè)簡單的例子。假設(shè)有一個(gè)包含100人的團(tuán)體,他們?cè)谀承﹩栴}上的意見分布在0-100之間。如果以可視化的方式把他們的意見分?jǐn)?shù)表示在水平軸上,我們可以得到下面這幅圖:深色豎線表示所有人意見分?jǐn)?shù)的平均值。
假如你是一名社會(huì)科學(xué)家,你想知道這個(gè)團(tuán)體的立場(chǎng)特點(diǎn),并用一些信息,比如上面的“平均意見得分”來描述他們。但可惜的是,由于時(shí)間、資金有限,你沒法一一詢問。這時(shí)候,你就可能需要對(duì)這100人進(jìn)行抽樣。比方說,在有限的時(shí)間、資金條件內(nèi),你可以從中隨機(jī)抽取10個(gè)人作為自己的采訪對(duì)象(n=10),向他們?cè)儐栍嘘P(guān)特定問題的具體想法:
隨機(jī)抽取10個(gè)樣本
如你所見,這些樣本的均值可能會(huì)和整個(gè)團(tuán)體的總體均值有很大差異。那么,怎么采樣才能更可靠呢?
考慮多個(gè)樣本
假設(shè)我們可以從團(tuán)體中采集多個(gè)樣本。雖然這種做法在現(xiàn)實(shí)中是客觀存在的(尤其是在政治民意調(diào)查中),但在這里,我們會(huì)更多地將其作為一種解釋工具(當(dāng)你進(jìn)行重復(fù)采樣時(shí),實(shí)際上會(huì)有一些意料之外的因素出現(xiàn))。對(duì)于每個(gè)樣本,我們?cè)诿看尾蓸訒r(shí)都跟蹤樣本均值與整體平均值的差。
多次重復(fù)該過程,我們就能獲得樣本均值的分布,它通常被稱為樣本均值分布,或者(更簡單的)抽樣分布。下面是對(duì)100人的團(tuán)體進(jìn)行多次抽樣后(每次10人),樣本均值的變化情況:
第一次采樣,樣本均值和總體均值有明顯偏差
多次采樣后,樣本均值和總體均值的偏差變小了
可以發(fā)現(xiàn),隨著抽樣次數(shù)逐漸增多,總體均值和樣本均值之間的差距正在不斷縮小。這是可以理解的,因?yàn)檎麄€(gè)過程就相當(dāng)于從100人中抽取更多樣本。但之前我們也說了,資金、時(shí)間是有限的,這沒有解決資源受限的問題,也無法反映人整個(gè)團(tuán)體在特定問題上的立場(chǎng)。
為了了解每次計(jì)算樣本均值的效果,我們得先看看抽樣分布的分布情況。
理解分布
鑒于上述可視化圖像在分布上不夠直觀,所以在這里,我們把原先表示每個(gè)意見的圓圈變成方塊,以直方圖的形式展現(xiàn)總體分布的情況:
顯然,我們的數(shù)據(jù)分布并不正常。雖然上圖中有些部分的曲線是符合正態(tài)分布的,但大多數(shù)是不符合的,這段曲線沒法幫助我們理解這100個(gè)人的習(xí)性。相反地,我們可以從樣本均值的分布情況著手,看看抽樣分布的變化情況:
隨著采樣次數(shù)上升,抽樣分布正在發(fā)生變化
進(jìn)一步增加采樣次數(shù),抽樣分布的形狀逐漸趨于穩(wěn)定
隨著采樣數(shù)量的增加,采樣分布在可視化中形成了一條鐘形曲線,符合正態(tài)分布。如上所述,隨著重復(fù)采樣次數(shù)的增加,樣本均值(抽樣分布的平均值)會(huì)變得越來越準(zhǔn)確。
為什么重要
當(dāng)采樣的數(shù)量接近無窮大時(shí),我們的抽樣分布就會(huì)近似于正態(tài)分布。這個(gè)統(tǒng)計(jì)學(xué)基礎(chǔ)理論意味著我們能根據(jù)個(gè)體樣本推斷所有樣本。結(jié)合正態(tài)分布的其他知識(shí),我們可以輕松計(jì)算出給定平均值的值的概率。同樣的,我們也可以根據(jù)觀察到的樣本均值估計(jì)總體均值的概率。
維基百科對(duì)于“中心極限定理”的定義:中心極限定理是概率論中的一組定理。中心極限定理說明,在適當(dāng)?shù)臈l件下,大量相互獨(dú)立隨機(jī)變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后依分布收斂于正態(tài)分布。
在留言中,美國田納西州范德堡大學(xué)的醫(yī)學(xué)院生物統(tǒng)計(jì)學(xué)教授Frank Harrell留下了自己的風(fēng)趣評(píng)論:“但是在所有定理中,中心極限定理是最后一個(gè)我想教給學(xué)生的東西。我想他們得先學(xué)好第一堂課,它包括一些設(shè)計(jì)、數(shù)據(jù)的意義、數(shù)據(jù)的穩(wěn)健性、bootstrap、一些貝葉斯、高精度數(shù)據(jù)圖等等。”
讀完他的話,是不是覺得即便了解了這個(gè)定理,自己要學(xué)的東西還是很多呢?
-
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40540 -
可視化
+關(guān)注
關(guān)注
1文章
1200瀏覽量
21007
原文標(biāo)題:什么是中心極限定理?這里有一份可視化解釋
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論