色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的主要區(qū)別在于它們的目的

電子工程師 ? 來(lái)源:lp ? 2019-04-22 17:11 ? 次閱讀

統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的界定一直很模糊。

無(wú)論是業(yè)界還是學(xué)界一直認(rèn)為機(jī)器學(xué)習(xí)只是統(tǒng)計(jì)學(xué)批了一層光鮮的外衣。

而機(jī)器學(xué)習(xí)支撐的人工智能也被稱為“統(tǒng)計(jì)學(xué)的外延”

例如,諾獎(jiǎng)得主托馬斯·薩金特曾經(jīng)說(shuō)過(guò)人工智能其實(shí)就是統(tǒng)計(jì)學(xué),只不過(guò)用了一個(gè)很華麗的辭藻。

薩金特在世界科技創(chuàng)新論壇上表示,人工智能其實(shí)就是統(tǒng)計(jì)學(xué)

當(dāng)然也有一些不同的聲音。但是這一觀點(diǎn)的正反雙方在爭(zhēng)吵中充斥著一堆看似高深實(shí)則含糊的論述,著實(shí)讓人摸不著頭腦。

一位名叫Matthew Stewart的哈佛大學(xué)博士生從統(tǒng)計(jì)與機(jī)器學(xué)習(xí)的不同;統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)的不同,這兩個(gè)角度論證了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)并不是互為代名詞。

機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的主要區(qū)別在于它們的目的

與大部分人所想的正相反,機(jī)器學(xué)習(xí)其實(shí)已經(jīng)存在幾十年了。當(dāng)初只是因?yàn)槟菚r(shí)的計(jì)算能力無(wú)法滿足它對(duì)大量計(jì)算的需求,而漸漸被人遺棄。然而,近年來(lái),由于信息爆炸所帶來(lái)的數(shù)據(jù)和算力優(yōu)勢(shì),機(jī)器學(xué)習(xí)正快速?gòu)?fù)蘇。

言歸正傳,如果說(shuō)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)是互為代名詞,那為什么我們沒(méi)有看到每所大學(xué)的統(tǒng)計(jì)學(xué)系都關(guān)門大吉而轉(zhuǎn)投'機(jī)器學(xué)習(xí)'系呢?因?yàn)樗鼈兪遣灰粯拥?

我經(jīng)常聽(tīng)到一些關(guān)于這個(gè)話題的含糊論述,最常見(jiàn)的是這樣的說(shuō)法:

"機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的主要區(qū)別在于它們的目的。機(jī)器學(xué)習(xí)模型旨在使最準(zhǔn)確的預(yù)測(cè)成為可能。統(tǒng)計(jì)模型是為推斷變量之間的關(guān)系而設(shè)計(jì)的。

雖然技術(shù)上來(lái)說(shuō)這是正確的,但這樣的論述并沒(méi)有給出特別清晰和令人滿意的答案。機(jī)器學(xué)習(xí)和統(tǒng)計(jì)之間的一個(gè)主要區(qū)別確實(shí)是它們的目的。

然而,說(shuō)機(jī)器學(xué)習(xí)是關(guān)于準(zhǔn)確的預(yù)測(cè),而統(tǒng)計(jì)模型是為推理而設(shè)計(jì),幾乎是毫無(wú)意義的說(shuō)法,除非你真的精通這些概念。

首先,我們必須明白,統(tǒng)計(jì)和統(tǒng)計(jì)建模是不一樣的。統(tǒng)計(jì)是對(duì)數(shù)據(jù)的數(shù)學(xué)研究。除非有數(shù)據(jù),否則無(wú)法進(jìn)行統(tǒng)計(jì)。統(tǒng)計(jì)模型是數(shù)據(jù)的模型,主要用于推斷數(shù)據(jù)中不同內(nèi)容的關(guān)系,或創(chuàng)建能夠預(yù)測(cè)未來(lái)值的模型。通常情況下,這兩者是相輔相成的。

因此,實(shí)際上我們需要從兩方面來(lái)論述:第一,統(tǒng)計(jì)與機(jī)器學(xué)習(xí)有何不同;第二,統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)有何不同?

說(shuō)的更直白些就是,有很多統(tǒng)計(jì)模型可以做出預(yù)測(cè),但預(yù)測(cè)效果比較差強(qiáng)人意。

而機(jī)器學(xué)習(xí)通常會(huì)犧牲可解釋性以獲得強(qiáng)大的預(yù)測(cè)能力。例如,從線性回歸到神經(jīng)網(wǎng)絡(luò),盡管解釋性變差,但是預(yù)測(cè)能力卻大幅提高。

從宏觀角度來(lái)看,這是一個(gè)很好的答案。至少對(duì)大多數(shù)人來(lái)說(shuō)已經(jīng)足夠好。然而,在有些情況下,這種說(shuō)法容易讓我們對(duì)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的差異產(chǎn)生誤解。讓我們看一下線性回歸的例子。

統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)在線性回歸上的差異

或許是因?yàn)榻y(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)中使用方法的相似性,使人們認(rèn)為它們是同一個(gè)東西。對(duì)這我可以理解,但事實(shí)上不是這樣。

最明顯的例子是線性回歸,這可能是造成這種誤解的主要原因。線性回歸是一種統(tǒng)計(jì)方法,通過(guò)這種方法我們既可以訓(xùn)練一個(gè)線性回歸器,又可以通過(guò)最小二乘法擬合一個(gè)統(tǒng)計(jì)回歸模型。

可以看到,在這個(gè)案例中,前者做的事兒叫"訓(xùn)練"模型,它只用到了數(shù)據(jù)的一個(gè)子集,而訓(xùn)練得到的模型究竟表現(xiàn)如何需要通過(guò)數(shù)據(jù)的另一個(gè)子集測(cè)試集測(cè)試之后才能知道。在這個(gè)例子中,機(jī)器學(xué)習(xí)的最終目的是在測(cè)試集上獲得最佳性能。

對(duì)于后者,我們則事先假設(shè)數(shù)據(jù)是一個(gè)具有高斯噪聲的線性回歸量,然后試圖找到一條線,最大限度地減少了所有數(shù)據(jù)的均方誤差。不需要訓(xùn)練或測(cè)試集,在許多情況下,特別是在研究中(如下面的傳感器示例),建模的目的是描述數(shù)據(jù)與輸出變量之間的關(guān)系, 而不是對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。我們稱此過(guò)程為統(tǒng)計(jì)推斷,而不是預(yù)測(cè)。盡管我們可以使用此模型進(jìn)行預(yù)測(cè),這也可能是你所想的,但評(píng)估模型的方法不再是測(cè)試集,而是評(píng)估模型參數(shù)的顯著性和健壯性。

機(jī)器學(xué)習(xí)(這里特指有監(jiān)督學(xué)習(xí))的目的是獲得一個(gè)可反復(fù)預(yù)測(cè)的模型。我們通常不關(guān)心模型是否可以解釋。機(jī)器學(xué)習(xí)只在乎結(jié)果。就好比對(duì)公司而言,你的價(jià)值只用你的表現(xiàn)來(lái)衡量。而統(tǒng)計(jì)建模更多的是為了尋找變量之間的關(guān)系和確定關(guān)系的顯著性,恰巧迎合了預(yù)測(cè)。

下面我舉一個(gè)自己的例子,來(lái)說(shuō)明兩者的區(qū)別。我是一名環(huán)境科學(xué)家。工作的主要內(nèi)容是和傳感器數(shù)據(jù)打交道。如果我試圖證明傳感器能夠?qū)δ撤N刺激(如氣體濃度)做出反應(yīng), 那么我將使用統(tǒng)計(jì)模型來(lái)確定信號(hào)響應(yīng)是否具有統(tǒng)計(jì)顯著性。我會(huì)嘗試?yán)斫膺@種關(guān)系,并測(cè)試其可重復(fù)性,以便能夠準(zhǔn)確地描述傳感器的響應(yīng),并根據(jù)這些數(shù)據(jù)做出推斷。我還可能測(cè)試,響應(yīng)是否是線性的?響應(yīng)是否歸因于氣體濃度而不是傳感器中的隨機(jī)噪聲?等等。

而同時(shí),我也可以拿著從20個(gè)不同傳感器得到的數(shù)據(jù), 去嘗試預(yù)測(cè)一個(gè)可由他們表征的傳感器的響應(yīng)。如果你對(duì)傳感器了解不多,這可能會(huì)顯得有些奇怪,但目前這確實(shí)是環(huán)境科學(xué)的一個(gè)重要研究領(lǐng)域。

用一個(gè)包含20個(gè)不同變量的模型來(lái)表征傳感器的輸出顯然是一種預(yù)測(cè),而且我也沒(méi)期待模型是可解釋的。要知道,由于化學(xué)動(dòng)力學(xué)產(chǎn)生的非線性以及物理變量與氣體濃度之間的關(guān)系等等因素,可能會(huì)使這個(gè)模型非常深?yuàn)W,就像神經(jīng)網(wǎng)絡(luò)那樣難以解釋。盡管我希望這個(gè)模型能讓人看懂, 但其實(shí)只要它能做出準(zhǔn)確的預(yù)測(cè),我就相當(dāng)高興了。

如果我試圖證明數(shù)據(jù)變量之間的關(guān)系在某種程度上具有統(tǒng)計(jì)顯著性,以便我可以在科學(xué)論文中發(fā)表,我將使用統(tǒng)計(jì)模型而不是機(jī)器學(xué)習(xí)。這是因?yàn)槲腋P(guān)心變量之間的關(guān)系,而不是做出預(yù)測(cè)。做出預(yù)測(cè)可能仍然很重要,但是大多數(shù)機(jī)器學(xué)習(xí)算法缺乏可解釋性,這使得很難證明數(shù)據(jù)中存在的關(guān)系。

很明顯,這兩種方法在目標(biāo)上是不同的,盡管使用了相似的方法來(lái)達(dá)到目標(biāo)。機(jī)器學(xué)習(xí)算法的評(píng)估使用測(cè)試集來(lái)驗(yàn)證其準(zhǔn)確性。然而,對(duì)于統(tǒng)計(jì)模型,通過(guò)置信區(qū)間、顯著性檢驗(yàn)和其他檢驗(yàn)對(duì)回歸參數(shù)進(jìn)行分析,可以用來(lái)評(píng)估模型的合法性。因?yàn)檫@些方法產(chǎn)生相同的結(jié)果,所以很容易理解為什么人們會(huì)假設(shè)它們是相同的。

統(tǒng)計(jì)與機(jī)器學(xué)習(xí)在線性回歸上的差異

有一個(gè)誤解存在了10年:僅基于它們都利用相同的基本概率概念這一事實(shí),來(lái)混淆這兩個(gè)術(shù)語(yǔ)是不合理的。

然而,僅僅基于這兩個(gè)術(shù)語(yǔ)都利用了概率里相同的基本概念這一事實(shí)而將他們混為一談是不合理的。就好比,如果我們僅僅把機(jī)器學(xué)習(xí)當(dāng)作皮了一層光鮮外衣的統(tǒng)計(jì),我們也可以這樣說(shuō):

物理只是數(shù)學(xué)的一種更好聽(tīng)的說(shuō)法。

動(dòng)物學(xué)只是郵票收藏的一種更好聽(tīng)的說(shuō)法。

建筑學(xué)只是沙堡建筑的一種更好聽(tīng)的說(shuō)法。

這些說(shuō)法(尤其是最后一個(gè))非常荒謬,完全混淆了兩個(gè)類似想法的術(shù)語(yǔ)。

實(shí)際上,物理是建立在數(shù)學(xué)基礎(chǔ)上的,理解現(xiàn)實(shí)中的物理現(xiàn)象是數(shù)學(xué)的應(yīng)用。物理學(xué)還包括統(tǒng)計(jì)學(xué)的各個(gè)方面,而現(xiàn)代統(tǒng)計(jì)學(xué)通常是建立在Zermelo-Frankel集合論與測(cè)量理論相結(jié)合的框架中,以產(chǎn)生概率空間。它們有很多共同點(diǎn),因?yàn)樗鼈儊?lái)自相似的起源,并運(yùn)用相似的思想得出一個(gè)邏輯結(jié)論。同樣,建筑學(xué)和沙堡建筑可能有很多共同點(diǎn),但即使我不是一個(gè)建筑師,也不能給出一個(gè)清晰的解釋,但也看得出它們顯然不一樣。

在我們進(jìn)一步討論之前,需要簡(jiǎn)要澄清另外兩個(gè)與機(jī)器學(xué)習(xí)和統(tǒng)計(jì)有關(guān)的常見(jiàn)誤解。這就是人工智能不同于機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)不同于統(tǒng)計(jì)學(xué)。這些都是沒(méi)有爭(zhēng)議的問(wèn)題,所以很快就能說(shuō)清楚。

數(shù)據(jù)科學(xué)本質(zhì)上是應(yīng)用于數(shù)據(jù)的計(jì)算和統(tǒng)計(jì)方法,包括小數(shù)據(jù)集或大數(shù)據(jù)集。它也包括諸如探索性數(shù)據(jù)分析之類的東西,例如對(duì)數(shù)據(jù)進(jìn)行檢查和可視化,以幫助科學(xué)家更好地理解數(shù)據(jù),并從中做出推論。數(shù)據(jù)科學(xué)還包括諸如數(shù)據(jù)包裝和預(yù)處理之類的東西,因此涉及到一定程度的計(jì)算機(jī)科學(xué),因?yàn)樗婕熬幋a和建立數(shù)據(jù)庫(kù)、Web服務(wù)器之間的連接和流水線等等。

要進(jìn)行統(tǒng)計(jì),你并不一定得依靠電腦,但如果是數(shù)據(jù)科學(xué)缺了電腦就沒(méi)法操作了。這就再次說(shuō)明了雖然數(shù)據(jù)科學(xué)借助統(tǒng)計(jì)學(xué),這兩者不是一個(gè)概念。

同理,機(jī)器學(xué)習(xí)也并非人工智能;事實(shí)上,機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支。這一點(diǎn)挺明顯的,因?yàn)槲覀兓谝酝臄?shù)據(jù)“教”(訓(xùn)練)機(jī)器對(duì)特定類型的數(shù)據(jù)進(jìn)行概括性的預(yù)測(cè)。

機(jī)器學(xué)習(xí)是基于統(tǒng)計(jì)學(xué)

在我們討論統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的區(qū)別前,我們先來(lái)說(shuō)說(shuō)其相似性,其實(shí)文章的前半段已經(jīng)對(duì)此有過(guò)一些探討了。

機(jī)器學(xué)習(xí)基于統(tǒng)計(jì)的框架,因?yàn)闄C(jī)器學(xué)習(xí)涉及數(shù)據(jù),而數(shù)據(jù)必須基于統(tǒng)計(jì)學(xué)框架來(lái)進(jìn)行描述,所以這點(diǎn)十分明顯。然而,擴(kuò)展至針對(duì)大量粒子的熱力學(xué)的統(tǒng)計(jì)機(jī)制,同樣也建立在統(tǒng)計(jì)學(xué)框架之下。

壓力的概念其實(shí)是數(shù)據(jù),溫度也是一種數(shù)據(jù)。你可能覺(jué)得這聽(tīng)起來(lái)不合理,但這是真的。這就是為什么你不能描述一個(gè)分子的溫度或壓力,這不合理。溫度是分子相撞產(chǎn)生的平均能量的顯示。而例如房屋或室外這種擁有大量分子的,我們能用溫度來(lái)描述也就合理了。

你會(huì)認(rèn)為熱力學(xué)和統(tǒng)計(jì)學(xué)是一個(gè)東西嗎?當(dāng)然不會(huì),熱力學(xué)借助統(tǒng)計(jì)學(xué)來(lái)幫助我們理解運(yùn)動(dòng)的相互作用以及轉(zhuǎn)移現(xiàn)象中產(chǎn)生的熱。

事實(shí)上,熱力學(xué)基于多種學(xué)科而非僅僅統(tǒng)計(jì)學(xué)。類似地,機(jī)器學(xué)習(xí)基于許多其他領(lǐng)域的內(nèi)容,比如數(shù)學(xué)和計(jì)算機(jī)科學(xué)。舉例來(lái)說(shuō):

機(jī)器學(xué)習(xí)的理論來(lái)源于數(shù)學(xué)和統(tǒng)計(jì)學(xué)

機(jī)器學(xué)習(xí)算法基于優(yōu)化理論、矩陣代數(shù)和微積分

機(jī)器學(xué)習(xí)的實(shí)現(xiàn)來(lái)源于計(jì)算機(jī)科學(xué)和工程學(xué)概念,比如核映射、特征散列等。

當(dāng)一個(gè)人開(kāi)始用Python開(kāi)始編程,突然從Sklearn程序庫(kù)里找出并使用這些算法,許多上述的概念都比較抽象,因此很難看出其中的區(qū)別。這樣的情況下,這種抽象定義也就致使了對(duì)機(jī)器學(xué)習(xí)真正包含的內(nèi)容一定程度上的無(wú)知。

統(tǒng)計(jì)學(xué)習(xí)理論——機(jī)器學(xué)習(xí)的統(tǒng)計(jì)學(xué)基礎(chǔ)

統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間最主要的區(qū)別在于統(tǒng)計(jì)學(xué)完全基于概率空間。你可以從集合論中推導(dǎo)出全部的統(tǒng)計(jì)學(xué)內(nèi)容,集合論討論了我們?nèi)绾螌?shù)據(jù)歸類(這些類被稱為“集”),然后對(duì)這個(gè)集進(jìn)行某種測(cè)量保證其總和為1.我們將這種方法成為概率空間。

統(tǒng)計(jì)學(xué)除了對(duì)這些集合和測(cè)量有所定義之外沒(méi)有其他假設(shè)。這就是為什么我們對(duì)概率空間的定義非常嚴(yán)謹(jǐn)?shù)脑?。一個(gè)概率空間,其數(shù)學(xué)符號(hào)寫作(Ω,F,P),包含三部分:

一個(gè)樣本空間,Ω,也就是所有可能結(jié)果的集合。

一個(gè)事件集合,F(xiàn),每個(gè)事件都包含0或者其它值。

對(duì)每個(gè)事件發(fā)生的可能性賦予概率,P,這是一個(gè)從事件到概率的函數(shù)。

機(jī)器學(xué)習(xí)基于統(tǒng)計(jì)學(xué)習(xí)理論,統(tǒng)計(jì)學(xué)習(xí)理論也依舊基于對(duì)概率空間的公理化語(yǔ)言。這個(gè)理論基于傳統(tǒng)的統(tǒng)計(jì)學(xué)理論,并發(fā)展于19世紀(jì)60年代。

機(jī)器學(xué)習(xí)分為多個(gè)類別,這篇文章我僅著眼于監(jiān)督學(xué)習(xí)理論,因?yàn)樗钊菀捉忉專m然因其充斥數(shù)學(xué)概念依然顯得晦澀難懂)。

統(tǒng)計(jì)學(xué)習(xí)理論中的監(jiān)督學(xué)習(xí),給了我們一個(gè)數(shù)據(jù)集,我們將其標(biāo)為S= {(x?,y?)},也就是說(shuō)我們有一個(gè)包含N個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,每個(gè)數(shù)據(jù)點(diǎn)由被稱為“特征”的其它值描述,這些特征用x描述,這些特征通過(guò)特定函數(shù)來(lái)描繪以返回我們想要的y值。

已知這個(gè)數(shù)據(jù)集,問(wèn)如何找到將x值映射到y(tǒng)值的函數(shù)。我們將所有可能的描述映射過(guò)程的函數(shù)集合稱為假設(shè)空間。

為了找到這個(gè)函數(shù),我們需要給算法一些方法來(lái)“學(xué)習(xí)”如何最好地著手處理這個(gè)問(wèn)題,而這由一個(gè)被稱為“損失函數(shù)”的概念來(lái)提供。因此,對(duì)我們所有的每個(gè)假設(shè)(也即提議的函數(shù)),我們要通過(guò)比較所有數(shù)據(jù)下其預(yù)期風(fēng)險(xiǎn)的值來(lái)衡量這個(gè)函數(shù)的表現(xiàn)。

預(yù)期風(fēng)險(xiǎn)本質(zhì)上就是損失函數(shù)之和乘以數(shù)據(jù)的概率分布。如果我們知道這個(gè)映射的聯(lián)合概率分布,找到最優(yōu)函數(shù)就很簡(jiǎn)單了。但是這個(gè)聯(lián)合概率分布通常是未知的,因此我們最好的方式就是猜測(cè)一個(gè)最優(yōu)函數(shù),再實(shí)證驗(yàn)證損失函數(shù)是否得到優(yōu)化。我們將這種稱為實(shí)證風(fēng)險(xiǎn)。

之后,我們就可以比較不同函數(shù),找出最小預(yù)期風(fēng)險(xiǎn)的那個(gè)假設(shè),也就是所有函數(shù)中得出最小下確界值的那個(gè)假設(shè)。

然而,為了最小化損失函數(shù),算法有通過(guò)過(guò)度擬合來(lái)作弊的傾向。這也是為什么要通過(guò)訓(xùn)練集“學(xué)習(xí)”函數(shù),之后在訓(xùn)練集之外的數(shù)據(jù)集,測(cè)試集里對(duì)函數(shù)進(jìn)行驗(yàn)證。

我們?nèi)绾味x機(jī)器學(xué)習(xí)的本質(zhì)引出了過(guò)度擬合的問(wèn)題,也對(duì)需要區(qū)分訓(xùn)練集和測(cè)試集作出了解釋。而我們?cè)诮y(tǒng)計(jì)學(xué)中無(wú)需試圖最小化實(shí)證風(fēng)險(xiǎn),過(guò)度擬合不是統(tǒng)計(jì)學(xué)的固有特征。最小化統(tǒng)計(jì)學(xué)中無(wú)需視圖程向于一個(gè)從函數(shù)中選取最小化實(shí)證風(fēng)險(xiǎn)的學(xué)習(xí)算法被稱為實(shí)證風(fēng)險(xiǎn)最小化

例證

以線性回歸做一個(gè)簡(jiǎn)單例子。在傳統(tǒng)概念中,我們?cè)噲D最小化數(shù)據(jù)中的誤差找到能夠描述數(shù)據(jù)的函數(shù),這種情況下,我們通常使用均值方差。使用平方數(shù)是為了不讓正值和負(fù)值互相抵消。然后我們可以使用閉合表達(dá)式來(lái)求出回歸系數(shù)。

如果我們將損失函數(shù)計(jì)為均值方差,并基于統(tǒng)計(jì)學(xué)習(xí)理論進(jìn)行最小化實(shí)證風(fēng)險(xiǎn),碰巧就能得到傳統(tǒng)線性回歸分析同樣的結(jié)果。

這個(gè)巧合是因?yàn)閮蓚€(gè)情況是相同的,對(duì)同樣的數(shù)據(jù)以相同的方式求解最大概率自然會(huì)得出相同的結(jié)果。最大化概率有不同的方法來(lái)實(shí)現(xiàn)同樣的目標(biāo),但沒(méi)人會(huì)去爭(zhēng)論說(shuō)最大化概率與線性回歸是一個(gè)東西。這個(gè)最簡(jiǎn)單的例子顯然沒(méi)能區(qū)分開(kāi)這些方法。

這里要指出的第二點(diǎn)在于,傳統(tǒng)的統(tǒng)計(jì)方法中沒(méi)有訓(xùn)練集和測(cè)試集的概念,但我們會(huì)使用不同的指標(biāo)來(lái)幫助驗(yàn)證模型。驗(yàn)證過(guò)程雖然不同,但兩種方法都能夠給我們統(tǒng)計(jì)穩(wěn)健的結(jié)果。

另外要指出的一點(diǎn)在于,傳統(tǒng)統(tǒng)計(jì)方法給了我們一個(gè)閉合形式下的最優(yōu)解,它沒(méi)有對(duì)其它可能的函數(shù)進(jìn)行測(cè)試來(lái)收斂出一個(gè)結(jié)果。相對(duì)的,機(jī)器學(xué)習(xí)方法嘗試了一批不同的模型,最后結(jié)合回歸算法的結(jié)果,收斂出一個(gè)最終的假設(shè)。

如果我們用一個(gè)不同的損失函數(shù),結(jié)果可能并不收斂。例如,如果我們用了鉸鏈損失(使用標(biāo)準(zhǔn)梯度下降時(shí)不太好區(qū)分,因此需要使用類似近梯度下降等其它方法),那么結(jié)果就不會(huì)相同了。

最后可以對(duì)模型偏差進(jìn)行區(qū)分。你可以用機(jī)器學(xué)習(xí)算法來(lái)測(cè)試線性模型以及多項(xiàng)式模型,指數(shù)模型等,來(lái)檢驗(yàn)這些假設(shè)是否相對(duì)我們的先驗(yàn)損失函數(shù)對(duì)數(shù)據(jù)集給出更好的擬合度。在傳統(tǒng)統(tǒng)計(jì)學(xué)概念中,我們選擇一個(gè)模型,評(píng)估其準(zhǔn)確性,但無(wú)法自動(dòng)從100個(gè)不同的模型中摘出最優(yōu)的那個(gè)。顯然,由于最開(kāi)始選擇的算法不同,找出的模型總會(huì)存在一些偏誤。選擇算法是非常必要的,因?yàn)闉閿?shù)據(jù)集找出最優(yōu)的方程是一個(gè)NP-hard問(wèn)題。

那么哪個(gè)方法更優(yōu)呢?

這個(gè)問(wèn)題其實(shí)很蠢。沒(méi)有統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)根本沒(méi)法存在,但由于當(dāng)代信息爆炸人類能接觸到的大量數(shù)據(jù),機(jī)器學(xué)習(xí)是非常有用的。

對(duì)比機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型還要更難一些,你需要視乎你的目標(biāo)而定究竟選擇哪種。如果你只是想要?jiǎng)?chuàng)建一個(gè)高度準(zhǔn)確的預(yù)測(cè)房?jī)r(jià)的算法,或者從數(shù)據(jù)中找出哪類人更容易得某種疾病,機(jī)器學(xué)習(xí)可能是更好的選擇。如果你希望找出變量之間的關(guān)系或從數(shù)據(jù)中得出推論,選擇統(tǒng)計(jì)模型會(huì)更好。

圖中文字:

這是你的機(jī)器學(xué)習(xí)系統(tǒng)?

對(duì)的,你從這頭把數(shù)據(jù)都倒進(jìn)這一大堆或者線性代數(shù)里,然后從那頭里拿答案就好了。

答案錯(cuò)了咋整?

那就攪攪,攪到看起來(lái)對(duì)了為止。

如果你統(tǒng)計(jì)學(xué)基礎(chǔ)不夠扎實(shí),你依然可以學(xué)習(xí)機(jī)器學(xué)習(xí)并使用它——機(jī)器學(xué)習(xí)程序庫(kù)里的抽象概念能夠讓你以業(yè)余者的身份來(lái)輕松使用它們,但你還是得對(duì)統(tǒng)計(jì)概念有所了解,從而避免模型過(guò)度擬合或得出些貌似合理的推論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47183

    瀏覽量

    238266
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8406

    瀏覽量

    132567
  • 線性回歸
    +關(guān)注

    關(guān)注

    0

    文章

    41

    瀏覽量

    4306

原文標(biāo)題:統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)到底有什么區(qū)別?

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TLV4112IDGN和TLV4112IDGN的主要區(qū)別在哪?

    TLV4112IDGN和TLV4112IDGN的主要區(qū)別在哪?
    發(fā)表于 08-05 07:47

    請(qǐng)問(wèn)TMS320F28332與TMS320F2812的主要區(qū)別在那?

    請(qǐng)問(wèn)TMS320F28332與TMS320F2812主要區(qū)別在哪?前者比后者優(yōu)勝的地方是什么?
    發(fā)表于 11-29 15:22

    USB 3.0和USB 2.0的主要區(qū)別在哪里?

    USB 3.0和USB 2.0的主要區(qū)別在哪里?
    發(fā)表于 05-21 06:36

    藍(lán)牙信標(biāo)和藍(lán)牙標(biāo)簽之間的主要區(qū)別在哪里?

    什么是藍(lán)牙信標(biāo)?什么又是藍(lán)牙標(biāo)簽?藍(lán)牙信標(biāo)和藍(lán)牙標(biāo)簽之間的主要區(qū)別在哪里?
    發(fā)表于 06-26 06:51

    步進(jìn)電機(jī)和伺服電機(jī)的主要區(qū)別在什么地方?

    步進(jìn)電機(jī)和伺服電機(jī)的主要區(qū)別在什么地方?
    發(fā)表于 06-28 08:15

    USART和UART的主要區(qū)別

    和UART的主要區(qū)別在于,USART支持同步通信,該模式有一根時(shí)鐘線提供時(shí)鐘。串口在嵌入式中經(jīng)常使用,一般使用UAR
    發(fā)表于 08-16 09:08

    同步電路與異步電路的主要區(qū)別在哪兒

    存儲(chǔ)器主要分為哪幾種?同步電路與異步電路的主要區(qū)別在哪兒?
    發(fā)表于 09-16 06:36

    51單片機(jī)與STM32單片機(jī)的主要區(qū)別在

    51單片機(jī)與STM32單片機(jī)的主要區(qū)別在哪?如何對(duì)51單片機(jī)與STM32單片機(jī)進(jìn)行proteus仿真?
    發(fā)表于 09-23 09:29

    步進(jìn)電機(jī)和伺服電機(jī)的主要區(qū)別在哪里

    步進(jìn)電機(jī)和伺服電機(jī)的主要區(qū)別在哪里?步進(jìn)電機(jī)與伺服電機(jī)的不同之處主要表現(xiàn)在哪里呢?
    發(fā)表于 09-28 08:42

    模擬鎖相環(huán)與數(shù)字鎖相環(huán)的主要區(qū)別在哪里?

    模擬鎖相環(huán)與數(shù)字鎖相環(huán)的主要區(qū)別在哪里?
    發(fā)表于 04-24 10:48

    請(qǐng)問(wèn)NUC970系列和NUC980系列主要區(qū)別在哪里?

    請(qǐng)問(wèn)NUC970系列和NUC980系列主要區(qū)別在哪里?
    發(fā)表于 06-14 11:00

    AMOLED與OLED的主要區(qū)別

    電子專業(yè)單片機(jī)相關(guān)知識(shí)學(xué)習(xí)教材資料——vAMOLED與OLED的主要區(qū)別
    發(fā)表于 10-25 18:27 ?0次下載

    柔性機(jī)器人和剛性機(jī)器人的區(qū)別

    柔性機(jī)器人和剛性機(jī)器人都是工業(yè)機(jī)器人的一種,柔性機(jī)器人和剛性機(jī)器人的主要區(qū)別在于
    的頭像 發(fā)表于 06-07 16:16 ?2844次閱讀

    高光譜相機(jī)與多光譜相機(jī)的主要區(qū)別

    高光譜相機(jī)和多光譜相機(jī)之間的主要區(qū)別在于它們記錄的波段數(shù)量和波段的寬度(即光譜分辨率)。
    的頭像 發(fā)表于 12-07 16:54 ?1167次閱讀
    高光譜相機(jī)與多光譜相機(jī)的<b class='flag-5'>主要區(qū)別</b>

    dwdm與wdm的主要區(qū)別

    光纖通信中廣泛使用的多路復(fù)用技術(shù)。它們主要區(qū)別在于波長(zhǎng)間隔、系統(tǒng)容量、成本和應(yīng)用領(lǐng)域等方面。 波長(zhǎng)間隔 DWDM和WDM的主要區(qū)別在于它們使用的波長(zhǎng)間隔。WDM技術(shù)使用較大的波長(zhǎng)間隔
    的頭像 發(fā)表于 07-18 10:34 ?787次閱讀
    主站蜘蛛池模板: 免费国产综合视频在线看| 亲女乱h文小兰第一次| 色老99九久精品偷偷鲁| MM131亚洲精品久久安然| 日本wwwhdsex69| 动漫美女搞鸡| 亚洲国产中文在线视频| 精子网久久国产精品| 佐山爱痴汉theav| 秋霞电影院兔费理论观频84mb| 国产CHINESE HD精品| 亚洲精品在线观看视频| 恋孩癖网站大全在线观看| 97久久超碰中文字幕| 日本久久中文字幕精品| 国产欧美在线亚洲一区刘亦菲 | 日日操天天操夜夜操| 高清欧美一区二区三区| 色多多深夜福利免费观看| 国内精品久久久久久久试看| 4虎最新网址| 手机在线亚洲日韩国产| 极品虎白在线观看| 饱满奶大30p| 伊人久久综合热青草| 欧美精品专区免费观看| 国产在线精品亚洲观看不卡欧美| 中文字幕1| 亚洲AV久久无码精品九号软件| 男人和女人全黄一级毛片| 国产精品久久久久影院色老大| 2019天天射干网站| 色欲色香天天天综合| 快播免费电影| 国产喷水1区2区3区咪咪爱AV| 95国产精品人妻无码久| 忘忧草研究院一二三| 女张腿男人桶羞羞漫画| 久草网国产自偷拍| 嘟嘟嘟WWW在线观看视频高清| 在线 国产 欧美 专区|