機器學(xué)習(xí)是一種將傳統(tǒng)數(shù)學(xué)與現(xiàn)代強大的計算處理相結(jié)合的技術(shù),以學(xué)習(xí)數(shù)據(jù)集中固有的模式。 在機器學(xué)習(xí)中,目標(biāo)是產(chǎn)生一種可以使用這些模式執(zhí)行某些指定任務(wù)的算法。
在監(jiān)督式機器學(xué)習(xí)的情況下,目標(biāo)可能是開發(fā)一個模型,該模型可以識別一組輸入所屬的類別或類別,或預(yù)測連續(xù)值,例如房屋價格。
在本文中,我將介紹機器學(xué)習(xí)中的一些關(guān)鍵概念。 如果您是機器學(xué)習(xí)的新手,這將使您對本領(lǐng)域中使用的一些術(shù)語和技術(shù)有一個很好的了解。
1.特征
在機器學(xué)習(xí)中,我們上面討論的輸入稱為特征。 要素是分配給數(shù)據(jù)點的一組屬性。
以下示例數(shù)據(jù)集是著名的數(shù)據(jù)集,通常用于機器學(xué)習(xí)實踐問題(稱為"波士頓住房價格")。 它由一組與房屋相關(guān)的功能(在下圖中以紅色突出顯示)組成,例如年齡,平均房間數(shù)和物業(yè)稅值以及相應(yīng)的房價。
為了使機器學(xué)習(xí)模型成功完成其任務(wù),至少其中一些功能與房屋價格之間需要存在統(tǒng)計關(guān)系。
> Boston housing prices dataset — features are highlighted red
2.特征選擇與工程
優(yōu)化機器學(xué)習(xí)模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點的一種方法是使用最佳功能來訓(xùn)練模型。
包括每個特征并不總是有用的。 有些特征可能與我們嘗試預(yù)測的變量沒有有意義的統(tǒng)計關(guān)系,而另一些特征可能彼此緊密相關(guān)。 這兩種情況都將噪聲引入訓(xùn)練階段,這可能會降低模型性能。 特征選擇是選擇最佳特征以包含在訓(xùn)練階段中的過程。
同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓(xùn)練性能模型。 另外,某些特征根本不能以其原始形式使用,一個很好的例子就是基于日期/時間的功能。 機器學(xué)習(xí)模型不能使用日期或時間戳作為特征,我們需要首先從日期中導(dǎo)出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計算兩個日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。
3.標(biāo)簽
有監(jiān)督的機器學(xué)習(xí)需要一些被稱為標(biāo)記數(shù)據(jù)的東西。 這意味著每組要素都具有相應(yīng)標(biāo)簽的數(shù)據(jù)。 這些標(biāo)簽可以是類別或類型(例如貓或狗),也可以是連續(xù)值,例如在波士頓房屋價格數(shù)據(jù)集中以標(biāo)簽為價格的情況。
在開發(fā)機器學(xué)習(xí)模型時,功能通常稱為X,標(biāo)簽稱為y。
> Boston housing prices dataset — labels are highlighted red
4.訓(xùn)練
監(jiān)督式機器學(xué)習(xí)需要標(biāo)記數(shù)據(jù),因為算法使用這些示例特征值及其對應(yīng)的標(biāo)記來"學(xué)習(xí)"模式,如果成功,則將使模型能夠準(zhǔn)確地預(yù)測新的未標(biāo)記數(shù)據(jù)上的標(biāo)記。
在機器學(xué)習(xí)過程中,學(xué)習(xí)的這一階段稱為訓(xùn)練階段。 在此階段結(jié)束時,您將擁有一個可用于預(yù)測新的未標(biāo)記數(shù)據(jù)的標(biāo)簽或值的模型。 訓(xùn)練階段通常稱為擬合模型。
5.調(diào)參
在本文前面介紹功能選擇時,我曾討論過一個優(yōu)化過程。 此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。
所有機器學(xué)習(xí)模型都包含具有多種選項的參數(shù)。 例如,隨機森林模型具有許多可調(diào)參數(shù)。 一個示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結(jié)果越好,但是在特定點(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進會降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機森林算法參數(shù)的方法。
每種算法都有許多可調(diào)參數(shù),并且每個參數(shù)都有大量潛在的選項。 幸運的是,有自動方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。
6.驗證
建立模型后,我們需要確定其執(zhí)行給定任務(wù)的能力。 在我們的示例數(shù)據(jù)中,我們將要了解模型可以多么準(zhǔn)確地預(yù)測房屋價格。 在機器學(xué)習(xí)中,建立最佳性能指標(biāo)很重要,這將根據(jù)我們要解決的問題而有所不同。
通常,在開始機器學(xué)習(xí)項目時,我們將首先將要使用的數(shù)據(jù)集分為兩部分。 我們一個用來訓(xùn)練模型,另一個用于測試階段。
機器學(xué)習(xí)中的測試通常稱為驗證。 我們使用模型對保留的測試數(shù)據(jù)集進行預(yù)測,并測量所選的性能指標(biāo),以確定模型能夠很好地執(zhí)行給定任務(wù)。
本文概述了討論機器學(xué)習(xí)時最常用的一些術(shù)語和概念。 如果您剛剛開始學(xué)習(xí),它應(yīng)該可以幫助您了解機器學(xué)習(xí)教程中使用的一些術(shù)語。 如果您想深入學(xué)習(xí)使用python創(chuàng)建您的第一個模型,可以在這里閱讀我的教程"如何創(chuàng)建您的第一個機器學(xué)習(xí)模型"。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132929
發(fā)布評論請先 登錄
相關(guān)推薦
評論