在之前的格物匯文章中,我們介紹了特征抽取的經(jīng)典算法——主成分分析(PCA),了解了PCA算法實質(zhì)上是進(jìn)行了一次坐標(biāo)軸旋轉(zhuǎn),盡可能讓數(shù)據(jù)映射在新坐標(biāo)軸方向上的方差盡可能大,并且讓原數(shù)據(jù)與新映射的數(shù)據(jù)在距離的變化上盡可能小。方差較大的方向代表數(shù)據(jù)含有的信息量較大,建議保留。方差較小的方向代表數(shù)據(jù)含有的信息量較少,建議舍棄。今天我們就來看一下PCA的具體應(yīng)用案例和特征映射的另一種方法:線性判別分析(LDA)。
PCA案例
在機器學(xué)習(xí)中,所使用的數(shù)據(jù)往往維數(shù)很大,我們需要使用降維的方法來突顯信息含量較大的數(shù)據(jù),PCA就是一個很好的降維方法。下面我們來看一個具體的應(yīng)用案例,為了簡單起見,我們使用一個較小的數(shù)據(jù)集來展示:
顯而易見,我們數(shù)據(jù)有6維,維數(shù)雖然不是很多但不一定代表數(shù)據(jù)不可以降維。我們使用sklearn中的PCA算法擬合數(shù)據(jù)集得到如下的結(jié)果:
我們可以看到經(jīng)過PCA降維后依然生成了新的6個維度,但是數(shù)據(jù)映射在每一個維度上的方差大小不一樣。我們會對每一個維度上的方差進(jìn)行歸一化,每一個維度上的方差量我們稱為可解釋的方差量(Explained Variance)。由圖可知,每一個維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據(jù)經(jīng)驗來說我們期望可解釋的方差量累計值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號中的數(shù)字為累計可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標(biāo)軸上的映射向量大小。在前兩維度上表現(xiàn)如下圖所示:
PCA雖然能實現(xiàn)很好的降維效果,但是它卻是一種無監(jiān)督的方法。實際上我們更加希望對于有類別標(biāo)簽的數(shù)據(jù)(有監(jiān)督),也能實現(xiàn)降維,并且降維后能更好的區(qū)分每一個類。此時,特征抽取的另一種經(jīng)典算法——線性判別分析(LDA)就閃亮登場了。
-
智能計算
+關(guān)注
關(guān)注
0文章
183瀏覽量
16623 -
智能制造
+關(guān)注
關(guān)注
48文章
5730瀏覽量
77105 -
工業(yè)互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
28文章
4347瀏覽量
94622
發(fā)布評論請先 登錄
相關(guān)推薦
PID控制算法的C語言實現(xiàn):PID算法原理
ADS1299用ADS采集數(shù)據(jù),ADS可以不抽取看原始得數(shù)據(jù)嗎?
特征工程實施步驟

求助,AD7190關(guān)于Σ-Δ ADC其中的抽取濾波器的數(shù)據(jù)轉(zhuǎn)換問題求解
圖像識別算法的核心技術(shù)是什么
使用rtthread settings配置完i2c后,與pca9535pw的第一通訊報錯,為什么?
PCA9655E I / O端口擴(kuò)展器 I

機器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

簡單認(rèn)識變頻器和PLC/PCA系統(tǒng)
如何使用萬用表檢查線路是短路還是接地
藍(lán)牙模塊選經(jīng)典藍(lán)牙還是低功耗藍(lán)牙?

鉗形表好用還是萬用表好用?
聊聊MCU死循環(huán),用for(;;)還是while(1)?

評論