在之前的格物匯文章中,我們介紹了特征抽取的經典算法——主成分分析(PCA),了解了PCA算法實質上是進行了一次坐標軸旋轉,盡可能讓數據映射在新坐標軸方向上的方差盡可能大,并且讓原數據與新映射的數據在距離的變化上盡可能小。方差較大的方向代表數據含有的信息量較大,建議保留。方差較小的方向代表數據含有的信息量較少,建議舍棄。今天我們就來看一下PCA的具體應用案例和特征映射的另一種方法:線性判別分析(LDA)。
PCA案例
在機器學習中,所使用的數據往往維數很大,我們需要使用降維的方法來突顯信息含量較大的數據,PCA就是一個很好的降維方法。下面我們來看一個具體的應用案例,為了簡單起見,我們使用一個較小的數據集來展示:
顯而易見,我們數據有6維,維數雖然不是很多但不一定代表數據不可以降維。我們使用sklearn中的PCA算法擬合數據集得到如下的結果:
我們可以看到經過PCA降維后依然生成了新的6個維度,但是數據映射在每一個維度上的方差大小不一樣。我們會對每一個維度上的方差進行歸一化,每一個維度上的方差量我們稱為可解釋的方差量(Explained Variance)。由圖可知,每一個維度上可解釋方差占比為:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根據經驗來說我們期望可解釋的方差量累計值在80%以上較好,因此我們可以選擇降維降到3維(82.99%)或者4維(93.11%),括號中的數字為累計可解釋的方差量,最后兩維方差解釋只有7%不到,建議舍去。圖中的柱狀圖表示原維度在新坐標軸上的映射向量大小。在前兩維度上表現如下圖所示:
PCA雖然能實現很好的降維效果,但是它卻是一種無監督的方法。實際上我們更加希望對于有類別標簽的數據(有監督),也能實現降維,并且降維后能更好的區分每一個類。此時,特征抽取的另一種經典算法——線性判別分析(LDA)就閃亮登場了。
審核編輯:符乾江
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
相關推薦
的乘法器和除法器設計,在不同專業芯片領域有著廣泛應用的數字信號發生器、復數求模求角度運算器、普通濾波器、E△ADC中使用的抽取濾波器、基于 E△結構實現的小數倍分頻器、CRC校驗器等。每個電路均給出了算法
發表于 11-21 17:14
1.用ADS采集數據,將時域的數據進行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數據嗎?
2.這個和手冊上的頻譜不
發表于 11-20 06:05
我客戶目前正在評估AMC1306M25,有以下疑問需要解答,可否幫忙確認一下:
圖為官方的例程,兩個都應該指的是抽取率OSR。但是當客戶在第一個函數中填的抽取率為64,到第二張圖中ratio的值
發表于 11-14 07:09
數據中提取數值表示以供無監督模型使用的方法(例如,試圖從之前非結構化的數據集中提取結構)。特征工程包括這兩種情況,以及更多內容。數據從業者通常依賴ML和深度學習算法
發表于 10-23 08:07
?340次閱讀
AD7190可以通過模式寄存器的FS[0:9]設置輸出速率, 0-1023的范圍;此時設置的數據速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比?
關于抽取濾波器,此時我設置的為1023,那我是否
發表于 09-09 06:11
息壤一體化智算服務平臺升級,天翼云幫助AI天命人踏上取經路
發表于 09-05 16:06
?2347次閱讀
圖像識別算法是計算機視覺領域的一個重要研究方向,其目標是使計算機能夠像人類一樣理解和識別圖像中的內容。圖像識別算法的核心技術包括以下幾個方面: 特征提取 特征提取是圖像識別
發表于 07-16 11:02
?713次閱讀
在使用rtthread settings配置完i2c后,與pca9535pw的第一通訊報錯,不知道為什么?代碼如下:
main:
/* 初始化PCA
發表于 07-09 08:04
電子發燒友網為你提供ON Semiconductor(ON Semiconductor)PCA9655E相關產品參數、數據手冊,更有PCA9655E的引腳圖、接線圖、封裝手冊、中文資料、英文資料,PCA9655E真值表,
發表于 06-28 16:28
關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習和機器學習領域都經常被用作示例。數據集內包含3類共150條記錄,每類各50個數
發表于 06-27 08:27
?1706次閱讀
在工業自動化領域,變頻器和PLC/PCA系統是兩個不可或缺的核心組成部分。變頻器以其對電機轉速和扭矩的精確控制,為工業自動化提供了強大的動力支持;而PLC/PCA系統則以其強大的邏輯處理能力和靈活
發表于 06-25 14:48
?798次閱讀
在電氣維修和檢測中,萬用表是一種不可或缺的工具。它能夠幫助我們快速準確地判斷電路中的各種問題,如短路、斷路和接地等。本文將詳細介紹如何使用萬用表來檢查線路是短路還是接地,并圍繞這一主題展開詳細的討論。
發表于 05-30 14:55
?2781次閱讀
energy和Bluetooth smart兩者又有什么區別?我的應用應該選經典藍牙技術還是低功耗藍牙技術?首先,在2010年以前,當我們談論藍牙的時候,就是在說的經典藍牙,因為那個時候還沒有低功耗藍牙
發表于 05-23 17:57
?1387次閱讀
鉗形表和萬用表都是電氣測量中常用的工具,它們各自具有獨特的功能和優勢。選擇鉗形表還是萬用表取決于具體的測量需求、使用場景和個人偏好。
發表于 05-09 17:03
?5552次閱讀
首先,問大家一個問題:你們寫單片機程序【死循環】時,喜歡用for(;;)還是while(1)?快來為你喜歡用的【死循環】打call,評論區等你哦~一位工程師發現,國外工程師在給demo在做死循環時
發表于 04-29 08:10
?1437次閱讀
評論